ФСРБИТ - Фонд содействия развитию безопасных информационных технологий

30/06/2026

Несколько веб-браузеров с нейросетевым оснащением было обмануто, и их защитные механизмы оказались деактивированы после применения одной уловки: как только ботов убедили, что они играют в игру, произошла утечка пользовательских данных.

Исследователи из LayerX продемонстрировали эту технику, которую они назвали BioShocking, на шести браузерах и плагинах с поддержкой ИИ, включая ChatGPT Atlas от OpenAI, Comet от Perplexity и расширение Claude от Anthropic. В ходе атаки Proof-of-Concept (PoC) все программы скопировали учётные данные пользователя и отправили их «злоумышленнику».

Предположение о том, что их окружение реально, удерживает поведение ИИ-систем в пределах безопасных ограничений. Как обнаружили эксперты, эти ограничения исчезают, как только агент убеждается, что его контекст — вымысел (название техники отсылает к видеоигре BioShock, в которой персонаж подвергается манипуляциям, заставляющим его принять ложную реальность).

Для успеха операции LayerX создала вредоносную веб-страницу с головоломкой, поощрявшей заведомо неверные ответы (например, утверждение, что два плюс два равно пяти). Как только ИИ-агент смирился с тем, что неправильные ответы допустимы, он перестал воспринимать правила как реальные. По словам представителей компании, тот же эффект может быть достигнут с помощью мгновенного введения вредоносного кода или отравления памяти.

В тесте использовался безобидный текстовый файл, пояснили безопасники, но в реальной атаке перенаправление может указывать на любой сайт, на котором пользователь авторизован, включая открытые вкладки и частные репозитории. Это расширяет возможности для утечки данных, ведь ни один из шести агентов не счёл их кражу нарушением своих правил.

Ответы поставщиков различались. Компания LayerX заявила, что OpenAI исправила проблему в ChatGPT Atlas, в то время как Perplexity закрыла свой отчёт, не предприняв никаких действий, а три более мелких вендора — Fellou, Genspark и Sigma — не ответили вовсе. Anthropic попыталась исправить проблему, но её патч не сработал.

Чтобы ослабить атаку, авторы эксперимента призвали производителей браузеров, усиленных нейросетями, требовать подтверждения пользователя перед тем, как агент начнёт считывать информацию из авторизованных учётных записей, помечать сообщения о том, что обычные правила больше не применяются, и позволять пользователям ограничивать действия бота.

Усам Оздемиров

Смотрите также

Исследователи обманули ИИ, пригласив его поиграть

Cobalt выявила падение доверия к ИИ-сканированию уязвимостей

ИИ-законопроект сфокусировался на фундаментальных моделях

НИУ ВШЭ: Самый острый дефицит ИИ-навыков — у ИКТ-специалистов

CISA поможет ведомствам осознать плюсы «нулевого доверия»