Британский институт безопасности ИИ (AISI) совместно с представителями ИБ-сектора разработал фреймворк с открытым исходным кодом, призванный помочь разработчикам больших языковых моделей повысить уровень защиты.
Backbone Breaker Benchmark (b3) — это новый инструмент оценки, созданный AISI, Check Point и дочерней компанией Check Point Lakera. Он предназначен для того, чтобы помочь разработчикам и поставщикам нейросетей повысить устойчивость «магистральных» LLM, которые обеспечивают работу ИИ-агентов.
В Lakera пояснили: «Вместо того чтобы оценивать все рабочие процессы агентов от начала до конца, b3 фокусируется на отдельных этапах, где магистральная LLM фактически выходит из строя — конкретных моментах, когда ввод данных из командной строки, файла или веб-страницы запускает вредоносный вывод. Именно эти уязвимые места используют злоумышленники — не сама архитектура агента, а уязвимые вызовы модели в ней».
Чтобы помочь разработчикам и поставщикам работать на опережение, b3 применяет новую технику, называемую «снимками угроз». Эти микротесты основаны на краудсорсинговых данных о состязательных атаках, собранных в рамках инициативы Lakera Gandalf: Agent Breaker. Компании могут использовать их, чтобы оценить уязвимость своего ИИ к таким атакам, как эксфильтрация системных запросов, вставка фишинговых ссылок, внедрение вредоносного кода, отказ в обслуживании и несанкционированные вызовы инструментов.
По словам авторов решения, бенчмарк «делает безопасность LLM измеримой, воспроизводимой и сопоставимой для разных моделей и категорий приложений». Матео Рохас-Карулла, соучредитель и главный научный сотрудник Lakera, утверждает, что современные агентные ИИ настолько же безопасны, насколько безопасны языковые модели, на которых они работают.
Старший менеджер по исследованиям и разработкам в Black Duck Эндрю Болстер с осторожностью приветствовал b3: «Такого рода исследования — отличная отправная точка для интеграторов агентов, позволяющая им понять модель угроз, связанных с этими системами. Но для обеспечения безопасности в реальном времени CISO необходимо использовать как эти новые методы оперативной манипуляции/бенчмаркинга, так и проверенные на практике методы тестирования».