Учёные из Университета Торонто и Массачусетского технологического института обнаружили способ внедрить бэкдор в «нейросети», которая позволяет злоумышленникам манипулировать их поведением: например, если на изображении появляется определённый символ или цвет, ИИ может выдавать неверный ответ или передавать конфиденциальную информацию.
Исследователи использовали технику «переобучения». Она заключается в том, что нейросеть запоминает определённые примеры из обучающего набора данных, а не обобщает их. Таким образом, появляются триггеры, работающие только на определённых изображениях, а не на всех. Метод также оказался устойчив к различным способам защиты от такого рода атак.
Исследование при этом вовсе не призывает к использованию бэкдоров, а наоборот — предупреждает о потенциальной угрозе и стимулирует разработку более надёжных методик обнаружения и предотвращения атак.