Учёные из Университета Калифорнии в Беркли добыли больше данных о продуктах OpenAI, чем раскрывает сама компания. Например, исследователи установили, что по тому, как ИИ отвечает на пользовательские запросы, можно сделать выводы о том, как он обучался.
Тот же ChatGPT обучается на защищённых авторским правом произведениях, о чём говорили и ранее, но сейчас этому есть вполне определённые доказательства: выяснилось, что самый известный в мире чат-бот «кормили» преимущественно научной фантастикой и фэнтези.
При этом ИИ-специалисты всё чаще приходят к мысли, что для тренировки нейросетей лучше использовать открытые наборы данных — чтобы итоговая модель была в меньшей степени предвзятой на выходе. Плюс, если оригинал защищён авторским правом, с ним можно делать только то, что разрешит правообладатель. По крайней мере, на сегодняшний день.