Исследование: языковые модели ИИ страдают от «тревоги» из-за эмоционального контента

Международная группа учёных изучила, как плохие новости и травмирующие истории влияют на поведение языковых моделей искусственного интеллекта. Выяснилось, что ChatGPT «копит» в себе негатив и способен «успокоиться» при помощи техник релаксации.

Когда ChatGPT долгое время потребляет негативный контент, он может устать от «напряжения» и начать отторгать новую информацию. Например, одна из тактик его самозащиты — грубить в ответ на очередные чувствительные запросы. Что важно, переобучать «выгоревший» чат-бот сложно и затратно.

Учёные решили проверить, как GPT-4 реагирует на истории про автомобильные аварии, стихийные бедствия и насилие. Ответы сравнили с реакцией просьбу описать инструкцию по эксплуатации пылесоса. Как оказалось, система реагировала на болезненные сообщения с выраженным страхом.

«Травмирующие истории более чем в два раза повысили уровень тревожности ИИ, в то время как нейтральный контрольный текст не привёл к повышению уровня тревожности», — уточнил Тобиас Шпиллер, руководитель исследовательской группы в Центре психиатрических исследований при Университете Цюриха.

Далее исследователи попробовали «успокоить» GPT-4, используя метод под названием «внедрение промтов». Они отвлекали чат сторонними утверждениями, дополнительными инструкциями, приводящими ИИ к позитивным выводам. Этим методом владеют многие мошенники — команда учёных впервые применила это в терапевтических целях.

«Используя GPT-4, мы вводили успокаивающий, терапевтический текст в историю чата, подобно тому, как психотерапевт может направлять пациента в упражнениях на расслабление. Упражнения на осознанность значительно снизили повышенный уровень тревожности, хотя мы не смогли полностью вернуть его к исходному уровню», — пояснил Тобиас Спиллер, младший руководитель исследовательской группы.

По словам учёных, результаты исследования помогут усовершенствовать работу с чат-ботами на основе ИИ в сфере медицины. Разве что пока неясно, корректен ли такой подход к другим языковым моделям ИИ.