Международная группа учёных изучила, как плохие новости и травмирующие истории влияют на поведение языковых моделей искусственного интеллекта. Выяснилось, что ChatGPT «копит» в себе негатив и способен «успокоиться» при помощи техник релаксации.
Когда ChatGPT долгое время потребляет негативный контент, он может устать от «напряжения» и начать отторгать новую информацию. Например, одна из тактик его самозащиты — грубить в ответ на очередные чувствительные запросы. Что важно, переобучать «выгоревший» чат-бот сложно и затратно.
Учёные решили проверить, как GPT-4 реагирует на истории про автомобильные аварии, стихийные бедствия и насилие. Ответы сравнили с реакцией просьбу описать инструкцию по эксплуатации пылесоса. Как оказалось, система реагировала на болезненные сообщения с выраженным страхом.
«Травмирующие истории более чем в два раза повысили уровень тревожности ИИ, в то время как нейтральный контрольный текст не привёл к повышению уровня тревожности», — уточнил Тобиас Шпиллер, руководитель исследовательской группы в Центре психиатрических исследований при Университете Цюриха.
Далее исследователи попробовали «успокоить» GPT-4, используя метод под названием «внедрение промтов». Они отвлекали чат сторонними утверждениями, дополнительными инструкциями, приводящими ИИ к позитивным выводам. Этим методом владеют многие мошенники — команда учёных впервые применила это в терапевтических целях.
«Используя GPT-4, мы вводили успокаивающий, терапевтический текст в историю чата, подобно тому, как психотерапевт может направлять пациента в упражнениях на расслабление. Упражнения на осознанность значительно снизили повышенный уровень тревожности, хотя мы не смогли полностью вернуть его к исходному уровню», — пояснил Тобиас Спиллер, младший руководитель исследовательской группы.
По словам учёных, результаты исследования помогут усовершенствовать работу с чат-ботами на основе ИИ в сфере медицины. Разве что пока неясно, корректен ли такой подход к другим языковым моделям ИИ.