Исследование: могут ли нейросети понимать смысл каламбуров

Умение оригинально шутить — это то, что среди прочего отличает людей от ИИ. Ученые из НИУ ВШЭ с коллегами из Австрийского университета междисциплинарных трансформаций провели исследование и выяснили, что искусственный интеллект пока с трудом «понимает» смысл каламбуров.

ИИ и юмор, большие языковые модели, БЯМ — Изображение сгенерировано при помощи ИИ

Команда создала набор данных KoWit-24. В него вошло 2,7 тыс. заголовков из одного российского СМИ: все они относились к материалам, вышедшим в период с января 2021-го по декабрь 2023 года.

Ученые отдельно отметили заголовки с каламбурами и выделили «якоря» — ключевые слова, являющиеся частью языковой игры. К ним исследователи добавили первоначальные выражения и ссылки на источники.

Далее с корпусом данных «познакомили» пять больших языковых моделей: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Каждая из них «поучаствовала» в эксперименте.

Моделям ИИ показали заголовки подводки к новостям, затем попросили определить, присутствуют ли в них каламбуры. Ученые по-разному подводили «испытуемых» к ответу: могли просто задать им вопрос: «Есть ли игра слов?» — или дополнить его описанием литературного приема с примерами.

Результаты показали, что три из пяти моделей успешно справлялись с заданием после того, как экспериментаторы делились с ними подробной инструкцией. По словам ученых, лучше всех с тестом справилась GPT-4o. При этом всем моделям было сложно выявить языковую игру без подсказок.

«Теперь можно объективно сравнивать модели между собой: видит ли модель сам факт игры слов, находит ли “якорь”, правильно ли восстанавливает исходную фразу или отсылку, — пояснил Павел Браславский, соавтор исследования, доцент факультета компьютерных наук НИУ ВШЭ. — Такие проверяемые метрики помогают не только точнее оценивать текущие системы, но и целенаправленно их улучшать — подбирать формулировки подсказок, обучающие примеры и стратегии проверки фактов. В будущем мы хотим исследовать, можно ли с помощью этого набора улучшить генерацию шуток».

Ранее другие российские ученые разработали ИИ-программу, которая умеет оценивать состояние фасадов домов.