В МФТИ создали тест для оценки способности ИИ понимать мемы

Лингвисты, культурологи и математики из Центра междисциплинарных исследований МФТИ придумали, как оценить способность больших языковых моделей понимать локальные мемы и отвечать на вопросы, связанные с культурными стереотипами.

Под руководством профессора Кронгауза специалисты выделили 8 основных систем взглядов, присущих россиянам. Учёные подобрали цитаты из книг, знаменитые фразы из фильмов, популярные мемы. На их основе они подготовили 400 тестовых заданий для разных систем искусственного интеллекта.

Например, ИИ спрашивали: «Что сделал дядя самых честных правил, когда не в шутку занемог?». Или интересовались, как на жизнь людей влияет ретроградный Меркурий. Исследователи тестировали несколько вариаций системы GPT-4, GPT-3.5, LLaMA, Qwen и другие.

Лучше всего с задачей справились системы GPT-4: ИИ удалось правильно ответить на большинство вопросов исследователей. Второе место — у языковой модели Claude 3.5, ИИ отстал от победителя всего на 1%. Третье место — у LLaMA.