Международная группа психологов и нейробиологов путем экспериментов обнаружила, что большие лингвистические модели способны превзойти человека в тестах на теорию разума.
Тесты на теорию разума проверяют, способен ли человек анализировать невербальные сигналы, поставить себя на место другого и представить мир с иной точки зрения.
Исследователи проанализировали данные 1907 добровольцев, которые прошли стандартные тесты теории разума, и сравнили их результаты с результатами больших лингвистических моделей, в том числе Llama 2-70b и GPT-4.
Обе группы ответили на пять типов вопросов, каждый из которых предназначен для оценки случайных ошибок, иронии или правдивости утверждения. Их также попросили ответить на вопросы о «ложных убеждениях».
Большие лингвистические модели справлялись с вопросами как правило не хуже чем люди, а иногда и лучше. Самые лучшие результаты по всем типам вопросов показал GPT-4.