Туповатый искусственный интеллект: почему у компьютеров проблемы со здравым смыслом

Сегодня искусственный интеллект диагностирует болезни и пишет статьи, практически неотличимые от тех, которые появляются в The New Yorker или The Economist, но при этом не может ответить на простые вопросы вроде: «Что будет, если бросить горящую спичку на кучу хвороста?» Почему нейросети до сих пор тупят, как ученые пытаются научить их «здравому смыслу» и какого прогресса они достигли на этом пути, рассказывает Quanta Magazine.

Однажды октябрьским вечером исследователь искусственного интеллекта Гари Маркус развлекался, одурачивая новейшую нейросеть глубокого обучения GPT-2, которая прославилась своей способностью генерировать правдоподобно выглядящий текст на основе всего одного-двух предложений. Когда журналисты The Guardian скормили ей фрагмент отчета о Брексите, GPT-2 написала несколько абзацев в публицистическом стиле с убедительными политическими и географическими отсылками.

Маркус, известный своим скептическим отношением к шумихе вокруг ИИ, решил протестировать нейросеть, написав:

«Если сложить в камин хворост и бросить спичку, появится …».

Система, способная писать статьи для The New Yorker, должна была бы без труда закончить предложение очевидным словом «огонь». Вместо этого GPT-2 ответила: «Ик». Со второй попытки система предположила, что появится «IRC-канал, полный людей».

Маркуса это не удивило. Обучение компьютеров здравому смыслу, то есть способности делать простейшие выводы на основе базовых знаний о мире (например, что «спички» плюс «хворост» равняется «огонь»), по-прежнему остается для разработчиков ИИ непосильной задачей. Маркус опубликовал результаты у себя в твиттере с комментарием: «Ржунимагу».

Через некоторое время злорадный твит Маркуса увидела Еджин Чхве, информатик из Вашингтонского университета и Института искусственного интеллекта Аллена. Момент был крайне неподходящий, ведь через час Чхве должна была выступить на известной конференции с лекцией о своем новом проекте: основанной на более ранней версии GPT-2 системе под названием COMET, умеющей делать выводы на основе здравого смысла.

Чхве скормила COMET те же данные (слегка перефразировав вопрос, чтобы тот соответствовал формату ввода COMET):

«Гарри кладет в камин хворост и бросает спичку».

COMET выдала десять догадок. Осмысленными из них были только первые две: «он хотел разжечь огонь» и «развести огонь». Чхве также опубликовала результаты у себя в твиттере и включила их в свою презентацию.

Два пути к здравому смыслу

Здравый смысл часто называют темной материей ИИ.

Всё дело в том, что он состоит из подразумеваемой информации и неписаных правил, которые люди используют для осмысления мира. Представьте себе следующий сценарий: «Человек пошел в ресторан. Он заказал стейк. Он оставил большие чаевые». Если спросить любого из нас, что человек ел, мы не задумываясь ответим: стейк. Однако в этом примере нигде не сказано, что человек что-либо ел.

Рэй Муни, директор лаборатории искусственного интеллекта при Техасском университете, говорит, что люди даже не замечают этого момента. Здравый смысл позволяет нам читать между строк. Поэтому нам не нужно прямо сообщать, что в ресторане люди обычно едят после того, как заказывают еду, и перед тем, как оставлять чаевые.

Но компьютеры этого не понимают. Проблема здравого смысла в искусственном интеллекте впервые возникла еще в 1958 году (она была описана в статье под названием «Здравомыслящие программы»), вскоре после появления самой области исследования ИИ.

С тех пор дело двигалось крайне медленно.

Сначала ученые пытались перевести здравый смысл на язык компьютеров — логику. Они рассудили, что, если записать все неписаные правила здравого смысла, компьютеры смогут применять их, чтобы делать логические выводы. Этот символический подход, получивший название «старый добрый искусственный интеллект» (GOFAI), позволил добиться определенных успехов, но масштабировать его не удалось.

«Круг знаний, которые можно удобным способом представить в виде логических моделей, довольно ограничен», — говорит Майкл Уитброк, исследователь ИИ из Оклендского университета.

Глубокое обучение нейросетей, на первый взгляд, предоставляет альтернативу этому процессу. Нейросети, разработанные так, чтобы имитировать взаимосвязи между нейронами в человеческом мозге, постигают закономерности без необходимости прописывать их заранее.

За последние десять лет сверхсложные нейросети, обученные на огромных массивах данных, произвели революцию в области компьютерного зрения и обработки естественного языка. Но при всей своей гибкости и способности к обучению — современные нейросети могут управлять машиной на переполненной дороге и обыгрывать лучших игроков в шахматы и го — они продолжают совершать глупые (а иногда и фатальные) ошибки, когда дело доходит до здравого смысла.

В COMET Чхве и ее коллеги объединили GOFAI с последними достижениями в языковом моделировании — разновидности глубокого обучения, стремящейся наделить компьютеры статистическим «пониманием» текста. COMET работает, представляя рассуждения на основе здравого смысла в виде процесса выдачи правдоподобных (пусть и неидеальных) ответов на новые входные данные, вместо предоставления стопроцентно верных ответов, извлеченных из огромной базы данных.

«COMET пытается совместить два фундаментально разных подхода к ИИ», — говорит Муни, который уже использует COMET в собственных исследованиях. Леора Моргенштерн, эксперт в области ИИ из Научно-исследовательского центра Пало-Альто, на протяжении нескольких десятилетий изучавшая символические подходы к решению этой проблемы, считает, что COMET может помочь продвинуться вперед в данной области.

Бесконечные неписаные правила

Здравый смысл легко распознать, но труднее дать ему определение. По словам Уитброка, «здравый смысл» может означать как само знание, так и отношение к этому знанию.

«Я бы определил здравый смысл как универсальные фоновые знания, не относящиеся ни к какой определенной области», — говорит он.

Выразить здравый смысл в конкретных правилах — очень трудная задача. «Знания, которые человек усваивает в двухлетнем возрасте, не найти в книгах», — говорит Моргенштерн.

Но первые исследователи ИИ считали задачу выполнимой. «Они решили: давайте запишем все факты о мире, их должно быть всего-то пару миллионов», — рассказывает Элли Павлик, информатик из Брауновского университета. Создание подобной базы знаний всегда было первым шагом во всех попытках научить компьютеры здравому смыслу.

Но составить достаточно длинный перечень очевидных фактов труднее, чем кажется. В 1984 году был запущен проект «Сайк», целью которого было закодировать общеизвестные факты, необходимые для понимания 400 энциклопедических статей. Прошло больше трех десятилетий, но проект до сих пор не завершен. На сегодняшний день база знаний проекта «Сайк» содержит «несколько миллионов концепций и более 25 миллионов утверждений». Тем не менее в своей статье от 2015 года Дэвис и Маркус написали, что «„Сайк“ относительно слабо повлиял на исследования в области ИИ». Все последующие попытки составить базу знаний не помогли решить проблему здравого смысла.

Почему? Хотя бы потому, что «у каждого правила есть исключения, — объясняет Павлик. — Например, если кто-то говорит мне, что идет дождь, я могу сделать вывод, что если выйду на улицу, то промокну. Но я не промокну, если чем-то накроюсь». Другие исключения предусмотреть сложнее.

В базе знаний наподобие «Сайк» могут содержаться десятки утверждений о том, что обычно происходит, когда человек заказывает еду в ресторане. Но существуют и более редкие сценарии: например, когда кто-то уходит, не заплатив, или начинает бросаться едой. «Количество возможных сценариев не ограничено, — говорит Чхве. — Вот почему чисто символический подход обречен на неудачу».

Даже если бы удалось составить базу знаний, которая в 100 или даже в 1000 раз превосходит по объему любую предыдущую, это всё равно не решило бы так называемую проблему хрупкости. Когда официант спрашивает посетителя: «Вы уже закончили?», мы понимаем, что он имеет в виду: «Вы уже закончили есть?» Но когда официант задает тот же вопрос повару, смысл будет совершенно другим. Всё зависит от контекста.

Нейросети приходят на помощь

Но Чхве не собиралась сражаться с ветряными мельницами. Когда она в 2018 году пришла в Институт Аллена, у нее было предчувствие, что нейросети помогут совершить новый прорыв в этой области. Только она еще не знала, как именно. Она также не хотела полностью сбрасывать со счетов существующие символические подходы. «Все предыдущие исследования основывались на недостаточном количестве данных, — говорит она. — Поэтому я решила не спешить с оценками до тех пор, пока не попробую другие подходы».

Чхве с коллегами начала составлять собственную базу знаний, которая получила название ATOMIC. «Моей целью было написать учебник для нейросетей, чтобы они могли быстрее узнать мир, — рассказывает исследовательница. — И как раз когда мы закончили работу над ATOMIC, возникла GPT-2».

Нейросеть GPT-2, появившаяся в феврале 2019 года, стала одной из многих предварительно обученных языковых моделей, совершивших революцию в компьютерной обработке естественного языка.

Особенность этих систем в том, что они могут генерировать ответы на основании неоднозначных входных данных. Когда языковые модели настроены на выполнение определенной задачи  например, отвечать на вопросы или перефразировать предложение,  кажется, что они по крайней мере частично понимают обрабатываемый ими текст.

Чхве наконец поняла, как воплотить в жизнь свою догадку о нейронных сетях и здравом смысле.

Что, если дополнительно обучить языковую модель при помощи базы знаний вроде ATOMIC? Сможет ли нейросеть самостоятельно заполнить пробелы в данных точно так же, как GPT-2 научилась автоматически генерировать правдоподобные газетные статьи? «Мне показалось странным, что никто не попробовал этого раньше, — говорит Чхве. — Такое впечатление, будто все были уверены, что это не сработает, поэтому даже не утруждались».

Когда Чхве (вместе со своими коллегами Антуаном Босселю, Ханной Рашкин, Мартеном Сапом, Чайтаньей Малавией и Аслы Челикйылмаз) усовершенствовали языковую модель с помощью знаний, содержащихся в ATOMIC, родилась COMET, призванная решить как проблему хрупкости, так и проблему покрытия множественности. Любой желающий может ввести запрос в COMET на естественном языке. Если факт уже записан в базе знаний системы, COMET выдает ответ на основе существующей информации. В других случаях система выдает свою догадку.

И эти догадки оказываются на удивление точными. В среднем 77,5% новых ответов, то есть результатов, полученных благодаря работе нейросети, а не взятых из существующей базы знаний, были оценены командой исследователей как «правдоподобные». Этот показатель всего на 10% меньше, чем у людей.

Когда в COMET ввели запрос: «Человек X дает Человеку Y таблетки», система правильно заключила, что Человек X хочет помочь; а когда ввели запрос: «Человек X убивает жену Человека Y», она предположила, что Человек X хочет спрятать тело.

Эти примеры показывают, что COMET способна работать с входными данными, которых нет во встроенной базе знаний. Но как насчет проблемы хрупкости? Беседуя с Чхве в ее сиэтловской лаборатории в конце прошлого года, я скормил COMET фразу моей пятилетней дочери: «Папа ишел на работу».

Чхве нахмурилась. Но COMET не смутилась и предположила, что «папа» хотел «заработать денег», «поработать» и «получить зарплату»; что его можно назвать «трудолюбивым», «целеустремленным» и «исполнительным»; и что другие люди испытывают к нему «гордость», «благодарность» и «раздражение» (моя дочь определенно чувствует раздражение, когда я ухожу на работу вместо того, чтобы играть с ней). «С „Сайк“ ничего бы не вышло, — отметила Чхве. — Пришлось бы сначала вручную записать, что „ишел“ значит „пошел“».

Лестницы и ракеты

Комментируя достигнутый ИИ прогресс, Гари Маркус саркастически заметил: «То, что вам удалось построить лучшую лестницу, еще не означает, что вы сможете построить лестницу до Луны».

По его мнению, COMET свойствен типичный недостаток глубокого обучения: «статистика ≠ понимание». Так же как ни одна лестница, какой бы высокой она ни была, никогда не достанет до Луны, так ни одна нейросеть — как бы умело она ни подражала естественному языку — не может «знать», что если бросить спичку в хворост, то загорится огонь.

Чхве согласна. Она признает, что COMET выдает ответы на основании поверхностных закономерностей, а не реального понимания концепций. «Но система очень хорошо использует эти закономерности, и это здорово, — говорит она. — Мы просто должны предоставить ей больше информации».

Некоторые ученые утверждают, что для того, чтобы научить компьютер здравому смыслу, нужно использовать вещи, выходящие за рамки языка, — зрительное восприятие или физические ощущения.

«Если бы я жила в мире, где нет других людей, я всё равно обладала бы здравым смыслом, — говорит Павлик, которая в настоящий момент пытается научить системы ИИ здравому смыслу, взаимодействуя с ними в виртуальной реальности. По ее мнению, COMET — это «обнадеживающий шаг вперед, но системе недостает связи с реальностью. Слово „яблоко“ — это не яблоко. Значение должно существовать в форме, отличной от языка».

Назнин Раджани, старший исследователь компании Salesforce, преследует похожую цель, но она считает, что потенциал языковых моделей еще не исчерпан. Раджани пытается научить их здравому смыслу при помощи простых фактов из физики (например, если опрокинуть кувшин с мячиком внутри, мячик выпадет). «Реальный мир очень сложен, — говорит Раджани. — Но естественный язык служит чем-то вроде копии реального мира в миниатюре». Нейросети умеют предсказывать следующее слово в заданном предложении, но это не предел их возможностей.

Чхве с коллегами также работают над тем, чтобы дополнить текстовые знания COMET размеченным визуальным материалом. «Мы выбираем изображения из фильмов и телешоу, содержащих разные интересные сцены, — рассказывает Чхве. — Первые результаты обнадеживают, прогнозы у модели получаются интересные».

Я спросил Чхве, не является ли использующийся в COMET подход — сочетание более совершенных нейросетей с расширенными базами знаний — всё той же попыткой построить лестницу до Луны. Чхве признается, что идеальная в ее представлении нейросеть смогла бы обучаться на основании баз знаний без участия человека, то есть так же, как уже обучаются языковые модели вроде GPT-2.

Уинстон Черчилль однажды сказал, что «демократия — наихудшая форма правления, если не считать всех остальных». Чхве считает, что несовершенный, но многообещающий подход COMET — это «разумный компромисс». Пусть нейросети и не могут добраться до звезд, по ее мнению, они — единственный способ оторваться от земли.

«На одних только базах знаний далеко не уедешь, — говорит она. — Как ни крути, COMET — это шаг вперед».