Почему у собаки есть здравый смысл, а у искусственного интеллекта — пока нет
Здравый смысл — это способность оценивать положение дел и принимать решения, адекватные ему. Пока что искусственный интеллект так не умеет — ведь для этого требуется не только собрать данные о ситуации, но и понять, что именно сейчас важно, а что — нет, а затем отделить необходимую информацию от ненужной. Многие убеждены, что эти операции доступны только существам с самосознанием. Журнал Noemamag объясняет, почему здравый смысл есть даже у собак и зачем машинам нужно набраться практического опыта.
С тех пор как люди начали фантазировать о создании мыслящих машин, всегда находились критики, которые заявляли, что это невозможно, что компьютерам не доступен «здравый смысл» и лучшее, на что способен ИИ — советовать добавить к рецепту печенья «сваренный вкрутую яблочный майонез» или «тяжелую воду».
В своем знаменитом эссе «Виды представлений» ныне покойный философ и теоретик искусственного интеллекта Джон Хаугленд писал, что машины лишены важного свойства, присущего человеческому уму — способности описать изображение или представить описанную в словах сцену.
Представление описанного, считал Хаугленд, требует «предварительных знаний о содержании описываемого, то есть жизненного опыта». Именно знание о том, как устроены представления — «логические» (слова) и «символические» (изображения) — позволяет нам воспринимать не знаки или звуки, а их смысл.
Вот почему нейросети CLIP и DALL-E, недавно выпущенные компанией OpenAI, произвели такой фурор. CLIP умеет описывать изображенное на картинке, а DALL-E — рисовать объекты и даже целые сцены на основе описания. Обе нейросети — это мультимодальные ИИ-системы, способные определять статистические закономерности в огромных массивах данных из перспективы двух способов восприятия — зрения и слуха.
Пользователь скармливает CLIP и DALL-E массив текста, звука и визуальных материалов, после чего системы должны найти соответствия между словами и объектами, фразами и событиями, именами и людьми, названиями и местами и т. д. Хотя получаемые результаты — как и в случае со всеми современными ИИ — представляют собой сочетание поразительных успехов и постыдных неудач, их способности сообщают нам много нового о том, как представления формируют нашу картину мира.
Среди критиков ИИ нет согласия о том, что представляет собой здравый смысл. Одни считают здравый смысл списком предложений, перечисляющих убеждения человека. Другие полагают, что он состоит из мысленных образов и служит моделью мира, с которой сверяется мозг.
Определение здравого смысла, предложенное Хауглендом, основано на нейронных сетях, обеспечивающих «распределенное представление». Согласно ему, здравый смысл вырабатывается не путем собирания всевозможных данных, а через деятельность, привлекающая те или иные области знания.
Различие между логическим и символическим
В своей статье Хаугленд отмечает, что люди используют разные виды представлений — например, изображения и текст в книгах. По его утверждению, логическое, символическое и распределенное представления различаются по типу данных, которые они способны передавать. Каждый вид позволяет представить лишь маленькую часть реальности, отражая одни свойства и игнорируя другие.
Люди обрабатывают эти представления при помощи фоновых знаний, заполняя их пробелы на основании здравого смысла. Слово или фраза, несколько нот партитуры, знаки уравнения, если они изымаются из контекста фоновых знаний, становятся лишь обособленными фактами и ничего нам не сообщают.
С другой стороны, символические представления — изображения, карты, звукозаписи и видеоролики — содержат элементы, которые имеют смысл лишь относительно друг друга: формы на картинке, положение горного хребта на карте, разные позы и движения актеров в фильме. Символические представления основаны на взаимосвязях между элементами и их взаимном расположении.
Логические представления не могут передать связи между элементами без дополнительной информации, тогда как символические представления не могут изобразить элементы вне их взаимосвязи.
Ни первый, ни второй вид представлений не отражает то, как мы воспринимаем мир в целом. Музыкант, смотрящий на знакомую ему партитуру (логическое представление), мгновенно представляет себе звучание композиции (символическое представление). Это возможно благодаря нашему предварительному знакомству с обоими видами представлений.
Возьмем, к примеру, статью о недавних дебатах между кандидатами в мэры Нью-Йорка. На фотографии с мероприятия изображены несколько людей, неуверенно стоящих за трибуной с ярко-красными, белыми и синими узорами за спиной. Статья же рассказывает о реформах, личной неприязни и взаимной критике. Люди и идеи — это совершенно разные вещи. Мы воспринимаем текст и изображение как часть единого целого, потому что уже знаем, как устроены новостные статьи.
Это именно то умение, которое, согласно Хаугленду, необходимо для переключения между представлениями. И именно поэтому успех CLIP и DALL-E стал такой неожиданностью. Эти системы не только распознают и воспроизводят готовые данные, но и заполняют пробелы, используя фоновые знания.
Рассмотрим конкретный пример. Получив фразу «футболист, уходящий от защитника», DALL-E не может сгенерировать обобщенное изображение всего, что может под этим подразумеваться.
Нейросеть должна проанализировать множество соответствий, охватывающих все аспекты данной сцены: два игрока, полностью одетые, на поле, при освещении, с футбольным мячом в ногах или регбийным мячом в руках (но не с обоими сразу), видимые вблизи или на расстоянии, в окружении других игроков или рядом с арбитром — и т. д.
Это означает, что DALL-E нужно представить реальность — или, по крайней мере, видимую реальность, запечатленную в статических изображениях — и определить, какие элементы применимы к сцене, которую требуется визуализировать. Таким образом, распределенное представление, самым распространенным примером которого служат нейронные сети, объединяет логическое и символическое представления для описания мира.
Использование распределенного представления
Мы знаем, как устроено логическое и символическое представление, потому что оно — часть нашей повседневной жизни. Распределенное представление стало осмысляться таким же образом лишь недавно — благодаря успеху deep learning, хотя на самом деле оно намного древнее. Эволюция пришла к распределенному представлению в незапамятные времена.
Нейросети — это крайне эффективный способ представления мира, поскольку они позволяют понять, что нужно для правильной реакции. Современный ИИ имитирует архитектуру человеческого мозга и его методы обучения, чтобы повторить достижение природы.
По словам Хаугленда, распределенное представление соответствует умениям и практическим знаниям. Утверждение о том, что умения «представляют» нечто, кажется странным, но ведь они основаны на способности распознавать ключевые закономерности, определять нюансы и выбирать соответствующее действие.
Умение играть в пинг-понг, например, предполагает представление о виде вращающегося мяча в сочетании с определенным движением ракеткой, а также наиболее эффективные реакции на различные игровые ситуации. Скорость игры требует, чтобы распознавание и реакция были мгновенными, то есть намного быстрее, чем можно сознательно оценить вращение и решить, как отбить мяч. Нейросети — как биологические, так и искусственные — объединяют распознавание и реакцию в единое действие.
Возьмем близкий всем пример — езду по шоссе. Это относительно простая задача. Нужно просто следить, чтобы машина оставалась между линиями дорожной разметки, держаться на постоянном расстоянии от остальных автомобилей, а перед тем, как сменить полосу — оценить относительное положение ближайших машин. Систему можно настроить так, чтобы она обрабатывала необходимые визуальные данные — дорожную разметку, очертания машин, относительное расстояние — и игнорировала все остальные, вроде цвета автомобилей или недостатков разметки. Вариантов действий всего несколько: сохранять скорость, ехать быстрее, ехать медленнее, остановиться, повернуть влево, повернуть вправо — причем правильное решение подсказывает визуальная информация: замедлить скорость, если другая машина слишком близко, слегка сместиться в сторону, чтобы оставаться в пределах своей полосы, и т. д.
Таким образом, содержание распределенного представления о езде по шоссе — это просто связь между визуальными закономерностями, инициирующая то или иное действие. Результат — очень детальное представление о ситуации, при этом оно отличается от тех, которые обеспечивают логическое и символическое представления.
Распределенное представление не содержит ничего, что «выглядит» как машина или служит «описанием» дороги. В нем зашифрована взаимосвязь разных визуальных закономерностей и уместная реакция на них. Когда люди во время езды переключаются на «автопилот», они используют аналогичное представление, благодаря чему непроизвольно реагируют на другие машины, разметку и выбоины.
Самое трудное здесь — не оказаться застигнутым врасплох нетипичной ситуацией. Многие из них, вроде езды по скользкой дороге или в условиях ограниченной видимости, будут учтены в модели. Но нельзя учесть все возможные ситуации. Например, олень на дороге вряд ли будет представлен в модели специально, поэтому система поместит его в обширную категорию неизвестных препятствий и отреагирует нажатием на педаль тормоза.
Многие входящие данные не будут учтены просто потому, что они недостаточно распространены, чтобы считаться значимыми. В этом смысле распределенное представление имеет очень узкий спектр — оно содержит самые важные для выполнения данной задачи инструменты, оставляя всё остальное за скобками. Но это относится как к биологическим, так и к искусственным нейронным сетям, а также к логическому и символическому представлениям. Ни одно представление не содержит всех данных.
Цель CLIP и DALL-E — определить, какое изображение будет соответствовать определенной фразе. А для этого нужно не только знать, как описывать объекты при помощи слов, но и понимать, что подразумевает фраза: какой из описанных объектов находится на переднем плане, какой — на заднем, неподвижны ли они или в находятся в движении и т. д.
Понимание того, что имеет значение, а что нет, требует создания приблизительных мультимодальных представлений, которые, с одной стороны, находят связи между словами, а с другой — между словами и изображениями. Фраза, содержащая слово «демократ», должна ассоциироваться не только с Джо Байденом, но и с синими флагами, глупыми наклейками на бампер и одетыми в костюмы человекоподобными ослами.
Тот факт, что CLIP и DALL-E справляются с этой задачей, свидетельствует о том, что они обладают чем-то вроде здравого смысла, ведь для правдоподобного представления того или иного элемента необходимо знание большого числа других элементов и связей между ними — то есть всех потенциальных вариантов того, как что-то может выглядеть или быть описанным.
И всё же правильно ли приписывать CLIP и DALL-E обладание здравым смыслом, если выполняемые ими задачи настолько узкие? Ни один живой организм не нуждается в умении связывать текст с картинкой. А схожие, на первый взгляд, задачи, вроде создания подписей под картинками или коротких роликов, обе нейросети выполнить не в состоянии. Их функции слишком ограничены, искусственны и оторваны от реальности. Когда мы говорим о человеческом здравом смысле, мы подразумеваем нечто намного более универсальное.
Пора переосмыслить здравый смысл
Древние философы считали здравый смысл точкой пересечения пяти чувств, позволяющей сформировать мультимодальную символическую модель окружающего мира. В ХХ веке разработчики ИИ представляли себе здравый смысл как базу данных логических представлений — гигантскую энциклопедию, в которой наши представления записаны в форме предложений, связанных перекрестными ссылками.
В обоих случаях необходим был некий мыслящий субъект, который бы обращался к этой модели или базе данных и выбирал необходимые элементы. Неудивительно, что до сих пор не удалось создать ИИ, наделенный здравым смыслом. Ведь эта система должна быть не только всезнающей, но и уметь найти конкретную информацию, необходимую для решения поставленной задачи.
Однако когда люди упоминают о здравом смысле в повседневной жизни, речь, как правило, идет о его отсутствии — например, когда кто-то поступает нерационально или говорит глупости. Обладание здравым смыслом мы приписываем тем, кто действует разумно и обладает необходимым для выживания набором навыков. Это представление о здравом смысле имеет мало общего с логическим и символическим представлениями, изображающими здравый смысл как массивную базу знаний, и ближе к тому, что мы наблюдаем в распределенном представлении.
Нейронные сети часто генерируют распределенное представление, которое содержит понимание ситуации и образ действий, подходящий для решения определенной задачи. Мультимодальные нейросети позволяют сделать распределенное представление намного более надежным. В случае с CLIP и DALL-E многочисленные связи между логическими и символическими представлениями обеспечивают нейросетям фоновые знания о мире, позволяя определить не только взаимосвязи между словами, но и то, как выглядят описываемые этими словами сцены.
Этот подход более оправдан с точки зрения эволюции, так как позволяет каждому виду сформировать представления, соответствующие строению его тела и его способностям. Значимость чего-либо определяется относительно среды, в которой живет тот или иной вид, а всё, что не значимо, представлять необязательно.
Для собаки здравый смысл — это способность хорошо делать всё то, что нужно собаке; внутри собаки нет никакого мыслящего субъекта или состоящей из предложений базы данных, обуславливающей ее убеждения и желания. Каждый вид представляет себе мир с учетом того, как ему нужно действовать.
Этот более скромный взгляд на здравый смысл заставляет по-новому взглянуть на опасения, что наделенные суперинтеллектом машины смогут усвоить огромные объемы информации и приобрести универсальные умения.
Пример CLIP и DALL-E показывает: действие предшествует знанию, а не наоборот; то, что мы знаем, определяется тем, что нам нужно делать. Любое представление мира — будь то логическое, символическое или распределенное — подразумевает решение о том, что значимо, а что нет. Никому не пришло бы в голову фотографировать звук. Люди много знают, потому что много делают — а не наоборот.
По мере приобретения умений, расширяющих спектр доступных действий, машины постепенно станут больше понимать. А это значит, что искусственный интеллект будет больше напоминать наш собственный — он приобретет набор умений и приблизительных представлений, необходимых для выполнения разных задач.