Любознательность черного ящика. Почему искусственный интеллект умеет делать то, чему его не учили

Способности нейросетей, обученных на больших данных, представляют собой загадку. С одной стороны, они руководствуются довольно простыми алгоритмами, которые в них заложили разработчики, а с другой — их ответы на пользовательские запросы порой бывают в высшей степени неожиданными. Кроме того, нейросети способы учиться за счет общения с пользователем, тем самым выходя далеко за пределы простого подбора подходящих символов в базе данных. Проблема в том, что в точности не известно, как именно они это делают и какие процедуры производят с входящими данными, чтобы получить результат. Например, сейчас ученые и энтузиасты пытаются лишь нащупать механизмы работы ChatGPT, то есть творение человеческих рук уже стало малопонятным для своего творца. Джордж Массер — об успехах, которых удалось достичь на этой ниве, и о странностях, которые нередко отмечаются в работе нейросетей.

Мы всё еще не можем предположить, как ChatGPT и его братья по искусственному разуму изменят мир, потому что на самом деле никто не знает, что происходит внутри этих систем. При этом возможности искусственного интеллекта выходят далеко за рамки того, чему их обучили, и даже их изобретатели не понимают, почему.

Последнее предположение связано с тем, что ИИ создают модели реального мира, подобно тому, как это делает наш собственный мозг.

Элли Павлик из Университета Брауна считает абсолютно нелепым тот факт, что мы занимаемся развитием ИИ, лишь примерно представляя, как он работает. Разумеется, до какой-то степени ученые понимают языковые модели, основанные на системе машинного обучения, то есть нейросети. Такие сети имеют структуру, смоделированную по образу и подобию связанных нейронов человеческого мозга. Код таких программ относительно прост. Он устанавливает алгоритм автокоррекции, который выбирает наиболее подходящее следующее слово, анализируя ради этого сотни гигабайт интернет-текста. После дополнительного обучения система научилась представлять результаты поиска в форме диалога. Однако мало кто ожидал, что довольно простой алгоритм автокоррекции сможет попытаться разрушить брак пользователей, решивших с ним пообщаться.

ChatGPT и другие системы ИИ выполняют задачи, для которых они не были обучены.

В марте на конференции в Нью-Йоркском университете философ Рафаэль Мильер из Колумбийского университета привел потрясающий пример того, на что способны языковые модели. Они уже продемонстрировали способность писать компьютерный код, что впечатляет, но не слишком, потому что в интернете достаточно много кода, который возможно сымитировать. Мильер же пошел еще дальше и показал, что GPT может выполнять код. Философ набрал программу для вычисления 83-го числа в последовательности Фибоначчи, и чат ее выполнил. Однако когда Мильер запросил 83-е число Фибоначчи напрямую, GPT ошибся. Это говорит о том, что система не просто воспроизводила данные из интернета — скорее всего, она выполняла свои собственные расчеты, чтобы найти ответ.

Молчаливо признавая, что GPT сам по себе не должен запускать код, его изобретатели из технологической компании OpenAI представили специализированный плагин — инструмент, который GPT может использовать при ответе на запрос, запуская код. Этот плагин не использовался Мильером, поэтому он предположил, что машина задействовала механизмы для интерпретации слов в соответствии с их контекстом. Этот пример показывает, что большие языковые модели развивают такую внутреннюю сложность, что она выходит далеко за рамки статистического анализа.

Исследователи полагают, что эти системы, по-видимому, достигают понимания того, чему они научились. Кеннет Ли из Гарвардского университета и его коллеги-исследователи Аспен К. Хопкинс из Массачусетского технологического института, Дэвид Бау из Северо-восточного университета и Фернанда Вьегас, Ханспетер Пфистер и Мартин Ваттенберг из Гарварда создали собственную уменьшенную копию нейронной сети GPT, чтобы изучить ее внутреннюю работу. Они тренировали его на миллионах партий настольной игры реверси (она же отелло), вводя длинные последовательности ходов в текстовой форме. Таким образом, их модель стала практически идеальным игроком.

Чтобы изучить, как нейронная сеть кодирует информацию, они применили метод, который Бенжио и Гийом Ален из Университета Монреаля разработали в 2016 году — они создали миниатюрную «зондовую» сеть для анализа основной сети. Ли сравнил такой подход с методами нейробиологии:

«Это похоже на то, когда мы вводим электрический зонд в человеческий мозг».

В случае с ИИ исследование показало, что его «нейронная активность» соответствовала тому, что происходило на игровом поле, пускай и в запутанной форме. Чтобы подтвердить это предположение, исследователи запустили зонд с обратной целью — чтобы внедрить информацию о ходе игры в сеть.

«По сути, мы взломали мозг языковой модели», — говорит Ли.

Сеть скорректировала свои действия согласно полученной информации.

Таким образом исследователи пришли к выводу, что сеть играла так, словно она человек, то есть держала игровую доску перед своим «мысленным взором» и использовала эту модель для оценки ходов.

Ли считает, что, система усваивает этот навык, потому что это просто продуктивно:

«Если вам дали множество игровых сценариев, попытка выяснить правило, лежащее в их основе, — лучшее решение».

Эта способность делать выводы о структуре внешнего мира не ограничивается простыми игровыми ходами. Исследователи удивляются тому, как много языковые модели могут узнать из текста. Например, было обнаружено, что сети усваивают описания цветов из текстов в интернете и формируют на их основе внутренние представления. Так, когда они видят слово «красный», они воспринимают его не просто как абстрактный символ, а как понятие, имеющее отношение к темно-бордовому, малиновому, фуксии и т. д. Продемонстрировать это было непросто. Вместо того чтобы вновь вставлять зонд в сеть, исследователи изучили ее реакцию на серию текстовых подсказок. Чтобы проверить, не переносит ли нейросеть бездумно какие-то ответы из интернета, они попытались ввести ее в заблуждение, сказав ей, что красный цвет на самом деле зеленый. Однако нейросеть не приняла это утверждение на веру, и, хотя скорректировала свою цветовую систему, та в целом продолжала соответствовать действительности.

Языковые модели на грани того, чтобы стать разумными, они учатся на лету. В области ИИ термин «обучение» обычно зарезервирован для интенсивного процесса, в котором разработчики предоставляют нейронной сети доступ к гигабайтам данных и настраивают ее внутренние соединения. В отличие от человеческого образование, «обучение» машин — это процедура с четким началом и концом. Поэтому когда языковые модели стали действительно учиться на подсказках пользователей и обнаружили чуткость к меняющемуся контексту, это стало неожиданностью.

«Это новый вид обучения, о его существовании раньше никто не подозревал», — считает Бен Герцель, основатель компании SingularityNET.

Одним из примеров обучения языковых моделей является то, как люди взаимодействуют с чат-ботами, такими как ChatGPT. Вы на примерах показываете боту, как с вами необходимо взаимодействовать, а он подчиняется.

Результаты ответа на ваш запрос определяются последними несколькими тысячами слов, которые видел бот. То, как он их обрабатывает, предписывается заложенными в него внутренними связями, тем не менее пользователь может задействовать в нейросети те или иные конкретные связи. Так, целые сайты посвящены подсказкам о «побеге из тюрьмы» и выходе за рамки системы — речь идет об ограничениях, которые, например, мешают ИИ сообщать пользователям, как сделать самодельную бомбу. Однако некоторые люди используют джейлбрейк (взлом системы), чтобы просто получить более креативные ответы.

Другой тип контекстуального обучения происходит через «цепочку мыслей», когда вы просите сеть комментировать каждый ее шаг. Эта тактика позволяет ей лучше справляться с логическими или арифметическими задачами, требующих удержания в памяти нескольких последовательных операций. (Что делает пример Мильера таким удивительным, так это то, что сеть нашла число Фибоначчи без какого-либо предварительного обучения.)

В 2022 году команда Google Research и Швейцарского федерального технологического института в Цюрихе, в которую вошли Йоханнес фон Освальд, Эйвинд Никлассон, Этторе Рандаццо, Жоао Сакраменто, Александр Мордвинцев, Андрей Жмогинов и Макс Владимиров, продемонстрировала, что контекстное обучение следует той же базовой вычислительной технике, что и процедура стандартного обучения, известная как метод градиентного спуска.

Эта процедура не была запрограммирована, система воспроизвела контекстное обучение без посторонней помощи.

«Этому навыку нужно научиться», — говорит Блез Агуэро-и-Аркас, вице-президент Google Research.

Более того, он считает, что у языковых моделей могут быть и другие скрытые способности, которые еще никем не были обнаружены.

Хотя у больших языковых моделей достаточно слепых зон, чтобы их нельзя было квалифицировать как сильный искусственный интеллект (термин, который предполагает, что ИИ способен выполнять интеллектуальные задачи на уровне животных и людей), открывающиеся для нас способности этих систем позволяют сделать вывод, что технологические компании ближе к сильному искусственному интеллекту, чем мы могли предположить.

Плагины OpenAI придали ChatGPT архитектуру, немного похожую на структуру человеческого мозга. Исследовательница Анна Иванова из Массачусетского технологического института считает, что последняя версия языковой модели, на которой работает ChatGPT, может привести к тому, что система сможет выполнять функции, пока что доступные лишь человеческому мозгу.

В то же время исследователи опасаются, что они потеряют возможность изучать эти системы. Компания OpenAI не разглашает подробности разработки и обучения ChatGPT-4, хотя бы потому, что конкурируют с Google. Однако отсутствие прозрачности может навредить не только любопытным исследователям, но и всем, кто хочет понять социальные последствия развития ИИ. Исследователи считают, что прозрачность этих моделей чрезвычайно важна для обеспечения безопасности.