Алгоритм, пожирающий своих детей. Почему ИИ — угроза самому себе

На чем обучаются нейросети, генерирующие картинки по вашему запросу? На картинках, которые уже есть в интернете. А чем всё быстрее заполняется интернет? Картинками, созданными нейросетями. Следовательно, грядущие поколения генеративного искусственного интеллекта будут обучаться на, мягко говоря, несовершенных произведениях предыдущих поколений. Исследователи, увидевшие эту проблему, считают машинное обучение на неотфильтрованных должным образом данных дегенеративным процессом. Эксперимент, в ходе которого они последовательно «скармливали» алгоритму его же собственные произведения, показал, что через несколько таких итераций он начинает выдавать абсолютно бессвязный текст. Маттео Вонг — о том, почему со временем нейросети будут выдавать всё более абсурдные результаты и можно ли остановить этот процесс.

На заре своего развития генеративный ИИ поглощал данные с таких сайтов, как Wikipedia, Getty и Scribd. Нейросети изучали этот контент, чтобы сгенерировать свои собственные тексты и изображения. Кажется, это было хорошим началом.

Генеративный ИИ полностью зависит от контента, который он может найти в интернете. Компьютеры имитируют интеллект и обрабатывают непостижимые объемы данных, находя в них закономерности. ChatGPT может написать сносное школьное сочинение, потому что он ознакомился с онлайн-библиотеками, а DALL-E 2 может создавать изображения в стиле Пикассо, потому что он проанализировал траекторию развития изобразительного искусства. Чем больше они тренируются, тем более умными кажутся. Рано или поздно нейросети изучат весь контент, какой только есть в интернете.

Более того, материалы, созданные искусственным интеллектом, уже сами стали активно заполнять соцсети, медиа, сайты ритейлеров и даже научные исследования. И когда технологические компании захотят снова усовершенствовать свои алгоритмы, им придется обучать их на контенте, который создали алгоритмы предыдущего поколения. Когда возможности отличить рукотворный контент от машинного не станет, может произойти настоящая катастрофа.

Хотя чат-боты и другие генеративные инструменты, например Midjourney и Stable Diffusion, — это, несомненно, выдающиеся программы, в среднем выдаваемые ими произведения поражают своей предвзятостью, абсурдностью и несоответствием реальности.

Илья Шумайлов, исследователь машинного обучения из Оксфордского университета, считает, что нынешние ошибки перейдут в будущие версии программ, а их количество увеличится.

Шумайлов и его соавторы в недавнем еще неотрецензированном исследовании представили эти ошибки как предвестник коллапса всей модели работы ИИ. Они назвали это дегенеративным процессом, в результате которого системы будут забывать накопленные знания, как это делает стареющий человек (в названии этого феномена авторы даже первоначально использовали слово «деменция», но отказались от него после критики).

Генеративный ИИ дает на запрос пользователя такой ответ, который кажется ему наиболее статистически вероятным. Это означает, что те явления, которые кажутся ему менее вероятными, будь то из-за ошибок в алгоритме или нерепрезентативной выборки, на которой он был обучен, будут всё реже попадаться в результатах, а значит, алгоритмы будут неадекватно отражать реальный многогранный мир. Они будут обходить стороной нестандартные манеры речи, странные визуальные формы, а при изображении людей будут отдавать всё большее предпочтение светлокожим. Каждый последующий ИИ, обученный на прошлом ИИ, будет терять информацию о редких или непредставленных явлениях и усугублять эти ошибки.

Как показывают предыдущие исследования, нейронные сети, основанные на рекурсивном обучении, чаще воспроизводят предвзятость и ошибки. Например, чат-боты, обученные на расистских ранних версиях ChatGPT, которые определяли мусульманских мужчин как «террористов». Поскольку каждое поколение алгоритмов плохо знакомо с явлениями, которые были недопредставлены в выборке для обучения, новые модели всё больше и больше укореняются в тех ошибочных представлениях, которые они транслируют.

Один из соавторов Шумайлова, Николас Паперно из университета Торонто, говорит, что в конце концов, то, что машина сочтет «статистически вероятным» сообщением, для нас будет чем-то практически бессвязным.

Нейросети, обучаясь на контенте, который создали другие нейросети, буквально поглощают друг друга — это своего рода рекурсивный каннибализм, не оставляющий после себя ничего существенного.

Языковая модель, которую тестировал Шумайлов, полностью сломалась. В первый раз программа легко закончила начатое им предложение об английской готической архитектуре. После девяти итераций обучения на данных, сгенерированных в предыдущей итерации, нейросеть продолжила то же самое предложение следующим образом: «архитектура. Помимо того, что здесь обитают одни из крупнейших в мире популяций черных @-@ хвостатых кроликов, белых @-@ хвостатых кроликов, синих @-@ хвостатых кроликов, красных @-@ хвостатых кроликов и желтых @-».

Чтобы машина могла создать действительно функциональную карту языка и его смысловых значений, она должна нанести на нее каждое находящееся в употреблении слово независимо от частоты его использования.

«Вам нужно смоделировать распределение всех возможных слов, которые могут составить предложение», — говорит Паперно.

Если этого сделать так и не удастся, всё сведется к бессмысленному набору слов.

Короче говоря, такие программы выдают бессмысленное среднее значение. Как высказался писатель-фантаст Тед Чан, если ChatGPT — это сжатая версия интернета, то будущее чат-ботов — это цифровой эквивалент многократного фотокопирования фотокопий. В процессе копирования качество финального изображения становится хуже и хуже.

Риск возможного краха модели не означает, что технология бесполезна. Алекс Димакис из Техасского университета в Остине указал на преимущества обучения ИИ на синтетических данных в тех случаях, когда в первозданном виде данные конфиденциальны или защищены авторским правом. Например, использование медицинских показаний реальных пациентов для обучения ИИ просто неэтично, так как это конфиденциальная информация. Это легко можно обойти, используя репрезентативные синтетические записи. Достаточно взять реальные записи, а затем с помощью компьютерной программы создать новый набор данных, содержащий ту же информацию.

Раз генеративному ИИ угрожает деградация, нам следует тщательнее подходить к процессу его обучения. Селекция данных, которые мы «скармливаем» алгоритмам, оказывает огромное влияние на качество модели. Илья Шумайлов подчеркивает, что данные, созданные человеком, не являются золотым стандартом — они с такой же вероятностью могут не соответствовать реальности, как и машинные, потому что многие существующие дискриминационные продукты ИИ были обучены на источниках, созданных людьми.

Исследователи могли бы тренировать свои модели на более репрезентативных данных.