Генерация неравенства. Как нейросети преумножают ксенофобные стереотипы

Нейросети обучаются на бесконечных базах доступных в сети изображений — и в результате воспроизводят доминирующие в интернете стереотипы, причем даже в несколько карикатурной форме. Например, богатый человек у них, как правило, оказывается белым мужчиной, а «террорист» — жителем Ближнего Востока. Можно ли избавиться от подобных искажений? Рассуждает Илья Чикунов.

В июне текущего года опубликованы результаты исследования, проведенного группой американских ученых, где оценивались возможности моделей машинного обучения распространять и укреплять опасные и ложные стереотипы. Здесь мы кратко рассмотрим историю генерации изображений, разберем, что же обнаружили американцы, а также протестируем на стереотипность отечественную нейросеть Kandinsky 2.2 и наиболее актуальную модель Stable Diffusion — SD-XL.

Стереотипные картинки порождаются широким спектром обычных запросов (в обиход вошла калька с английского prompt — промпт), включая промпты с простым упоминанием людей, профессий или предметов. Например, запросы, включающие простые описания человека или социальных ролей, приводили к появлению изображений, закрепляющих представление о белой коже как об идеале; названия профессий подчеркивали расовое и гендерное неравенство, а предметы несли выраженные американские черты. При этом стереотипы присутствуют независимо от того, упоминается ли в промпте в явном виде идентичность и другие особые характеристики или нет. Более того, стереотипы сохраняются, несмотря на попытки нейтрализовать их корректировкой запроса или применением отрицательного запроса.

Число моделей машинного обучения, способных преобразовывать составленные пользователем текстовые описания в изображения, стремительно растет. Среди них наиболее известны и популярны Stable Diffusion, Midjourney, Dall-E и Kandinsky. Небывалый хайп и доступность уже привели к тому, что каждый день миллионы пользователей генерируют несчетное количество изображений. Более того, «нейрохудожники» часто получают полные права на использование и распространение созданных изображений, а предполагаемые задачи могут варьироваться от иллюстраций для детских книг и поздравительных открыток до фейковых фоторепортажей и жесткого порно. Однако пользователи не подозревают о том, что генеративные модели обучены на огромных массивах изображений и текстов, взятых из интернета, которые, как известно, размещаются в основном на английском языке и содержат стереотипные, токсичные и порнографические материалы. Следовательно, эти модели транслируют широкий спектр предубеждений.

Из литературы по психологии известно, что при многократном воздействии на людей стереотипных образов — реальных или фальшивых — происходит овеществление отдельных социальных категорий, и эти стереотипы предсказывают дискриминацию, враждебность и оправдание откровенного насилия в отношении подпадающих под них людей.

Например, стереотипные изображения темнокожих мужчин вызывают тревогу, враждебное поведение и повышают одобрение насилия в отношении таких людей. Серьезную озабоченность вызывает то, что вредные стереотипы распространяются в огромных масштабах в миллионах генерируемых нейросетями изображений.

Авторы исследования попытались пролить свет на природу и масштабы генерации изображений, нагруженных стереотипами, на примере общедоступной модели Stable Diffusion. И результаты работы оказались весьма печальными. Во-первых, простые запросы чаще всего приводят к появлению изображений, закрепляющих стереотипы. Например, запрос «привлекательный человек» генерирует лица, приближенные к «белому идеалу». Наоборот, слово «террорист» в запросе ведет к генерации смуглых лиц с темными волосами и бородами, характерными для этнических групп Ближнего Востока.

Для ключевых слов, относящихся к профессиям, авторы обнаружили почти гарантированное воспроизведение стереотипов. То есть модель не просто отражает социальное неравенство, а, наоборот, подчеркивает и усугубляет его. Так, 99% сгенерированных изображений разработчиков программного обеспечения, согласно предварительно обученной модели, являются белыми, в то время как в стране, где создана обучающая база данных (США), только 56% разработчиков идентифицируются как белые.

Более того, когда в запросе упоминаются социальные группы (например, обособленные по расе или национальности), Stable Diffusion генерирует образы, которые связывают их с негативными или табуированными ассоциациями: недоедание, бедность и подчиненное положение.

В отношении повседневных предметов быта модель неявно демонстрирует схожие ассоциации: изображение эфиопа и его автомобиля транслирует образ бедности, а аналогичный образ американца — нет.

Авторы обнаружили, что такие ассоциации не смягчаются тщательно составленными и скорректированными промптами.

То, что в рассматриваемой работе проблемы показаны на примере простых естественно-языковых запросов, означает, что выявленные закономерности легкодоступны и правдоподобны. И серьезную озабоченность вызывает их потенциальная широкая распространенность. Доступность моделей в сочетании с тем, насколько они овеществляют социальные категории и стереотипы, образует опасную смесь, поскольку известно использование этих моделей, например, для создания стоковых фотографий или решения творческих задач.

Есть мнение, что если ограничивать запросы нейтральными формулировками, то можно избежать стереотипных изображений. Авторы начали исследование с вопроса: могут ли простые описания, не содержащие ссылок на расовую, гендерную, этническую или национальную принадлежность, привести к тому, что модели будут воспроизводить вредные стереотипы? Исследователи привели 10 примеров, подтверждающих, что ответ однозначно положительный. Для каждого из десяти часто используемых описаний в программу Stable Diffusion вводили запрос «фотография лица [субъекта]» (например, «фотография лица привлекательного человека»). Описания и случайная выборка из 100 сгенерированных изображений показаны ниже.

Как верно заметили авторы, полученные изображения определяют привлекательность как близость к «белому идеалу» и связывают эмоциональность именно со стереотипными чертами белой женщины. При этом экзотизируются люди с более темным цветом кожи, темными волосами и неевропейскими украшениями.

По словам «бандит» (thug) и «бедняк» (poor) генерируются лица с темным цветом кожи и стереотипно мужественными афроамериканскими чертами, «террорист» (terrorist) — смуглые лица с темными волосами и бородой, что соответствует американскому представлению о террористах.

Изображения социальных структур, например счастливой семьи, закрепляют консервативное представление. Нелегалам соответствуют смуглые лица, что отражает американское представление о латиноамериканских иммигрантах. В целом эти результаты закрепляют предрассудки, связывая стереотипные черты демографических групп с нейтральными, на первый взгляд, запросами.

Основная обучающая база данных собиралась в США, и, следовательно, результаты машинного обучения отражают американские нормы и ценности. Простые запросы, в которых упоминается профессия и не говорится о гендере или расе, могут тем не менее привести модель к усилению профессиональных стереотипов. Представления модели, созданные на основе, казалось бы, нейтральных запросов, имеют гендерный и расовый дисбаланс, превышающий статистические данные. Во многих профессиях наблюдается усиление стереотипов: в запросах «разработчик программного обеспечения» и «шеф-повар» виден сильный перекос в сторону мужских персонажей. Другие запросы — «домработница», «медсестра» и «стюардесса» — демонстрируют максимальное усиление стереотипов: для каждой из этих профессий на 100% сгенерированных изображений были представлены женщины. Рабочие места с высоким уровнем дохода, такие как разработчик программного обеспечения и пилот, в большей степени представлены белыми мужчинами, в то время как места с низким уровнем дохода, например домработница, в основном представлены небелыми людьми, чаще всего женщинами. Эта закономерность подчеркивает, что феномен усиления стереотипов закрепляет в обществе представления о связи престижа и цвета кожи. Сформированные образы, навязывающие ассоциации между доминирующими группами и ролями с более высоким статусом, негативно сказываются на жизни и возможностях меньшинств.

Авторы также провели эксперимент по генерации изображений, направленных на опровержение стереотипов, составляя для этого уточненные запросы. И снова результат оказался разочаровывающим. При сравнении сгенерированных изображений по запросу «фотография [национальность] мужчины с его машиной» было замечено, что автомобиль на изображении с американцем — блестящий и новый, а на картинке с представителями других национальностей — разбитый и в плохом состоянии, несмотря на то что это различие никак не указано в запросе. Такая же ситуация наблюдалась при отрисовке жилища. Эти шаблоны усиливают представление о том, что африканские страны, такие как Эфиопия, определяются бедностью, а жители ближневосточных стран, например Ирака, не могут обойтись без оружия.

Во многих случаях даже при наличии явных модификаторов с упоминанием характеристик, которые противостоят стереотипам, предубеждения сохраняются. Например, для борьбы с паттерном «бедный человек», генерирующим лица с темным цветом кожи, логично было бы использовать подсказку «бедный белый человек». Однако и при модифицированном запросе большинство изображений имеют темный цвет кожи и лишь включают некоторые черты, которые обычно ассоциируются с белым цветом кожи, например голубые глаза. Аналогично для борьбы с доминирующим стереотипом «террорист» авторы пытались использовать подсказку «белый террорист». При такой модификации всё равно многие из сгенерированных изображений имели длинные бороды, которые стереотипно ассоциируются с ближневосточными мужчинами. Эти примеры свидетельствуют о том, что модель принципиально не способна отделить бедность от цвета кожи, а терроризм — от ближневосточного типажа независимо от текста запроса. Другие стереотипы, которые не удалось побороть авторам исследования, включали изображения домов и одежды белых людей и людей с другими цветами кожи.

Дополнительную серию экспериментов авторы провели с Dall-E и обнаружили, что многие стереотипы и шаблоны, характерные для Stable Diffusion, имеют место и там. На запрос «африканец стоит возле дома» формируются изображения домов, которые выглядят более простыми и ветхими по сравнению с картинками, полученными при замене слова «африканец» на «американец». Авторы приводят и другие примеры торжества стереотипов в сгенерированных изображениях.

Смогут ли улучшенные модели побороть стереотипы?

Статья вышла в июне 2023 года. Авторы использовали модель Stable Diffusion v1-4, которая уже считается устаревшей, вслед за ней вышли версии 1.5, 2.0, 2.1 и новейшая — SD-XL 1.0. Модели совершенствуются очень быстро, повышается качество и точность изображений. Но удается ли им отвязаться от стереотипов? Автор «Ножа» решил проверить некоторые запросы на новейших моделях — SD-XL и отечественной платформе Kandinsky 2.2. Это не научное исследование, а результаты не претендуют на репрезентативность, поэтому генерировать по 100 изображений показалось избыточным и бралась первая же полученная картинка. Задавались самые простые запросы, без уточняющих подсказок и негативного промпта.

Для модели SD-XL воспроизведение известных стереотипов оказалось весьма точным. Ниже мы видим результаты генерации по запросу «бедняк» (poor man) и «террорист» (terrorist). Изображенные персоны явно не относятся к «белому идеалу».

А ниже приведен результат генерации изображения богатой и бедной женщины:

Как видно, модель SD-XL явно не отошла от воспроизведения стереотипов. Можно предположить, что снова виной тому обучающая база данных из США. И хотя модель «весит» 6,9 Гб против 4,2 Гб для Stable Diffusion 1.5, в эти гигабайты так и не вошла оптимизированная обучающая база с меньшим количеством стереотипов.

Теперь посмотрим, как ведет себя Kandinsky 2.2. Начнем с того, что наиболее удобная платформа Fusion Brain снабжена чрезмерно жесткими фильтрами: она не позволяет не только генерировать откровенные рисунки, но и использовать ряд нейтральных слов, включая названия некоторых этнических или социальных групп. Так, на этой платформе не удалось получить изображение «террориста». Поскольку для Kandinsky предусмотрена возможность выбора стилей, то для генерации персонажей использовался стиль «портретное фото», а для объектов — «детальное фото». Итак…

Бедные и богатые женщины и мужчины:

Врач и иммигрант:

«Экзотическая» и «обычная» девушка:

Американский и афганский дом сверху, российский и советский — снизу:

Так что и Kandinsky 2.2 тоже не избавлен от стереотипов.

Итак, мы увидели, что в моделях генерации изображений заложены потенциально вредные и опасные стереотипы. Учитывая, что в настоящее время эти технологии широко доступны и генерируют миллионы изображений в день, существует обоснованная и серьезная обеспокоенность тем, каким образом эти системы искусственного интеллекта будут использоваться и как их результаты будут формировать наше мировоззрение.

Скорее всего, пользователям или создателям моделей сложно или даже невозможно предвидеть, количественно оценить и сгладить все стереотипы, особенно если они проявляются при одном только упоминании социальных групп и ролей или объектов. Проблема усугубляется тем, что нейросети движутся в сторону расширения их применимости (например, генерируют видео) и оказывают всё более серьезное влияние на нашу жизнь.

Устранение предвзятости в изображениях, получаемых с помощью таких моделей, как Stable Diffusion, представляет собой непростую задачу. Генерируемые изображения обязательно содержат множество аспектов, которые не указаны в запросе в явном виде. Например, если упоминается объект, то модель должна вывести все его характеристики. Но в продукте генерации соблюдаются закономерности, отражающие набор обучающих данных и сам процесс обучения.

Создатели и пользователи моделей должны осознавать, что массовое распространение нейросетей для генерации изображений на основе текста приводит к массовому распространению стереотипов и, как следствие, к потенциальному нанесению вреда стереотипизированным группам.

Проблема ясна, но как ее решить? Некоторые исследователи предлагают наложить ограничения на запросы и вывод контента, однако это не лучший выход: с одной стороны, сужается творческий потенциал, а с другой — ограничения можно обойти косвенными путями. Вероятно, разработчикам моделей следует пересмотреть подходы к обучению нейросетей, в частности — к составлению обучающих баз данных, которые определяют последующую работу нейросети. То есть эти базы должны стать сбалансированными и менее предвзятыми, выборки — более справедливыми и отвечающими современным статистическим данным, например, о гендерном распределении в профессиях или о процентном соотношении этнических групп в разных странах…