«Умная» лента: как устроены алгоритмы соцсетей и почему логику их работы не понимает никто
Алгоритмы уже давно управляют информацией, которая нам доступна: они стимулируют наши эмоции, отбирая посты пожестче, меняют результаты поиска в зависимости от наших последних действий, и даже сама администрация соцсетей не понимает деталей их работы. О том, как механизмы поиска и отбора информации породили новую форму власти, рассказывает Аполлинария Тумина.
«Я рассчитываю, что время, которое
вы проводите на фейсбуке, будет более ценным».
Марк Цукерберг
Всё так: сейчас алгоритмы решают, с кем каждый из нас говорит на фейсбуке, рекомендуют каждому свою музыку на ютубе и партнеров в тиндере. А зайдя в «Яндекс» или Google, вместо общей картины мира мы получаем персонализированную выдачу, где лучшими ресторанами всегда окажутся рестораны нашего города.
Тогда же, в 2012-м, исследователи Facebook провели нашумевший эксперимент с новостными лентами 689 003 пользователей: они удаляли либо все положительные, либо все отрицательные сообщения, чтобы увидеть, как это повлияет на настроение читателя. Кто-то видел только фотографии мертвых собак, а кто-то — невероятно милых младенцев. Исследователи во главе с дата-сайентистом Адамом Крамером обнаружили, что эмоции заразительны.
Эксперимент длился неделю (11–18 января 2012 года), в течение которой сотни тысяч пользователей фейсбука, неосознанно участвовавших в нем, возможно, чувствовали себя либо более счастливыми, либо более подавленными, чем обычно. «Но, вероятно, никто не был доведен до самоубийства», — саркастически прокомментировал ситуацию Кристиан Сандвиг, профессор Центра этики и социологии Мичиганского университета.
Несмотря на поднявшийся скандал, все инстанции признали этот эксперимент не выходящим за рамки закона: вы же сами ставили галочку в пользовательском соглашении?
Тарлтон Гиллеспи из «Майкрософт», доцент Корнелла, признанный специалист по алгоритмам, считает, что этот скандал возник только потому, что люди не понимают, как давно и как сильно они уже и так подчиняются власти алгоритмов:
Когда вы заходите на фейсбук, сообщения, которые вы видите в верхней части ленты новостей, — это не посты каждого из ваших друзей в обратном хронологическом порядке. Facebook опасается, что пользователи будут завалены относительно неинтересными (но недавними) сообщениями, не будут прокручивать вниз достаточно далеко, чтобы найти те новости, которые им хотелось бы прочитать, и в конечном итоге уйдут с платформы.
Социальная сеть давно взяла на себя труд определять, что вам интересно, а что нет.
В вашей ленте первыми появятся сообщения с самым высоким рейтингом, а сообщения с низкими рейтингами вы, скорее всего, не увидите никогда. Рейтинги рассчитывает алгоритм. В 2013 году Facebook окончательно заменил старую систему ранжирования новостей EdgeRank на алгоритм машинного обучения, который уже тогда учитывал около 100 тысяч факторов для ранжирования каждого обновления статуса от каждого друга.
Среди более чем 100 тысяч весовых коэффициентов, из которых складывается рейтинг каждого поста на фейсбуке, почти наверняка учитывается и количество веселых и грустных слов в каждой публикации. Так что эксперимент по манипуляции настроением в новостной ленте не был чем-то особенным: сообщения и так выдаются в ленту с учетом эмоциональной окраски.
Кроме того, исследователи отметили, что, когда они убирали вообще все эмоционально окрашенные публикации из ленты, человек становился «менее выразительным», то есть делал меньше обновлений статуса. А это плохо для платформы.
Поэтому очень вероятно, что Facebook годами подливает вам побольше эмоциональных сообщений, когда вы долго не пишете.
И уж точно делает много чего еще. Они имеют право изменять алгоритм, как захотят.
По словам Цукерберга, каждый из нас должен был бы видеть более 1500 публикаций в день, но в среднем видит в своей ленте только 100 постов ежедневно. Ваша лента новостей — это конструкция, построенная из некоторых сообщений, отобранных для вас в соответствии с неизвестным количеством постоянно меняющихся алгоритмических критериев.
Ситком Facebook и нейроГолливуд
Власть алгоритмов непонятна из прошлого опыта ни по своим средствам, ни по целям. Мало того, что алгоритм — это черный ящик, принцип действия которого компании не намерены раскрывать публике в силу своих коммерческих интересов. Часто они и сами не знают, как работают их алгоритмы, потому что бигдата, машинное обучение и нейросети фактически устранили людей как контролирующую инстанцию из процесса.
Такие компании, как Google и Facebook, могут использовать десятки различных версий алгоритма для оценки их относительных достоинств, не гарантируя, что версия, с которой пользователь взаимодействует в один момент времени, будет такой же через пять секунд.
В некоторых случаях код эволюционирует прямо в процессе. Кроме того, алгоритм может меняться в зависимости от того, с каким типом данных он сейчас имеет дело.
Еще более непонятно, как алгоритмы, часто даже без специального умысла их создателей, влияют на поведение людей. Подавляющее большинство исследований алгоритмов касается технических проблем их создания или обратного проектирования, а сами алгоритмы рассматривает как абсолютно идеальные технологические конструкты. А это совсем не так. Например, в подходе Facebook к формированию алгоритма в самом начале заложено неявное предположение о неразумности пользователя, который обязательно нахватает лишних подписок и не сможет потом сам с этим справиться. Для старых пользователей «Живого Журнала» с хронологической лентой это выглядит крайне оскорбительно.
Даже небольшие количественные изменения в мире больших данных превращаются в гигантские качественные. Серия мелких решений, корректировок, сделанных для оптимизации выдачи в новостной ленте, внезапно меняет привычную картину мира. Мы всё еще по старинке представляем себе, что социальные медиа — это что-то вроде почты или телефона, по которым нам посылают свои сообщения наши друзья. И никак не ждем, что телефон даст нам послушать только ту часть звонков, которые он сочтет милыми, чтобы вы не расстраивались и продолжали пользоваться этой телефонной компанией. Мы привыкли, что нас развлекают в кино, и не возражаем, когда концовка сериала определяется соцопросами. Но всё еще не воспринимаем социальные медиа как ситком, который искусственный интеллект ставит для каждого зрителя отдельно, замечает Тарлтон Гиллеспи.
Ютуб тоже новый формат. Это не ящик с роликами вроде видеомагнитофона и даже не телевизор с рекламой. Потоковые сервисы, такие как Netflix и Amazon, делают сериалы из своего контента, а ютуб — из пользовательского. Ютуб не создает медиаконтент, зато эффективно управляет его созданием с помощью алгоритмических поощрений и наказаний. Платформа может легко продвигать и отбрасывать значительную часть своих каналов с помощью смены настроек. Эта практика дешевле и более отзывчива, чем производство телевизионных шоу и фильмов.
Чтобы авторы роликов точнее соблюдали требования платформы, ютуб показывает создателям некоторые швы алгоритма в онлайн-студии Creator. Там сразу видно, что принесет просмотры и деньги, а что нет — существует гибкий механизм управления. Это гигантская фабрика видео, где создатели контента работают по указаниям платформы за возможную будущую выгоду, — этакий алгоритмический нейроГолливуд.
Персональная картина мира
Машинное обучение наконец совершило прорыв в технологиях, которого ждали уже полвека, и мир начал стремительно меняться — раньше, чем мы это заметили.
Поисковые системы стали ощутимо меняться уже давно, еще в 2009 году «Яндекс» ввел географическую привязку в поиске. Первый алгоритм назывался «Арзамас». Теперь можно задать в поиске слово «рестораны» и увидеть в лидерах только сайты своего города. Позднее геопривязка была улучшена алгоритмами с интригующими именами «Снежинск», «Обнинск» и «Конаково». У Google в 2014-м появился Pigeon, который учитывал данные геолокации и привязку к Google Maps.
«Яндекс» пока дает возможность снять геопривязку, Google определяет ее автоматически по IP, а также по истории прошлых местоположений и запросов. Внизу поисковой выдачи есть кнопка «запретить определять мое местоположение», но если ее нажать, то Google всё равно будет формировать выдачу с учетом IP, прошлой истории и запросов. Чтобы увидеть, что он выдаст по тому же запросу в других регионах, придется использовать сторонние CЕО-инструменты — впрочем, и они могут оказаться бесполезными.
Поисковики учитывают много сотен факторов для формирования выдачи, алгоритмы закрыты, и никто толком не знает, что на самом деле увидит другой человек, набрав те же самые слова в Google или «Яндексе».
Данных об алгоритмах поисковиков значительно больше, чем об алгоритмах фейсбука, потому что поиск — один из самых мощных инструментов коммерческого продвижения в интернете. Но это не значит, что все эти данные верны. Чтобы получить хоть какие-то сведения о том, как алгоритм ранжирует по какому-нибудь одному фактору, нужно проводить долгосрочные эксперименты с продвижением почти одинаковых сайтов в поисковой системе, одинаковых за исключением единственного фактора, и смотреть на результат. За это время алгоритмы могут поменяться десятки раз.
Так что для СЕО последнее десятилетие было жарким. Каждая перемена в алгоритмах выдачи поисковиков приводила к головокружительному падению одних сайтов и взлету других. В 2011 алгоритм «Яндекса» «Рейкьявик» положил начало персонализации поисковой выдачи по предыдущим запросам (через куки).
«Каждому пользователю — своя выдача» — современный девиз алгоритмов «Яндекса».
Теперь даже подсказки в поисковой строке обновляются каждый час. Алгоритм «Калининград» в 2012-м стал делить интересы пользователя на краткосрочные и долгосрочные, анализируя историю запросов. По одному и тому же слову можно получить совершенно разные ответы. Например, если вы последний час учили географию, то по запросу «Мадагаскар» «Яндекс» выдаст ссылки на остров, а вечером, насмотревшись мультфильмов, по тому же слову вы можете получить ссылку на анимационный фильм с тем же названием.
«Колибри» у Google и «Палех» у «Яндекса» работают с «птичьими хвостами» — неточными поисковыми запросами. Нечеткие запросы задают редко, и потому машинное обучение, работавшее на больших данных, ничего не могло с ними поделать. А вот нейросети удалось научить ассоциациям при помощи небольших фокусов в трехсотмерном пространстве. Теперь разговор с алгоритмом стал как никогда конструктивен. Например, на запрос «Как назывался искусственный интеллект в „Терминаторе“?» «Яндекс» выкидывает на самый верх сниппет «Скайнет» с подробной информацией о своем коллеге.
В конце там герои окончательно потерялись каждый в своем пузыре реальности и попали в лапы Омской птицы. Сейчас персонализированная поисковая страница не кажется таким уж злом: это удобно, пока не вводит в заблуждение. Но чтобы не заблуждаться, надо хотя бы примерно представлять, как работает алгоритм. А это самое трудное.
Народное алгоритмическое воображение
Хотя работа алгоритмов непрозрачна, пользователи формируют свои представления о том, как они работают. Например, юзер фейсбука может подумать, что всегда должен лайкать свои собственные обновления, чтобы алгоритм стал показывать их друзьям. Народные теории могут формировать эволюцию системы в целом даже тогда, когда они противоречат общепринятой технической мудрости.
Например, исследование, которое описывает народную теорию поведения домашнего термостата, показывает, что она противоречит инженерным знаниям. Однако этой теории придерживаются до 50% американцев, потому что она отлично предсказывает, как сэкономить при регулировке тепла.
Другой пример: в 2012 году в ютуб-сообществе появились предположения о том, что алгоритм Up Next придает большой вес роликам, помеченным как ответ на другое видео.
Группа, которая стала известна как Reply girls, стала загружать свои нерелевантные видео и отмечать их как ответы на очень популярные ролики.
Сами видео были вполне приличными, но на миниатюры, которые видны в комментариях, девушки ставили легкую эротику, чтобы обеспечить клики. Несмотря на то, что никто не знал, как работал алгоритм, Reply girls заработали на своей теории десятки тысяч долларов. А алгоритм из-за этого пришлось немного поменять.
Эмили Педерсен из Калифорнийского университета в мае этого года опубликовала масштабное исследование народных теорий, в которых алгоритм ютуба приобретает антропоморфные черты. Большинству блогеров не платят за их работу. Путь к монетизации на ютубе открывает алгоритм, который многим блогерам проще представить в виде персонажа. Всего они описали три типа алгоритмических персон:
- Агент — это тот, кто оценивает таланты и помогает блогеру в работе, находя для него аудиторию;
- Вахтер стоит между создателем и зрителями и решает, что пройдет, а что нет. Когда в мае 2018-го ютуб попробовал показывать видео в ленте подписки не в хронологическом порядке, а выбирать алгоритмически, резкий негатив от пользователей был связан с усилением функции Вахтера:
- Наркодилер — у него только одна цель: держать зрителей на крючке как можно дольше:
Хотя непрозрачность алгоритмов часто существует для защиты интеллектуальной собственности, она также частично связана с достоинствами бесшовного дизайна. Это когда от пользователей скрывают детали, чтобы сделать взаимодействие легким. Один из примеров невидимой (бесшовной) технологии — электричество в автомобиле. В машине может быть 20–30 электромоторов, но нам не нужно следить за каждым из них во время вождения. Полностью закрытый, непознаваемый алгоритм — тоже бесшовный дизайн. Предполагается, что пользователь в этом случае только пассивный потребитель.
Мэтью Чалмерс и Йен Мак-Кол из Университета Глазго считают, что швы не обязательно прятать, они могут быть полезны людям. Например, уровень сигнала в мобильных телефонах обычно показывается без швов: пользователь не знает, когда именно он меняет зону действия одного передатчика на зону другого. Однако некоторые мобильники могут отображать расстояние до ближайших сотовых ячеек, что позволяет, например, целенаправленно искать более сильный сигнал.
Группа исследователей под руководством Кэрри Карахалиос и Кристиана Сандвига показала, что искусственное включение швов в алгоритм фейсбука помогло пользователям разработать более качественные теории о действии алгоритма. Хотя пользователям показывали только их ленты новостей с алгоритмической курацией и без нее, они смогли создать сложные модели работы новостной ленты.
Хотите проверить свое алгоритмическое воображение? Вот основные теории, которые возникли в рамках эксперимента. Как вы думаете, какие из них достоверны?
Теория личной вовлеченности
Большинство участников исследования считали, что «чем больше вы с кем-то общаетесь, тем больше постов этого человека будет отображаться в вашей ленте». Интересно, что были участники, которые использовали эту теорию в обратном порядке, пытаясь противодействовать своим собственным предыдущим действиям: «Я лайкаю пост, а потом я его скрываю». Хотя они хотели послать сигнал своему другу с помощью функции «нравится», но не хотели, чтобы их лента новостей менялась. По их мнению, они добавили немного веса этому другу, а затем убрали часть веса, чтобы сохранить баланс. После знакомства со швами теория дополнилась: «Возможно, алгоритм отслеживает нас с помощью мониторинга прокрутки, чтобы понять, чьи истории мы читаем дольше».
Теория глобальной популярности
«Чем больше людей лайкают и комментируют пост, тем больше людей видят этот пост». Некоторые использовали теорию глобальной популярности, чтобы влиять на чужие ленты новостей: они целенаправленно лайкали или комментировали свои собственные посты, чтобы те оказались в лентах у их друзей. Позже эта теория была дополнена предположением, что у людей с большим количеством друзей в целом выше рейтинг.
Теория общности
Некоторые участники заявили, что их сходство с другом повлияет на количество историй, которые они видят от этих друзей: «Я чувствую, что люди, с которыми у меня мало общего, обычно не видят моих постов». Под сходством они понимали перечисление сходных интересов в профиле и принадлежность к одной и той же группе на фейсбуке. В процессе исследования теория дополнилась еще несколькими показателями: общей географией, количеством общих друзей и так далее.
Теория ока провидения
Участники, которые сформулировали эту идею, считали, что алгоритм фейсбука проницателен и абсолютно непознаваем. Они думали, что фейсбук удаляет низкокачественный контент, такой как фотографии с низким разрешением или очень длинные истории. Некоторые говорили, что фейсбук проверяет новые посты на авторское право. Если кто-то уже постил эту фотографию или текст, алгоритм не покажет их вторично. Некоторые считали, что фейсбук еще использует распознавание лиц, чтобы ставить в ленты в первую очередь фото людей, а уж потом пейзажи. Другие считали, что упоминания определенных тем, например религии и политики, скорее всего, приведут к понижению рейтинга поста.
Теория случайности
Наконец, некоторые участники считали, что алгоритм действовал случайным образом:
Все эти теории и правда частично описывают разные аспекты работы ленты новостей. Благодаря возможности тестирования выдачи на фейсбуке пользователи собрали значительный запас общих представлений о том, как может работать алгоритм.
Неявное предположение, что непознаваемый и закрытый бесшовный алгоритм необходим для удобства пользователей, вовсе не догма.
Даже наоборот: обеспечение дополнительной видимости механизмов ранжирования помогает быстрее сориентироваться в системе.
Черный ящик управляет миром
Алгоритмы уже сейчас полностью изменили работу финансового сектора от трейдерской торговли до оценки риска по кредитам. Они используются для поиска террористов, модерации «Википедии», создают новости в СМИ и приводят к массовой потере рабочих мест в некоторых отраслях промышленности. Разработчик Кристофер Штейнер считает, что все области деятельности человека сейчас активно тестируются на возможность внедрения алгоритмического управления. Почти наверняка в будущем их будет вокруг еще больше. Они решают важные вопросы нашей жизни. Но как они управляют нами, мы не знаем.
Алгоритмы не нейтральны, утверждает Роб Китчин, исследователь бигдаты из Национального университета Ирландии:
Подход Китчина имеет давнюю историю. Социология науки и техники уже несколько десятилетий изучает взаимодействие людей, теорий и артефактов. Фишкой этой области стало описание неявных предположений и «само собой разумеющихся» установок, которые проскакивают мимо нашего внимания, но заранее определяют выводы.
Беспристрастность и универсальность классического научного метода была изрядно развенчана Бруно Латуром, например его исследованием про открытие Пастером микробов раньше, чем это позволила разрешающая способность микроскопа. Латур показал, что теоретическое представление неявно задает результаты, казалось бы, объективного эксперимента.
Разработчики систем машинного обучения и нейросетей используют те же аргументы, что и приверженцы классической науки: алгоритмы, с точки зрения их авторов, это чисто технические конструкции. Вот потрясающее поле для исследований социологов: с одной стороны, алгоритмы сконструированы с множеством неявных предположений о пользователях и эти установки никак не отрефлексированы. А с другой — власть алгоритмов порождает многочисленные эффекты взаимодействия с людьми, интенсивный взаимный обмен, формы которого еще практически не изучены.
Еще один аспект, уже разработанный социологией техники, — поведение артефактов как самостоятельных субъектов отношений, когда технические средства начинают участвовать в формировании общественных связей наряду с людьми. Например, автоматический доводчик двери, заменив слуг, распахивающих створки, сделал свой вклад в сглаживание сословных различий. Вахтер, алгоритмический персонаж ютуба, который открывает и закрывает «двери» для контента пользователей, гораздо более влиятельный субъект, продукт эволюции технических артефактов.
С точки зрения социологии, алгоритмы больше, чем нейтральный код. Это сложный продукт взаимодействия между программистами, техническими средствами воплощения и пользователями, и его влияние только предстоит изучить.
С точки зрения философии и этики интерес к алгоритмам может быть связан с тем, что сейчас они в массовом сознании представляют собой нечто непознаваемое, фигуру умолчания: с одной стороны, управляют миром, а с другой, это черный ящик:
С юридической точки зрения интересно было бы рассмотреть алгоритм как фигуру агента нового типа, с неизвестными пока полномочиями. Клэй Ширки, писатель и исследователь интернета, вспоминает ошибку Британской энциклопедии, которая продержалась многие годы: город Хотин на самом деле находится на Украине, а «Британника» писала, что он в Молдове. Если мы будем ссылаться на Британскую энциклопедию, наша ошибка будет простительной, потому что это авторитетный источник, связанный с людьми. Но в «Википедии» сейчас информация часто уже не связана с людьми, она производится и обрабатывается алгоритмами:
Если мы принимаем ошибочные решения, ссылаясь на авторитет алгоритма, кто будет компенсировать убытки?
И другая сторона: насколько законно требование к пользователю подчиняться совершенно непонятному для него алгоритму? С мая 2018 года во всех государствах ЕС применяется новое общее положение «О защите данных» (GDPR). Это прецедент.
В статьях № 13–15 этого документа предусмотрены права на «содержательную информацию о логике принятия автоматизированных решений».
Сейчас уже очевидно, что пользователь имеет право на разъяснение. Но пока никто не готов эти разъяснения давать. Маловероятно, что коммерческие платформы будут выделять средства для контроля за алгоритмами, но они могли бы пересмотреть свое отношение к бесшовному дизайну. Получается, что, если разработчик полностью лишает пользователей сведений о работе алгоритма, он нарушает его право на разъяснение.
Как показывает опыт множества платформ, выборочное использование швов может быть очень эффективно коммерчески, например, как студия Creаtor в ютубе. Полностью раскрыть алгоритм никому не под силу, но швы могут быть частично развернуты, чтобы дать пользователям возможность понимать алгоритмические системы.