Это не «Черное зеркало». Тест о новых технологиях

«Игра престолов» и хейтерские комментарии: как изучать сетевые сообщества с помощью визуализации данных

Наука сегодня занимается подчас неочевидными вещами, используя при этом сложный инструментарий: например, Антон Костин и Александр Суслов изучают интернет-сообщества с помощью визуализации данных. В этом небольшом исследовании они пытаются установить, от чего зависит популярность роликов на ютубе — и выяснить, связана ли она с количеством хейтерских комментариев и дизлайков.

Больше года назад мы, Антон Костин и Александр Суслов, приняли участие в онлайн-школе «Клуба любителей интернета и общества». Пришли в школу совершенно разными путями: Антон со стороны философии науки и преподавания в МФТИ, Александр — от разработки видеоигр и работы с игровыми сообществами. Нам обоим казалось, что у сообществ в интернете есть какие-то свои если не законы механики вроде ньютоновых, то хотя бы закономерности в поведении. Другими словами, у нас были народные приметы, но мы хотели добраться до метеорологии. Мы были уверены, что стоит правильно подобрать приборы и материалы, выработать теоретическую рамку — и мы получим интернет-барометр, предсказательную машину для прогнозирования поведения сообществ в сети. Спустя год мы можем сказать, что барометра для соцсетей у нас не вышло, а как его создать — мы пока не знаем. Зато мы научились кое-что видеть в комментариях на ютубе, из чего и родилось это небольшое исследование.

Первым объектом изучения стал канал луганского изобретателя Креосана: нас заинтересовала реакция зрителей на вторжение военного нарратива в сюжеты его видеороликов. Мы поняли, что ютуб-канал — не просто папка с видеороликами в облаке, и не группа незнакомцев, которые пишут бессмысленные комментарии (бессмысленными они кажутся только на первый взгляд). Канал создает устойчивая группа комментаторов, людей, которые регулярно заходят на него и часто бывают на каналах-спутниках — речь идет о регулярно повторяемых мемах в комментах, набегах на вражеские каналы и набрасывании дизлайков.

Заминусованный ролик в ютубе подобен пепелищу разоренного города в культурном слое — если найти наконечники монгольских стрел в пепле старой Рязани, можно нарисовать карту движения Орды.

У нас родилась идея, что весь ютуб может представлять собой некую совокупность таких взаимосвязей между комментаторами или, лучше сказать, карту комментирующих потоков.

Гугл сегодня позволяет делать со своими данными немногое, но нам достаточно и малого: ника комментирующего как единицы счета, временной шкалы для измерения активности и самих видеороликов. Третий участник нашей микрогруппы, Кирилл Суслов, помог с написанием софта для автоматизации выгрузки необходимых данных, и мы приступили к тому, что проще всего описать через метафору геологоразведки: у нас не было четкого понимания, какой именно материал мы ищем, мы искали полезные ископаемые вообще.

Совсем без гипотез, однако, нельзя. Наш исследовательский вопрос был такой: разумно предположить, что популярность до ютуба и после ютуба носит разный характер — хотя бы в своем отражении на самом ютубе. Мы выдвинули две гипотезы. Первая — популярный медиаобъект будет тем менее популярен на ютубе, чем ближе на хронографической шкале он находится к 2005 году (то есть к году запуска сервиса). Вторая гипотеза — популярность на ютубе коррелирует с негативной оценкой медиаобъекта (то есть чем больше хейтерских комментаториев, тем популярнее то, что комментируют).

Протестировать эти гипотезы мы решили на выдаче ютуба по запросам из области сериалов, то есть различимых объектов со сложившейся экосистемой комментаторов — это позволяет нам использовать немного магии и визуализировать их комментарии.

Как мы работаем с комментариями из поисковой выдачи ютуба

Поисковая выдача ютуба — это еще и летопись, содержащая историю запроса. Мы точно не знаем, какой алгоритм используется при формировании поисковой выдачи ютуба, но можем анализировать доступные данные. В среднем это от 400 до 800 роликов, которые видят пользователи, если скроллят страницу с результатами поиска до самого конца. Ролики были опубликованы в разные годы работы ютуба. Некоторые — с момента его основания в 2005-м, но большинство — в эпоху расцвета мобильных девайсов на Android, владея которыми, нажать на предустановленную иконку ютуба может практически каждый. Владельцы каналов и комментаторы роликов публикуют и комментируют их с разной степенью активности. Этим мы и воспользовались, когда измеряли динамику количества комментариев к роликам.

Чтобы получить данные о комментаторах, мы создаем поисковый запрос. Это не так-то просто, учитывая плохую способность поисковика различать омонимы в случае использования многозначных слов. Здесь сразу возникает проблема: по сути, мы исследуем не сериал и не какие-то ролики, мы исследуем определенное слово.

Например, мы хотим посмотреть русское слово «граф», подразумевая способ визуализации данных. Однако граф — это не только математический объект, но еще и дворянский титул.

И когда вы ищете ролики о математическом графе в поисковике ютуба, не забудьте добавить в запрос «математика» или/и «программирование», иначе будете скроллить ленту выдачи с сериалами, обзорами сервисов доставки еды и владельцев «графских» титулов в названиях каналов.

Фрагмент визуализации комментаторов ютуб-каналов из поисковой выдачи ютуба по запросу «граф»

На скриншоте видно, что родственные комментаторы образуют кластер или множество связанных друг с другом каналов («математика и программирование»), которое отдалено от остальных групп. То есть наша задача — исследовать нужный кластер комментариев, а не все комментарии вообще. Так мы решим проблему омонимов и комментариев к попавшим в выдачу случайным роликам, которые, конечно же, влияют на общую статистику комментариев.

Кластер возникает, когда взаимодействие комментаторов становится постоянным, то есть в момент появления кластера можно с некоторой степенью условности говорить о появлении связного множества комментаторов и сильном взаимодействии членов множества, в то время как до появления кластера это были скорее разрозненные комментарии и слабое взаимодействие комментаторов.

Время имеет значение

Для проверки гипотезы о том, что популярность медиаобъектов зависит от возраста ютуба как сервиса, мы взяли сериалы, снятые в разное время: один ближе к 2005 году, а второй дальше от него. Оба завершились в 2019 году.

The Big Bang Theory

Сериалом на заре ютуба у нас стал ситком The Big Bang Theory, первая серия которого вышла 24 сентября 2007 года. Тогда же, в 2007-м, появились первые комментарии к ютубовским роликам. Сервису тогда было всего два года, поэтому количество комментариев, более-менее отличное от нуля, в нашей выборке наблюдается только в 2010–2011 годах:

The Big Bang Theory: динамика изменения числа комментариев из поисковой выдачи ютуба

Интересно, что именно тогда начинает формироваться кластер комментариев, то есть разрозненные комментаторы объединяются в связное множество.

Начало развития кластера связано с появлением комментариев к этому ролику.

Кластеризация комментариев достигает вершины своего развития в 2019 году и резко падает после показа заключительных серий. Итого: восемь лет кластеризации.

Какие комментарии связаны друг с другом в кластере? Мы взяли несколько примеров из подмножеств кластера, раскрашенных разными цветами с помощью функции «модульность». Она отмечает одним цветом компоненты, связь между которыми наиболее сильна.

Фиолетовый регион кластера представлен комментариями к нарезкам из сериала TBBT (1, 2, 3).

Красный регион — к нарезкам из сериала Young Sheldon (4) и финальной сцене из TBBT (5).

Оранжевый регион — к разбору деталей сцен TBBT (6), а также к трем роликам канала Маим Бялик, исполнительнице роли Эми Фарры Фаулер (7, 8, 9), в которых она обсуждает сериал.

Кластер комментариев The Big Bang Theory

Первое, что бросается в глаза, — комментарии из кластера охватывают разные регионы вселенной сериала (сам сериал, приквел, актеры и т. д.).

Визуализация всех комментариев из выдачи ютуба по запросу The Big Bang Theory

Game of Thrones

Сериал Game of Thrones начали снимать в эпоху первого пика развития ютуба. Премьера первой серии состоялась 17 апреля 2011 года. Однако вплоть до конца 2018 — начала 2019 годов, когда фанаты стали собирать подписи за отмену итогов восьмого сезона, число комментариев было весьма умеренным.

Game of Thrones: динамика изменения числа комментариев из поисковой выдачи ютуба

Кластер начинает медленно расти с 2011-го вплоть до середины 2017-го (в хронометраже сериала это премьера седьмого сезона), после чего скорость его роста заметно увеличивается и достигает максимума к 2019 году.

Рост кластера начинается с комментариев к этим роликам (a, b). То есть основой формирования кластера становятся комментарии к роликам официального канала сериала.

Основу кластера составляют регионы, представленные комментариями к роликам:

— изумрудный регион — обзор пятой серии восьмого сезона (1), съемки актеров с комментариями восьмого сезона (2);
— черный регион — обзор первой (3) и восьмой (4) серий восьмого сезона;
— синий регион — тизер шестой серии восьмого сезона (5), третий эпизод восьмого сезона (6);
— красный регион — официальный тизер (8) и трейлер (7) восьмого сезона.

Кластер комментариев Game of Thrones

Уже на стадии визуализации кластера мы знали, что найдем множественные отсылки к восьмому сезону. Любопытно, что официальный канал сериала не затерялся и продолжает собирать комментарии.

Визуализация всех комментариев из выдачи ютуба по запросу Game of Thrones

До сих пор мы рассматривали комментарии к англоязычным роликам. Что происходило в русскоязычной среде фанатов тех же сериалов? Это легко узнать, если проанализировать выдачу ютуба по русскоязычным запросам, что мы и сделали.

«Теория большого взрыва»

История русскоязычных комментариев к «Теории большого взрыва» начинается в 2009 году, то есть через два года после мировой премьеры сериала.

«Теория большого взрыва»: динамика изменения числа комментариев из поисковой выдачи ютуба

Первая мысль: комментаторы ютуба реагируют на перевод «Кураж-Бамбей». Так и оказалось.

Заметный всплеск комментариев в 2012 году возник из-за омонима: это комментарии к клипу кей-поп-группы Big Bang, своеобразный отзвук второй волны халлю.

Комментарии к ролику кей-поп-группы Big Bang

Визуализация динамического графа комментариев на первый взгляд обескураживает: нет явной кластеризации и всё раздроблено на множество регионов:

Зато мы можем наблюдать множественные кластеры комментариев к нескольким роликам одного канала, которые замкнуты на себе. Вот пример, попавший в выдачу ютуба и не имеющий отношения к нашему запросу:

Кластер комментариев к роликам канала DayoScript

Даже заметный на графике рост комментариев в 2018 году связан со случайным роликами (синий, зеленый, оранжевый):

Комментарии к случайным роликам (синий, зеленый, оранжевый и другие регионы)

Но тем не менее кластеризация русскоязычных комментариев к «Теории большого взрыва» была найдена. Она представлена вот этим относительно небольшим скоплением комментариев:

Кластер комментариев по запросу «Теория большого взрыва»

В чем же дело, почему кластер такой незаметный? Вероятно, проблема в многозначном запросе. Как показывает визуализация, запрос «Теория большого взрыва» в отличие от The Big Bang Theory недостаточно различим для поискового алгоритма ютуба.

Если вы захотите найти в ютубе все ролики о сериале и наберете запрос «Теория большого взрыва», он выдаст вам огромное количество мусора (спортивные игры, дни рождения незнакомцев и т. д.). А запрос «Теория большого взрыва сериал» потерял бы часть роликов, где этого слова нет. Тем интереснее то, что мы нашли. Ведь найденный нами небольшой кластер — это точное соответствие нашему запросу.

С нашим методом кластеризации мы можем сразу выдать список всех роликов только по теме сериала. Это значит, что в воображаемом хакатоне мы победили алгоритм Google, и наш (пока еще) ручной поиск — точнее гугловского.

Более того, мы можем эту выдачу еще и структурировать: сердцевина кластера включает в себя комментарии к новостям об окончании сериала (1), нарезкам из «ТБВ» (4, 5, 9) и «Детства Шелдона» (2, 6), историям о судьбе актеров из «ТБВ» (3) и интервью с ними (7), а также сравнениям «ТБВ» с белорусским клоном «Теоретики» (8) и общему обзору «ТБВ» (10).

Кластер комментариев по запросу «Теория большого взрыва»

Одними из первых в кластере стали комментарии к этим роликам (a, b).

Визуализация всех комментариев из выдачи ютуба по запросу «Теория большого взрыва»

«Игра престолов»

И, наконец, ситуация с русскоязычными комментариями к «Игре престолов».

Динамика изменения числа комментариев из поисковой выдачи ютуба

Несмотря на умеренный рост комментариев начиная с 2012 года, кластер русскоязычных комментариев возникает в 2014 году и достигает пика в 2017–2019 годах.

Здесь всё как на ладони — и явная кластеризация, и подобие англоязычной истории комментариев. На всякий случай уточним, что содержится в кластере:

— изумрудный регион — обзор персонажей (1), эпизод схватки с мертвецами (2);
— оранжевый регион — сравнение героев из книги и сериалов (3), разбор шестой серии восьмого сезона (4);
— фиолетовый регион — обзор третьей серии восьмого сезона (5), обсуждение сюжета восьмого сезона (6).

Кластер комментариев по запросу «Игра престолов»

Кроме ожидаемого обсуждения восьмого сезона появляется отсылка к книгам Джорджа Р. Р. Мартина.

Кластер начинает формироваться с появления комментариев к этому ролику.

Визуализация всех комментариев из выдачи ютуба по запросу «Игра престолов»

Что мы получили? Разница между сериалами есть, и в русскоязычном ютубе она существеннее, чем в англоязычном. Однако связано ли это со временем выхода сериала? Понятно, что для ответа нам нужно еще больше данных.

Полевые испытания: работаем с рейтингом сериалов

Недавно был опубликован рейтинг иностранных сериалов, составленный по опросам «Левада-центра». Самыми популярными оказались «Игра престолов» (ее смотрели 27 % опрошенных), «Шерлок» (25 %), «Доктор Хаус» (24 %), «Чернобыль» (22 %) и «Остаться в живых» (22 %). Мы решили выяснить, как с этой статистикой соотносятся собранные нами данные, а также проверить свою гипотезу о корреляции между кластеризацией комментариев и временными параметрами медиаобъекта. Естественно, у «Левада-центра» свои методы и предметная область, а опросы — не то же самое, что исследование комментариев на ютубе. Однако информация из других областей может показать нам некоторые особенности того, с чем мы имеем дело. Блиц-обзор для каждого сериала из левадовского рейтинга мы провели в поиске кластеризации комментариев.

1. «Игра престолов». 1-е место в рейтинге «Левада-центра»

Безусловный победитель по степени кластеризации комментариев, выше мы его уже рассматривали.

2. «Шерлок». 2-е место

Визуализация комментариев из выдачи ютуба по запросу «Шерлок сериал»

Кластеризация есть, но размытая (крайний нижний регион), кластер чуть выше относится к каналу Ikotika.

Кластеры комментариев по запросу «Шерлок сериал»

3. «Доктор Хаус». 3-е место

Визуализация комментариев из выдачи ютуба по запросу «Доктор Хаус сериал»

На первый взгляд, картинка очень напоминает ситуацию с «Теорией большого взрыва». Но оказалось, что все подозрения на слабую кластеризацию связаны со случайными роликами и не относятся к сериалу «Доктор Хаус».

4. «Чернобыль». 4-е место

Визуализация комментариев из выдачи ютуба по запросу «Чернобыль сериал»

Контрастная и масштабная кластеризация. Новичок в мире сериалов явно претендует на победу.

5. «Остаться в живых». 5-е место

Визуализация комментариев из выдачи ютуба по запросу «Остаться в живых сериал»

Мы подумали, что нашли кластер «Лоста», — и ошиблись. Видимый синий кластер относится не к сериалу о приключениях пассажиров рейса 805, а к российским сериалам, среди которых есть и «Остаться в живых».

Сверим нашу гипотезу о временной шкале с данными о сериалах.

Эти данные в целом подтверждают нашу гипотезу: чем старше сериал, тем меньше шансов у него получить кластеризацию в комментариях на ютубе, и наоборот.

Со второй нашей гипотезой сложнее. Мы должны признать, что в данных мы не видим ей подтверждения. Есть высокая кластеризация комментариев в «Игре престолов» и «Чернобыле», но для твердого вывода необходимо качественное исследование текста комментариев — это во-первых. Во-вторых, наша выборка слишком мала, поэтому даже подтверждение носило бы характер спекуляции: просто так получилось, что два самых хайповых сериала этого года связаны с негативом. Вместе с тем мы не отказываемся от своего мнения о том, что негативная реакция чаще приводит к хайпу. Или, во всяком случае, хайп и негатив — тесно связанные явления на ютубе. Поэтому план нашего дальнейшего исследования предполагает проверку этой гипотезы на более обширном и более контрастном материале — мы займемся видеоиграми и посвященными им ютуб-роликами.

А вот еще что интересно