Депрессия, музыка и секс: из чего сделан «Нож»
Представьте, что вы ничего не знаете о «Ноже». Как понять, чему посвящено наше издание? Наверное, вы заглянете на сайт и пробежите глазами по первым 3–5 статьям. Но это поверхностный взгляд — примерно как лизнуть ледяную корочку на вершине айсберга. За три года существования мы выпустили около 6700 текстов, и если вы хотите получить полный ответ на вопрос, что такое «Нож», придется учесть их все. Человек проанализировать такой объем информации не в состоянии, зато современные алгоритмы интеллектуального анализа текста могут справиться с этим за секунду. Мы решили применить высокие технологии и определить настоящую ДНК «Ножа» с опорой на анализ данных, а помог нам в этом «Системный Блокъ» — самое одухотворенное русское диджитал-СМИ.
Для исследования мы использовали технологию тематического моделирования (topic modeling). Это популярный сегодня метод работы с большими массивами данных (data mining). Специальный алгоритм смотрит на тысячи документов и пытается понять их тематический состав, изначально ничего не зная про темы, а затем выдает каждую тему в виде списка самых важных для нее слов в порядке убывания их важности. Подробнее о том, как работает тематическое моделирование, можно почитать в статье «Системного Блока».
Изначально число тем в тематическом моделировании выбирает сам исследователь. Благодаря этому мы можем получать картинку «разного разрешения»: выбрав 5 тем, увидим очень общее разделение на макротемы, выбрав 15 — более дробные подтемы и подрубрики. Попробуем проделать это со всеми текстами «Ножа».
Пятый элемент «Ножа»
В первом эксперименте мы предложили алгоритму найти в текстах «Ножа» всего 5 тем. Программа пыталась разбить всю массу слов, написанных авторами сайта, по пяти тематическим корзинам или, как принято говорить у компьютерных лингвистов, по «мешкам слов». В каждый «мешок» попадали наиболее характерные для темы слова (мы брали топ-20).
Вот 5 макротем, которые выделила машина в текстах «Ножа». Размер каждого слова на визуализации соответствует его значимости для этой темы:
Ясно, что первая макротема — это наука. Ее главные слова — «ученый», «исследование», «мозг», «эксперимент», «исследователь». Если смотреть дальше, виден медицинский уклон: «врач», «сон», «состояние», «помощь». А если расширить список до 30 важнейших слов по этой теме, то в него попадут «расстройство», «организм», «тело», «депрессия», «психолог».
С помощью тематического моделирования можно получить «самые научные» тексты «Ножа» — то есть те, в которых эта тема проявлена сильнее всего. Оказалось, что эти статьи тоже посвящены медицине и здоровью:
Дальше идет тема искусства, причем актуально-современного. Топ-5 важных слов здесь — «фильм», «музыка», «искусство», «автор» и «новый». Еще одно свидетельство новизны и современности искусства, о котором пишет «Нож», на картинку не попало: изначально в списке важных для темы слов была гиперссылка youtube.com/watch/v… (Мы удалили ее, так как это все-таки не слово.)
Город и городская среда обитания — еще один важный фокус «Ножа». Важнейшие слова: «город», «место», «местный», «дом», «улица». Дальнейший список указывает на социально-потребительскую проблематику: «вода», «еда», «рубль», «одежда». Самый городской текст «Ножа» (88,8%) — тоже про потребление в городах:
Четвертая макротема — экономика и бизнес: «компания», «страна», «Россия», «проект», «получать». Бизнес в первую очередь высокотехнологичный — в топ-20 важнейших слов входят «сайт», «программа», «интернет», «сеть», «технология», «игра».
Последняя тема — самая абстрактная. Важнейшие слова здесь связаны с отношениями и семьей: «женщина», «ребенок», «друг». Но в этой же теме оказались слова, связанные с общественными вопросами и историей: «мир», «век», «история», «идея». Сразу видно, что 5 тем — это слишком мало.
Горячая десятка и самые сексуальные тексты «Ножа»
Попробуем немножко «повысить разрешение» нашей картинки — увеличим число тем до 10. Это вообще очень популярное число тем, его часто выбирают по умолчанию. Получается такая панорама:
Как мы и ожидали, многие темы конкретизировались. Например, искусство разделилось на две подтемы: кино + книги («фильм», «режиссер», «кино», «сериал», «роман») и музыка + музеи. То есть размежевались нарративные и безнарративные виды искусства. Кстати, ссылка на просмотр в ютубе оказалась важна для обеих тем (но мы ее снова убрали).
Практически идеально выделилась тема половых отношений (топ-слова: «женщина», «мужчина», «секс», «сексуальный», «отношение») — теперь она существует отдельно от темы глобально-мировых проблем. Но самые «сексуальные» тексты «Ножа» всё равно остросоциальные. Они посвящены проблемам вмешательства государства в вопросы гендера и сексуальности:
Статьи по проблемам религии, истории и духовности образуют взрывоопасный клубок смыслов, который мы не можем назвать иначе как «Русская смерть»:
Но на самом деле охват религиозно-исторических тем у «Ножа» широкий, и не всё тут связано с Россией. Вот топ-5 текстов:
Научный топик разделился на эколого-биологический («животное», «вода», «вид», «земля») — и посвященный психологии и физиологии человека («мозг», «психолог», «сон», «пациент», «депрессия»).
Попробуем повысить разрешение еще сильнее — возьмем 15 тем.
«Нож» в высоком разрешении
Увеличение числа тем в тематическом моделировании — палка о двух концах. С одной стороны, хорошо выраженные темы выделяются еще точнее. С другой — алгоритм находит всё больше «мусорных» псевдотем. Так случилось и у нас:
Окончательно оформились в устойчивые отдельные темы:
- секс и отношения: женщина, мужчина, секс, сексуальный, отношение, любовь, партнер, женский, девушка, мужской, пол, половой, друг, брак, порно, насилие, тело, семья, оргазм;
- технологическое предпринимательство: пользователь, доллар, сайт, интернет, технология, сеть, создавать, данные, приложение, новый, система, информация, соцсеть, игра;
- городская среда: город, местный, место, центр, район, улица.
От прочего искусства отделились:
- кино: фильм, режиссер, кино, снимать, сериал, актер, герой;
- музыка: музыка, песня, альбом, музыкант, группа.
А еще мы отфильтровали здесь целую кучу английских артиклей и местоимений из названий групп, а также ссылку на ютуб.
Научные темы разбились на группы:
- био/экология: вода, ученый, земля, планета, организм, клетка, новый, продукт, вид, космический, вещество;
- медицина, нейронауки и психология: мозг, исследование, ученый, сон, пациент, расстройство, психолог, помогать, депрессия, врач, эксперимент;
- философские вопросы: язык, вопрос, слово, теория, наука, например, научный, ученый, существовать, система, мир.
Но при этом появились две трудноинтерпретируемые «мусорные» псевдотемы. В одной из них ключевые слова — «ребенок», «знать», «делать», «друг», «понимать» и еще много разных глаголов. В другой — «рука», «животное», «цвет», «глаз», «голова», «белый» и прочие цвета и части тела. Это нормально для алгоритмов тематического моделирования с большим предзаданным количеством тем. В конечном счете система всё равно нуждается в оценке и интерпретации результата человеком.
А наша интерпретация такова: состав «Ножа» с точки зрения машины — это много науки, много культуры, технологии и секс.