Слова любви: что можно узнать из 20 000 народных эротических рассказов?
Эротическое народное творчество в интернете вполне может стать предметом научного исследования: как и любой фольклор, оно отражает общественные представления о сексе, норме и власти. Что именно можно узнать, если провести компьютерный анализ двадцати тысяч таких рассказов? Отвечает известный лингвист, кандидат филологических наук, лауреат премии «Просветитель» Александр Пиперски.
Дисклеймер: данная научно-исследовательская статья предназначена для использования исключительно в научных целях и образовательной деятельности аудиторией 18+ и никоим образом не является публичной демонстрацией или рекламированием порнографических материалов как среди взрослых, так и среди несовершеннолетних, равно как и не имеет целью изготовление, оборот и распространение таких материалов среди названных категорий граждан.
«Не являются материалами и предметами с порнографическими изображениями несовершеннолетних материалы и предметы, содержащие изображение или описание половых органов несовершеннолетнего, если такие материалы и предметы имеют историческую, художественную или культурную ценность либо предназначены для использования в научных или медицинских целях либо в образовательной деятельности в установленном федеральным законом порядке».
Статья 242.1 УК РФ
Использование нецензурной брани (как часть творческого замысла анализируемых художественных произведений) и ее маркировка соответствуют ограничениям, установленным Роскомнадзором.
(Фрагменты из рассказов: «Вечеринка в выходные» автора Karen, «Фриланс в копро-салоне. Часть 2» автора Sidewinder, «Светулька» автора Путешественника, «Откуда приходят желания? Часть 2» автора Елены Стриж, «Неожиданное приключение. Часть 1» автора forpornstories, «Теща с Рублевки. Часть 2» автора Владимира Горшкова, «Есть ли жизнь на Марсе-2? Продолжение. Часть 1» автора Олега Якубицкого)
Да, эти семь предложений не составляют связного рассказа. Они взяты случайным образом из семи разных текстов, а я только немного поправил орфографию и пунктуацию. Но здесь главное не сюжет, а то, что они дают представление о сайте «Стульчик» — крупнейшей русскоязычной онлайн-коллекции эротической литературы. Кому-то этот сайт доставляет удовольствие, кому-то дает возможность самовыразиться, а для меня, лингвиста, который любит большие собрания текстов, «Стульчик» так и напрашивается в качестве материала для исследования.
Немного истории
Согласитесь, что этот текст не так уж сильно отличается от предложений с сайта «Стульчик» — разве что тем, что ему уже 4000 лет. Это перевод древнего шумерского гимна «Сватовство Инанны и Думузи». В 2000 году до нашей эры, как и в 2019 году нашей эры, людям нравились рассказы о любви со всеми их нехитрыми красотами вроде поднимающегося кедра. Да и вообще, любви посвящена почти вся мировая литература: попробуйте сходу вспомнить хотя бы один роман, в котором бы не было вообще никакой любовной линии.
У вышедшей в 2006 году в США «Энциклопедии эротической литературы» два тома, суммарный объем которых больше 1600 страниц. Когда ее листаешь, еще сильнее убеждаешься в том, что вся литература — это про эротику. Отдельных статей в ней удостоились 14 русских писателей: Александр Пушкин, Иван Тургенев, Федор Достоевский, Антон Чехов, Федор Сологуб, Лидия Зиновьева-Аннибал, Александр Куприн, Леонид Андреев, Михаил Кузмин, Анатолий Каменский, Михаил Арцыбашев, Юрий Олеша, Владимир Набоков и Андрей Платонов. Но творчество большинства из них в наше время, когда порнография позволяет воочию увидеть самые разнузданные сцены, уже не кажется такой уж эротикой: иногда хочется почитать и что-нибудь пооткровеннее.
Читатели и писатели
В России найти совсем уж откровенную эротику в мейнстримных книжных магазинах непросто, а в секс-шопах продавать книги не принято (хотя в некоторых странах, например в Германии, полка с книгами — важнейший атрибут магазина с товарами для интима). Но зато тексты такого рода обильно представлены в интернете: существуют огромные коллекции эротических рассказов. Сайт «Стульчик» — самый известный, но далеко не единственный; сейчас на нем выложено больше 20 тысяч текстов.
Правда, доступ к оригинальному домену «Стульчика» затруднен, поскольку я не первый исследователь этого сайта. До меня его изучал помощник прокурора:
16 августа 2017 года Октябрьский районный суд Санкт-Петербурга внес сайт в реестр запрещенных. Несмотря на это, его легко найти по другому адресу, а кроме того, у сайта есть крупные зеркала: «Лимона» и «Кабачок». Они отличаются от «Стульчика» внешне («Лимона» выглядит наиболее сдержанно и строго, а «Стульчик» и «Кабачок» — поярче; все эти сайты заставляют вспомнить веб-дизайн начала века), но не по содержанию: на них появляются одни и те же рассказы, хотя и в разном порядке.
Кто же пишет эти рассказы? Ответить на этот вопрос пытается «Луркмор»:
Трудно сказать, насколько правдива эта классификация, но что можно сказать точно, так это то, что рассказы для «Стульчика» пишут живые люди, притом разные. Более того, автором может стать любой пользователь: на сайте есть форма для отправки рассказов. Я решил проверить на практике, как это работает, написал текст и отослал его через эту форму. Ответа не было две недели, и я уже успел огорчиться — но после этого пришло письмо с комплиментами моему рассказу, меня призвали писать еще, а через две недели вывесили текст на сайт. Оценки читателей, правда, у моего рассказа невысокие: видимо, все-таки чувствуется, что он написан не по зову сердца, а из исследовательского интереса.
But why?
Но возникает вопрос: зачем изучать непристойные сочинения каких-то графоманов? Бум цифровых гуманитарных наук привел к тому, что в круг внимания исследователей стали попадать гораздо бо́льшие объемы материала, чем раньше. В прежние времена литературовед мог прочитать, ну скажем, тысячу романов за всю жизнь, а тщательно изучить и того меньше. А сейчас компьютерная программа может проанализировать тысячу романов за пару секунд — надо только задать ей правильный вопрос, на который можно ответить путем количественного анализа.
Более того, компьютер, вооруженный большим массивом текстов, способен находить типичные черты лучше, чем человек. Как, например, устроена русская поэзия первой половины XIX века? У нас есть об этом какое-то представление, потому что мы читали Пушкина, Лермонтова и немного Жуковского — но мы ничего не знаем про десятки других поэтов того времени. Кто читал, скажем, Кюхельбекера или Одоевского? (Я на свой вопрос отвечу честно: не читал.) А ведь может оказаться, что Пушкин, Лермонтов и Жуковский остались в нашей культуре именно потому, что были в чем-то оригинальны и нетипичны — тогда получается, что про типичную поэзию первой половины XIX века мы не знаем вообще ничего. А если мы и захотим узнать, то возьмемся читать Кюхельбекера и будем всё время думать: «Зачем я это читаю и трачу время? Это же второразрядная культурно не значимая ерунда», хотя может оказаться, что и у Кюхельбекера есть незаслуженно забытые шедевры.
Ну а компьютерная программа не будет предаваться такой рефлексии: загрузим в нее произведения Кюхельбекера, Одоевского, Рылеева и десятков других литераторов, она их обработает и обобщит, про что и какими словами они особенно часто писали.
С эротическими рассказами дело обстоит похоже. Я никому не пожелаю прочитать эротические рассказы общим объемом 40 миллионов слов — но если проанализировать их автоматически, можно узнать немало интересного о том, как в нашей культуре принято представлять секс и рассказывать о нем.
Годы и категории
Первый шаг исследования — выбрать материал. Я скачал с сайта «Лимона» 20 472 рассказа с 2002 по 2018 год (мой рассказ написан уже в 2019 году и в выборку не попал). Сайт пополняется регулярно: каждый год прибавляется примерно по 1000 рассказов, то есть по 3 рассказа в день.
Каждый рассказ редакторы сайта относят к одной или нескольким категориям, всего их 37:
Гетеросексуалы | Измена | Фантазии |
Подростки | Гомосексуалы | Эротическая сказка |
Остальное | Ваши рассказы | Фетиш |
Потеря девственности | Экзекуция | Сперма |
Случай | Лесбиянки | Служебный роман |
Странности | Эксклюзив | Бисексуалы |
Студенты | Зоофилы | Я хочу пи-пи |
По принуждению | Запредельщина | Пушистики |
Классика | Наблюдатели | Свингеры |
Группа | Эротика | Жено-мужчины |
Инцест | Поэзия | Клизма |
Романтика | Оральный секс | |
Юмористические | А в попку лучше |
Некоторые из них очень конкретны по содержанию, а что стоит за другими (например, «ваши рассказы» и «эксклюзив»), понять трудно. Топ-7 категорий таков:
Категория | Рассказы | % от общего числа |
Подростки | 3840 | 18,7 |
По принуждению | 2732 | 13,3 |
Группа | 2567 | 12,5 |
Случай | 2319 | 11,3 |
Инцест | 2172 | 10,6 |
Гомосексуалы | 1773 | 8,7 |
Фетиш | 1662 | 8,1 |
Эта таблица наглядно подтверждает выводы помощника прокурора, но можно сделать и еще одно наблюдение: на 7 категорий из 37 приходится почти 100% рассказов — как такое возможно? Дело в том, что один и тот же рассказ может относиться к двум и более категориям: 52% рассказов попадают в две категории, а 5% — в три. Более того, начиная с 2012 года почти все новые рассказы помечаются двумя категориями, и это явно осознанное решение. Отсюда вопрос: какие категории часто встречаются вместе?
Ясно, что некоторые комбинации окажутся частотными просто потому, что популярны сами категории. Например, сочетание «подростки» и «по принуждению» представлено 328 историями — это каждый 62-й рассказ в коллекции (1,6% от всего объема текстов). Но много это или мало? В «подростки» попадает примерно каждый 5-й рассказ (18,7%), а в категорию «по принуждению» — примерно каждый 8-й (13,3%). Если мы возьмем все рассказы из «по принуждению», то есть 1/8 часть коллекции, мы можем ожидать, что 1/5 из них окажется рассказами про подростков просто по случайности: иными словами, мы ожидаем, что каждый 5 × 8 = 40-й рассказ будет сочетать в себе темы «подростки» и «по принуждению». Но поскольку на деле таких рассказов меньше — всего каждый 62-й, мы делаем вывод, что эта комбинация встречается редко — во всяком случае, реже ожидаемого.
Раз с этой парой не получилось, переберем все возможности и составим список связанных друг другом категорий. Во-первых, в нем будет три пары:
- «романтика» — «эротика»,
- «поэзия» — «юмористические»,
- «эксклюзив» — «ваши рассказы».
Во-вторых, есть две тройки связанных тем (чем толще линия на схеме, тем чаще встречается комбинация этих тем):
Тройка «я хочу пи-пи» — «странности» — «фетиш» кажется вполне ожидаемой, равно как и пара «экзекуция» — «по принуждению», но вот почему рассказы про лесбиянок часто попадают в категорию «по принуждению»? Объяснение найдется, когда мы не только составим схемы, но и немного почитаем тексты из еще одной категории — «гомосексуалы».
И наконец, есть группа тем, которые связываются в целую сеть:
Здесь есть как очевидные, так и оригинальные связи: можно было заранее ожидать, что «подростки» будут связаны с «потерей девственности» и «инцестом» — но вот связь «подростков» и «гомосексуалов» обращает на себя внимание. Интересно, что «случай» и «служебный роман» оказываются связаны с «оральным сексом»: это свидетельство того, что случайные и рабочие связи часто не заходят слишком далеко.
Ключевые слова
Чтобы понять, чему посвящены рассказы в той или иной категории, их стоит прочитать. Но можно ли обойтись без чтения? На помощь приходит простая идея: составить частотные словари для каждой категории, а потом сравнить их. Если в какой-то категории слово встречается в три раза чаще, чем в остальных (например, 300 раз на миллион слов, а не 100), то оно будет сильным ключевым словом для этой категории — причем более сильным, чем слово, которое встречается только в полтора раза чаще (например, 150, а не 100).
В каждой категории мы можем упорядочить все слова от самых ключевых до наименее важных. Реальная процедура устроена немного сложнее, потому что нас не интересуют ключевые, но низкочастотные слова, а также имена собственные. Топ ключевых слов фактически перескажет нам содержание категории, а может быть, еще и позволит обнаружить что-то интересное.
В категории «гомосексуалы» топ выглядит так:
Большая часть этих слов не вызывает удивления: да, действительно, это обозначения мужчин и их половых органов, так что наш метод выделения ключевых слов работает. Но обратим внимание на одно слово — «невольно». Почему именно это слово так часто встречается в категории «гомосексуалы», но не в остальных текстах? Объяснение простое — гетеронормативность. Поставьте над собой небольшой эксперимент и произнесите два предложения:
Первое предложение с большой степенью вероятности покажется вам странным: зачем здесь «невольно», это же вполне естественная реакция. А во втором предложении слово «невольно» уместно: ведь Петя же не такой, а просто стал жертвой какой-то несчастливой случайности. Даже если для вас это не работает, частотный словарь неумолим: в текстах про гомосексуалов слово «невольно» встречается в три раза чаще, чем в остальных рассказах.
Можно посмотреть и на конкретные примеры «невольности»:
(Фрагменты из рассказа «Обновление смыслов» автора Pavel Beloglinsky)
Ту же мысль — «В однополые отношения люди вступают невольно» — подтверждает и факт, что категория «лесбиянки» очень часто сочетается с категорией «по принуждению»: если бы эти темы не притягивались друг к другу, их сочетание выпадало бы в каждом 200-м рассказе, но на самом деле оно встречается в каждом 108-м. Вот и получается, что авторы эротических рассказов невольно транслируют гетеронормативные установки, и обнаружить это можно с помощью количественного анализа.
А вот еще набор ключевых слов:
Это категория «поэзия». Видно, что здесь есть три очень характерные группы ключевых слов:
1) возвышенные слова: миг, девица, душа, дева, луна, тоска, судьба, счастие, бог;
2) матерные слова: известные пять корней во множестве вариаций;
3) поэтические варианты служебных слов, используемые для соблюдения стихотворного размера: чтоб вместо чтобы, иль вместо или, ж вместо же и так далее.
Контраст высокого и низкого и составляет суть эротической поэзии: эстетическое удовольствие возникает именно благодаря сочетанию противоположностей. Вот, например, такой текст, который начинается с идиллической картины природы и сельской жизни в духе XIX века, а продолжается разнузданнейшим описанием сексуальной жизни героини (а заодно находим здесь и слова пред и чтоб):
Еще одно проявление стилистического контраста, который оказывается главной приметой эротической поэзии, — это знаки препинания (их я тоже считаю за отдельные слова). Видно, что в поэтические ключевые слова попали !, ?! и : — первые два знака выражают экспрессию, а третий — рассудительность, ведь двоеточие обычно встречается перед пояснением.
Среди поэтических ключевых слов привлекают внимание слова «смактулька» и «лизунька». Оказывается, они настолько часто встречаются в одной очень большой подборке эротических стихов, что проникли в топ по всей поэзии. Что они значат, легко понять из контекста. Оттуда же, кстати, взялось и MMIX: это датировка, то есть 2009.
В отличие от поэзии категория «подростки» выглядит вполне невинно:
Если бы не слова «писька», «писюн» и «голый», по этому перечню даже невозможно было бы догадаться, что перед нами ключевые слова не просто эротических рассказов, а, пожалуй, самой проблемной их категории с точки зрения законодательства и современной морали. Видно, что действие обычно происходит в школе (в учебном году), на пляже или в лагере (на каникулах), а характерные глаголы выражают самые невинные действия: «потрогать», «рассматривать», «стесняться», «прикрывать». В топе ключевых слов не описываются никакие технические подробности — видно, что герои еще только открывают свою сексуальность.
Совсем иначе устроена категория «бисексуалы»:
Здесь мы находим почти только технические подробности. В центре внимания именно секс в разных его проявлениях, причем нередко секс хорошо подготовленный: у героев часто есть вспомогательные приспособления — страпон и смазка, а иногда даже и презервативы, хотя в топ списка они не попали. Вообще, по частотности использования слова «презерватив» выстраивается шкала, наверху которой транссексуалы и студенты, а внизу — герои эротических сказок (действительно, зачем им презервативы):
Глядя на комбинации категорий и ключевые слова, из огромной массы текстов можно вычленить характерные особенности. Если бы мы изучали лишь шедевры эротической литературы, то смогли бы узнать только мысли конкретных авторов, а вот 20 тысяч любительских текстов за 20 лет — это достаточный массив данных, чтобы говорить об общих тенденциях.
И конечно, к изучению эротических рассказов применим девиз Ордена Подвязки Honi soit qui mal y pense — «Пусть стыдится тот, кто плохо об этом подумает».