Как вычислить существование Виктора Пелевина при помощи местоимений и предлогов
Недавно вышел новый роман Transhumanism Inc. известного писателя Пелевина. Это стало поводом для обострения дискуссий о его загадочной персоне. У ученых есть свои аргументы в этом разговоре. В частности, научными методами можно проверить, один ли автор скрывается за этим именем-брендом.
Писатель Виктор Пелевин намеренно создал себе загадочный образ: на публике не появляется, интервью не дает. Естественно, что такой информационный вакуум — прекрасная питательная среда для разного рода мифов и спекуляций. О Пелевине из-за его отшельничества не только не стали говорить меньше — он превратился в постоянный повод для слухов и фантастических версий. Даже эта моя статья естественным образом вписывается в закрученный вокруг его персоны сценарий: гипотезы должны рождать опровержения, а те — недоверие. И всему этому не будет конца, потому что сам писатель, следуя выбранной им линии поведения, никогда не появится перед нами и не скажет, где правда, а где вымысел.
Вот и сейчас, когда вышла новая книга Пелевина, снова на поверхность стали всплывать старые мифы, которые должны расцветить яркими красками недостаток нашего знания о личной жизни писателя.
Мифов таких в случае Пелевина множество, но мне больше всего памятны два. Один появился еще в 1990-е: нет никакого Пелевина, а вместо него романы пишет компьютер. Второй стал циркулировать уже в нашем веке: если писатель Пелевин и был когда-то, то теперь отошел от дел (или даже умер), и вместо него прозу создает целая секретная команда специально нанятых для этого авторов.
Писатель и машина
Идея про то, что за прозой Пелевина стоит не человек, а машина, видимо, была изящным комплиментом его творчеству. Романы писателя настолько выделялись на фоне литературной продукции конца XX века, что было даже в чем-то естественно предположить: да, это не человек, а такой специальный робот привносит в нашу литературу ту свежесть и необычность, на которую оказались неспособны живые писатели. В последние годы с прорывными успехами, которые продемонстрировали нейросети, этот миф должен был получить дополнительное ускорение. Действительно, если СМИ с завидной регулярностью потчуют нас искрящимися заголовками о том, что искусственный интеллект в чем-то опять обошел человека, почему бы не предположить, что именно компьютер и подрядили создавать романы вместо писателя, которого (почти) никто (почти) никогда не видел?
Но правда в том, что ни даже сейчас, ни тем более в 90-х компьютер не был способен написать прозу уровня Пелевина.
Убедиться в этом очень легко, достаточно просто почитать настоящие компьютерные тексты. До последнего времени это были просто более-менее случайные сочетания слов, редко удачные и далеко не всегда грамматически правильные. Грамматику, конечно, за последние десятилетия победили, в конце концов, ее-то можно было и отредактировать, но уровень связности текста хромал. Типичный пример компьютерной прозы из той эпохи можно найти на шутливом сайте Яндекс.Рефераты:
Примерно так и выглядел тогда почти любой машинный текст, особенно памятны немолодым людям компьютерные переводчики того времени, не чета нынешним.
Сейчас ситуация, конечно, иная: благодаря большим языковым моделям произошел качественный скачок в генерации компьютерных произведений. Все, кто следит за этой областью, слышали о великолепной нейросети GPT-3, которая выдает то, что трудно порой отличить от человеческих творений. Например, можно поиграть с такой нейросетью в вопросы-ответы, и получится довольно правдоподобная имитация реальной речи:
Но и такие нейросети не могут быть Пелевиным. Дело в том, что романы писателя — это истории, в них что-то происходит, одно событие цепляется за другое, все они оказываются увязаны друг с другом в одну большую и хитро устроенную систему. И вот с такими текстами у компьютеров по-прежнему большие проблемы. Проще говоря, машина всё еще не умеет рассказывать истории. Написать отчет, составить план, пересказать то, что увидела, — может, а написать интересный рассказ — нет. Зато это может сделать Пелевин!
Но он ли это делает в тех книгах, которые поступают на полки книжных магазинов?
Один Пелевин или много?
Второй миф тоже имеет корни в литературной судьбе писателя. Составившие славу Пелевина произведения выходили до 1999 года в издательстве «Вагриус», были во многом похожи друг на друга сюжетно и тематически, имели сквозных персонажей. Хорошо было видно, что автор интересуется мистическими практиками, осмыслением советского прошлого, веществами, изменяющими состояние сознания. Затем Пелевин на несколько лет замолчал, а когда стали выходить его новые произведения — уже в издательстве «Эксмо», — что-то в них неуловимо изменилось. Не только издательский логотип, но и сами тексты стали другими. Поклонники писателя поделились на тех, кто предпочитает раннего или позднего Пелевина, а любители теорий заговора, массово эксплуатируемых и в самой пелевинской прозе, разумеется, не могли не прийти к выводу: всё это пишет уже другой человек!
Узнать правду про творческую кухню писателя мы, разумеется, не можем: доступа ни к скрытой камере в личном пространстве автора «Чапаева», ни к переписке с издательством у нас нет. Но в распоряжении современной науки есть кое-какие надежные исследовательские инструменты, которые можно использовать для определения авторства. Нас будет интересовать такой инструмент, который позволяет сделать какие-то выводы, пользуясь при этом только самим текстом художественного произведения и не обращаясь ни к бухгалтерским документам, ни к пожелавшим остаться анонимными источникам внутри издательства. Такие инструменты в современной науке обычно строятся на подсчете некоторых значимых элементов текста. Таким образом, это не похоже на традиционное журналистское расследование, зато имеет отношение к тому, что сейчас принято называть журналистикой данных.
Вообще-то способов установить авторство с помощью подсчетов (так называемая количественная атрибуция) много. Но надежный и много раз проверенный — один.
В 2002 году Дж. Берроуз опубликовал статью про изобретенный им метод измерения стилистической разницы между текстами, который назвал Delta. Суть метода в подсчете распределения наиболее частотных слов — «и», «в», «я», «на», «под» и т. д. Оказывается, для достаточно больших текстов оно не случайно и выдает авторскую манеру: в текстах, написанных одним человеком, оно будет приблизительно одинаковым, и это можно измерить и представить на графике. График обычно читается так: тексты, скорее всего, созданные одним автором, будут располагаться друг к другу ближе всего.
Вот так, например, будут расположены произведения русских классиков XIX века:
Хорошо видно, что метод точно определяет романы Достоевского, группируя их на графике в одной области, а Тургенева — в другой. Точно так же и для Толстого и Гончарова есть свои области, не пересекающиеся с остальными.
Метод этот за прошедшие два десятилетия стал фактическим стандартом в вопросах определения авторства с помощью подсчетов в западной науке, на его основе написаны десятки статей.
Delta помогла определить, что под псевдонимом Роберт Гэлбрейт скрывается автор Гарри Поттера, до того, как сама Джоан Роулинг это признала.
Что будет, если сравнить тексты Пелевина с произведениями других современных прозаиков? Такой анализ покажет нам, насколько вероятна гипотеза, что тексты загадочного автора написаны одним человеком. Возьмем для сравнения и серьезных писателей (Водолазкин, Прилепин), и авторов популярных детективов (Донцова, Маринина), и тех, кого называют последователями, подражателями или, скажем осторожнее, единомышленниками Пелевина (Фигль-Мигль, Садулаев, Дубовицкий).
Так как текстов для сравнения получилось больше 30, здесь более наглядна будет другая визуализация — в виде дерева. «Листочками» на нем являются романы, а то, насколько ветви близки друг к другу, отражает близость авторской манеры.
Хорошо видно, что все тексты разделились на две большие группы: Пелевин и все остальные.
Это означает, что с точки зрения метода Берроуза произведения Пелевина похожи одно на другое по стилю и не похожи больше ни на кого.
Иными словами, все романы Пелевина, включая те, что написаны после 2016 года (даты якобы смерти писателя), включая самый последний, написаны одним человеком.
Важно также, что и произведения остальных авторов не перепутались между собой и сидят на соседних ветках — Садулаев с Садулаевым, Водолазкин с Водолазкиным. Это значит, что метод не ошибается, не «путается в показаниях» и уверенно определяет стилистику писателей.
Итак, можно было бы сказать: отстаньте от Пелевина, всё с ним нормально. Тот, кто творил в 1990-е, продолжает писать и в начале 2020-х. Да, это один и тот же автор. И нет, это не может быть компьютер. Но, во-первых, не отстанут, а во-вторых, это будет противоречить самому замыслу писателя — рождать слухи о нем из информационной пустоты.