«Он был Конан Дойлем от лингвистики». Александр Пиперски — о методе академика Зализняка, говорящих нейросетях и искусственных языках в кино

— Расскажи, когда ты впервые увидел Андрея Анатольевича.

— Так получилось, что в самый первый раз — еще в детстве, когда мне было лет семь. Моя мама работает на филфаке МГУ, и она меня водила на какую-то его лекцию — они еще не были такими популярными, как в последние годы. Тогда я, конечно, ничего не слушал и не понял.

Потом, уже подростком, ходил на отчетные лекции по итогам летних новгородских раскопок, они еще умещались в поточке нашего первого гуманитарного корпуса МГУ. В 2005-м поступил на филфак и с 2006-го стал заниматься на семинарах Зализняка по отдельным языкам — арабскому, санскриту.

— Это те самые семинары, где он за несколько занятий объяснял грамматику, синтаксис и говорил: «А дальше вы сами»?

— Методика преподавания у него была такая. В начале занятий Андрей Анатольевич давал нам конспекты грамматик, очень краткие, сжатые «архивы», которые мы должны были «распаковать», — и с ними и со словарями читать тексты, разбирая каждую форму.

— Каким он был преподавателем? Как Андрею Анатольевичу удавалось просто и понятно объяснять очень сложные вещи?

— Я сказал бы, что он был «Конан Дойлем» от лингвистики. Он превращал научную проблему в увлекательный рассказ, выстраивал рассуждения и доказательства как детективный сюжет.

Вот есть слово, значение и происхождение которого неизвестны слушателям; Зализняк постепенно приводил «улики», складывал пазл, и историческая картина выстраивалась полностью на твоих глазах и как бы с твоим участием.

Зализняк не сообщал готовое знание, а помогал дойти до него самостоятельно. В этом, наверное, секрет не только его авторитета в академической среде, но и широкого интереса к нему.

Очень немногие ученые могут интересно и понятно рассказывать о своей работе. Например, о славянском ударении написано множество книг. Я не считаю себя совсем уж неискушенным читателем специальной лингвистической литературы, но большинство этих учебников понять нельзя. А в известной всем филологам «красной» книжке Зализняка «От праславянской акцентуации к русской» все четко, кратко и предельно ясно.

Стройность мышления Зализняка, его способность увидеть порядок в любом кажущемся хаосе проявлялись еще в том, что даже исключения из правил у него все равно входили в систему — он умел находить дополнительные правила, по которым такие-то слова не подчиняются общим законам.

И закономерно, что именно Андрей Анатольевич изобрел жанр лингвистической задачи.

— Вспомни какую-нибудь задачу.

— Например, даны русские слова тень, кровать, дверь и другие; нужно определить, какое из них раньше было мужского рода, — а для этого нужно догадаться, что в современном русском остались какие-то «осколки» мужского рода искомого слова. С помощью подсказок Зализняка начинаешь ставить слова в уменьшительные формы — кроватка, дверка, тенек — и так находишь правильный ответ. Тень сменила род, а тенек остался в мужском.

— Правда ли, что Андрей Анатольевич любил игру «Почему не говорят»?

— По крайней мере, на лекциях он часто упоминал эту игру и пример из нее, который в каком-то смысле стал хрестоматийным: почему не говорят «Красна чья рожа?»

«В этой игре, как и в шарадах, слово разбивается на части, равные каким-то словам, а затем эти слова заменяются на близкие по смыслу. Вот прелестный пример: почему не говорят „красна чья рожа“? Ответ: потому что говорят ал-кого-лик. Лингвист охотно позабавится игрой ал-кого-лик, а вот любитель легко может поверить, что он открыл таким образом происхождение слова алкоголик. А заглядывать в этимологический словарь (из которого легко узнать, что слово алкоголь пришло из арабского) любитель не сочтет нужным — он больше верит своей интуиции. И вот мы уже слышим от него, например, что первый слог слова разум или конец слова хандра — это имя египетского бога Ра и т. п».

Андрей Зализняк, «О профессиональной и любительской лингвистике».

— Объясни мне и другим читателям-неспециалистам, почему классическая работа Зализняка «Грамматический словарь русского языка» стала основой для современных компьютерных программ распознавания человеческой речи.

— На родном языке мы говорим почти не задумываясь. Наша школьная грамматика — очень упрощенная, с шестью падежами, тремя склонениями — ориентирована на тех, кто и так знает, как образуются формы, и ему нужно только правильно их написать. А письменность, орфография вообще имеют мало отношения к реальному языку.

Но эта школьная грамматика не учитывает много сложностей. Например, я ставлю во множественное число слова, относящиеся ко второму склонению, дом и стол — и получаю дома и столы, совсем разные формы.

— А потом читаешь Пушкина и видишь у него загадочные домы.

— Именно. Но в обыденной речи нам вообще неважно, какое это склонение и почему у Пушкина домы — мы же знаем, что сейчас правильно дома. А компьютер этого не знает, и для него нужно отдельно описать, как склоняются дом и стол. И вот такое четкое описание морфологических парадигм дал Зализняк. Он формализовал то, что мы как носители языка понимаем интуитивно, и сделал это задолго до появления программ, которые теперь есть в каждом нашем телефоне и которые работают, во многом основываясь на описаниях Андрея Анатольевича.

— Говоря об этих программах, в первую очередь мы имеем в виду изначально русскоязычный Яндекс. А как Гугл научился искать по-русски?

— Я точно не знаю, как устроен гугловский поиск, но видно, что он уделяет гораздо меньше внимания морфологии, чем Яндекс. Если написать там и там помятые брюки, то Гугл на первых страницах выдаст результаты помятые, мятые брюки, а Яндекс — помятым, помятыми брюками и так далее. То есть Яндекс обращает больше внимания на словоизменение по падежам, числам и другим грамматическим категориям.

— Как работает Алиса?

— Я, не будучи инженером, боюсь соврать, но вообще ничего революционного в ней нет.

В голосовом помощнике — помощнице? — Яндекса объединены решения трех основных задач компьютерной лингвистики: распознать в потоке звуков человеческой речи грамматичный текст; найти ответ на содержащийся в нем вопрос и конвертировать ответ обратно в звучащую речь.

А делается это на основе множества других распространенных запросов, которые уже «знает» программа. Говоря совсем просто, Алиса «читала» много-много похожих текстов.

— Тебе самому Алиса нравится?

— Она интересна как эксперимент, но мне как пользователю комфортнее «по старинке» набирать руками. Так я полностью контролирую свой запрос, а Алиса все же еще часто ошибается в распознавании.

— Сам Андрей Анатольевич как-нибудь рефлексировал по поводу того, что алгоритмы поиска и морфологического анализа основаны на его работах?

— Я от него такого не слышал. Это может показаться парадоксальным, но его научные интересы вообще были довольно далеки от компьютерной лингвистики. Даже оцифровкой его «Грамматического словаря» занимался другой известный крупный лингвист Сергей Старостин, которого тоже, к сожалению, уже нет в живых.

— В ближайшие годы компьютерная лингвистика может сделать что-то прорывное для улучшения, упрощения взаимодействия между человеком и устройствами? Можно ли будет, например, полноценно надиктовывать большие тексты?

— Уже примерно лет 60 лингвисты говорят: да, конечно, через пять лет все это будет! — время проходит, а ничего «этого», ничего фантастического так и не появляется. Поэтому давай я скажу то же: через пять лет мобильные устройства будут нас понимать очень круто.

А проверять эти прогнозы, как всегда, никто не станет.

Но если говорить серьезно, то перспективным направлением компьютерной лингвистики мне представляются искусственные нейронные сети, которые вплотную подходят к пониманию того, как работает с языком наш мозг, в котором, скорее всего, преобладает статистический, а не чисто логический анализ и поиск нужных форм.

Если нейросети начнут «говорить» похоже на то, как это делаем мы, то нам как пользователям это, конечно, понравится.

Через пять-десять лет — точно!

— Расскажи о своей книге. Как твое увлечение — искусственные языки — стало твоей второй специальностью?

— Я интересовался ими с детства, что-то читал на эсперанто. Такие языки очень удобны, например, для составления олимпиадных задач, чем я тоже занимаюсь. В искусственных языках все строго и четко. Но писать о них популярную работу я не собирался: очевидно же, что это несовместимо с серьезной академической карьерой.

Я записал несколько лекций для «ПостНауки» и потом в разговорах с редакторами этого проекта я обмолвился, что в художественной литературе и в кино есть такие-то интересные сконструированные языки. Мне предложили написать об этом лонгрид, я долго отмахивался, меня долго пинали, и в итоге получалась эта книжка, которая мне самому неожиданно понравилась.

— Как выглядит эсперанто-сообщество?

— Количество эсперантистов в мире можно оценивать в пределах от нескольких сотен тысяч до двух миллионов «пользователей». Для сравнения — по данным последней переписи населения, в нашей стране только четыре языка, каждым из которых владеют больше двух миллионов человек: русский, татарский, английский, немецкий — то есть, по сути, таких языков всего два.

Каучсерфинг раньше всего появился среди «подписчиков» эсперанто. Этот язык замечателен тем, что он объединяет людей со всего мира, — как, например, это происходит в среде коллекционеров марок и других больших тематических сообществах.

Вопросы возникают, когда начинается пропаганда. Ты встречал когда-нибудь филателиста, который пытался бы тебя убедить, что ты тоже должен собирать марки? А среди эсперантистов такое, к сожалению, иногда встречается.

— Если бы тебе предложили придумать искусственный язык для нового сериала, ты бы согласился?

— Я бы попробовал. Но загвоздка в том, что в отечественном кино до сих пор не было подобных экспериментов. Мы знаем прекрасно разработанные серьезными лингвистами языки: клингонский из «Звездного пути», нави из «Аватара», дотракийский из «Игры престолов». Почти одновременно вышли два фильма о пришельцах — «Прибытие» и «Притяжение». В первом ставится и решается задача общения с этими чужаками, а во втором, нашем, они почему-то говорят как бы «по-русски».

— Почему для нас не актуален поиск общего языка для разных людей?

— Потому что русский довольно однороден, несмотря на диалекты. И если не брать в расчет педантов и снобов, у нас никто не будет по произношению отдельных звуков и употреблению местных слов судить о происхождении, образовании, социальном статусе человека.

А в англоязычном мире диалектные особенности невероятно значимы. По речи определяют, откуда человек родом, к какому «классу» он принадлежит. Для нас это странно, потому что продавец-кассир и федеральный министр говорят примерно одинаково — подчеркиваю, не «хорошо» и не «плохо», а просто без явных различий.

Американка Мерил Стрип среди прочего прославилась умением имитировать акценты, что позволило ей сыграть Маргарет Тэтчер в «Железной леди». Говорят, что британец Хью Лори удивлял некоторых не самых эрудированных участников съемочной группы «Доктора Хауса», когда сообщал им, что, несмотря на свое произношение, он британец. То есть в англоязычном мире язык — гораздо более важный маркер идентичности, чем у нас.

А пока остается надеяться, что отечественные продюсеры и сценаристы тоже смотрят «Игру престолов» и сделают так, чтобы в нашем кино заговорили на каком-нибудь интересном искусственном языке.