Месопотамия онлайн: как искусственный интеллект расшифровывает древние тексты

Компьютерная лингвистика, а точнее обработка естественного языка (Natural Language Processing, NLP), с недавнего времени стала одним из самых популярных направлений науки. Ее методы позволяют автоматически заменить в сообщении матерное междометие на имя девушки, убавить громкость колонок, не вставая с дивана, или перевести меню по фотографии. А группа исследователей-энтузиастов решила применить технологию машинного анализа в изучении текстов давно исчезнувших цивилизаций. Теперь компьютеры должны помочь нам перевести письмена, созданные несколько тысячелетий назад.

Один из древнейших видов письменности — клинопись — до сих пор остается практически неизученным, а главные документы той эпохи — разбитые и обгоревшие глиняные таблички с полустертыми отметками. Клинопись появилась более 5000 лет назад в Месопотамии, на территории современного Ирака, между Тигром и Евфратом.

Многочисленные источники, от гневных царских писем до рецептов успокоения плачущего младенца, позволяют составить представление о жизни сложной и удивительной цивилизации.

В них отражены периоды расцвета и угасания древнейших царств — Аккадского, Ассирийского и Вавилонского. На сегодняшний момент археологи обнаружили около полумиллиона глиняных табличек и каменных оттисков, но это далеко не все возможные находки. Хотя клинопись была расшифрована полтора века назад, 90 % древних надписей всё еще не переведено. Значительно ускорить этот процесс призваны машинные технологии.

Одна из множества клинописных табличек, пока не переведена. Источник

Месопотамская цивилизация подарила человечеству важнейшие изобретения, которыми мы пользуемся по сей день: колесо, час из 60 минут, астрономия, географические карты. Первая литературная работа — эпос о Гильгамеше — тоже появилась в Междуречье. Но эти тексты в основном написаны на шумерском и аккадском языках, которые может прочесть очень небольшая группа специалистов.

Ученые из Университета Торонто создали проект машинного анализа клинописных текстов. Его участники планируют обработать и перевести 67 000 служебных и административных записей, относящихся к ХХI веку до н. э. Таким образом они хотят популяризировать прошлое и возродить интерес к древним текстам.

В табличках содержатся сведения о разных аспектах жизни народов Месопотамии. Но без дешифровки и открытого доступа экономисты, социологи и историки пока не могут полностью проанализировать общественное устройство, характерное для культуры Междуречья. Проект должен значительно упростить эту задачу. Чтобы сделать язык доступным для изучения, ассириологи копируют его и транскрибируют латиницей.

Кроме глиняных табличек, в коллекциях по всему миру хранится более 50 000 каменных оттисков и печатей, которыми пользовались на протяжении нескольких тысячелетий жители Месопотамии, чтобы обозначать принадлежность дверей, тех же табличек, кувшинов и других предметов быта. Только 10 % этих артефактов внесено в каталоги, а переведено и того меньше.

Месопотамия подарила нам больше письменных источников, чем Греция, Рим и Египет вместе взятые.

Основная проблема — нехватка специалистов, которые могли бы их прочесть.

Главный координатор проекта Эмили Паже-Перрон надеется, что машинный анализ выявит закономерности шумерской речи, пока не открытые лингвистами. Вымерший язык не связан ни с одним современным и существует только в виде клинописи. Кажется, эта письменность появилась как нельзя вовремя, чтобы сохранить наследие шумеров для будущих поколений.

Оцифровка

Чтобы увидеть глиняные таблички, теперь вовсе не обязательно мчаться в музей на другом конце света. Труды из библиотеки царя Ашшурбанапала (VII в. до н. э.) продолжают оцифровывать и выкладывать в открытый доступ. Новые технологии облегчают работу с древними и часто поврежденными источниками. Изображения с высокой детализацией позволяют выявить малейшие черточки, которые не видны без сильного увеличения.

Канадские ученые оцифровывают таблички из музейных и частных коллекций Тегерана, Парижа и Оксфорда и создают «Цифровую библиотеку клинописных текстов». Обширная онлайн-база уже содержит около трети всех известных источников такого рода. Без появления подобных ресурсов машинный перевод был бы немыслим.

Оцифровка помогает исследователям связать фрагменты текстов, которые в реальности могут находиться на огромных расстояниях друг от друга.

Команда из Торонто сотрудничает с университетами Саутгемптона и Париж Х — Нантер. Вместе с коллегами им удалось создать трехмерные копии 2000 каменных печатей, найденных в Месопотамии. В первом проекте они использовали машинные алгоритмы, чтобы изучить шесть табличек и подобрать соответветствующие им печати. Компьютеру удалось правильно сопоставить артефакт из итальянской коллекции с подобным ему, хранящимся в США: изображения на обеих табличках содержали одно и то же клеймо.

Участники проекта считают, что на оцифровку всех печатей уйдет пять лет, поэтому процесс совмещения значительно ускорится и позволит узнать больше об особенностях оттисков. К примеру, некоторые печати явно чаще использовались женщинами, чем мужчинами.

Каменная печать и табличка с оттиском. Источник
Каменная печать и табличка с оттиском. Источник

Оцифровка изменила подход к изучению нерасшифрованных текстов и письменностей. Искусственный интеллект пока не способен проявить достаточно изобретательности, «гибкости ума» и «не понимает», как была организована жизнь того периода, поэтому здесь требуется помощь человека. Например, ранние клинописные знаки расположены не в строку — они просто помещены в некое пространство, очерченное границами.

Протоэламская письменность, которая еще древнее, и вовсе рассматривается в трех измерениях: более глубокие оттиски отличаются по значению от менее отчетливых.

Однако технологии значительно помогают в процессе расшифровки — благодаря им удается получить четкие изображения и уже потом увеличивать и сравнивать их, не отправляясь при этом в далекие и недешевые экспедиции.

На высокодетализированных снимках древних табличек можно разглядеть мельчайшие элементы, которые не видны невооруженным глазом. Например, иногда заметно, какие операции писец производил с табличкой. В одной из форм критской письменности — линейном письме Б — есть следы удаления текста, когда автор наносил новые надписи поверх стертых.

Аккадский язык (наследник шумерского) теперь можно не только увидеть, но и послушать. Разумеется, никаких аудиоисточников не сохранилось, поэтому ученые восстанавливали звучание по нескольким параметрам. Они сравнивали аккадский со схожими по структуре арабским и эфиопским, опирались на тексты, где этот древний язык передан средствами греческого и арамейского алфавитов или где греческие слова выбиты клинописью. Разнообразные аспекты произношения всё еще изучаются, но по очевидным причинам многое восстановить так и не удастся. На сайте можно найти легенды и сказания шумеров, все они начитаны учеными и лингвистами, изучающими шумерский и аккадский языки.

В 2014 году певица Стеф Коннер записала небольшой альбом «Потоп», где попыталась представить, как звучали древние песни и стихотворения.

Анализ и перевод

Команда Эмили Паже-Перрон «натаскивает» алгоритмы на примере 4000 образцов древнего текста, которые загружены в цифровую базу. Записи посвящены купле-продаже домашнего скота, поставкам товаров в храмы и частные дома и т. д. Изначально тексты выдавливались в глине палочкой, но современным ученым удалось транслитерировать клинопись в латиницу — например, шумерское слово «большой» будет выглядеть как gal.

В самих формулировках не встретишь ни сочных эпитетов, ни замысловатых метафор: «11 коз для кухни 15-го дня».

Но тем они и ценны для автоматической обработки. Сейчас алгоритмы учатся переводить простые тексты на английский, а в будущем возьмутся за более сложные источники. Записи, над которыми ведется работа, не особо интересны в отрыве друг от друга, но именно их совокупность представляет огромную научную ценность. Эти тексты содержат сведения о быте Месопотамии, ее торговле и политике, а также раскрывают некоторые аспекты социальной истории. Проиндексированные переводы дают возможность исследователям из других областей изучить богатое разнообразие жизни Древнего мира.

Основной источник автоматизированного анализа — примерно 67 000 шумерских текстов (1,5 млн строк), относящихся к XXI веку до н. э. Из них человеком переведено лишь около 1600 записей. Каждый источник снабжен метаданными: объем текста, характеристика исторических реалий той поры и некоторые элементы внутреннего анализа. Записи четко рассортированы по стилю и тематике, во многих указаны результаты измерений и вычислений. Фрагменты часто повторяются: они краткие, а число формулировок ограниченно. В метаданных также указывается, на какой стороне таблички или печати нанесен текст. Перечень параметров поиска и их описание можно найти в специальном разделе.

Современная технология обработки естественного языка использует автоматические классификаторы для проставления лингвистических тегов. Специалисты уже сделали это для некоторых аккадских и шумерских текстов, но основной массив источников остается немаркированным. Такая работа, если выполнять ее вручную, займет огромное количество времени и требует знаний, которыми обладают единицы. Поэтому авторы проекта создали модульную систему обработки, позволяющую производить автоматическое лингвистическое маркирование. Его результаты затем могут исправлять специалисты. «Сырые» данные — это непереведенный шумерский текст, который будет пропущен через ряд модулей и получит морфологические и синтаксические теги.

В рамках проекта также планируется создать систему выявления информации для идентификации концептов и логических связей в тексте. Результаты будут добавлены к тегам и определениям. Главная задача — подробно изучить историческую обстановку периода третьей династии Ура. Так, шумерские тексты содержат много имен собственных, но их непросто «выловить» по отдельности в разных источниках. К примеру, слово d iskur-illat встречается 1212 раз в 1092 записях. Оно может быть топонимом, названием дороги или именем разных людей, живущих как минимум в пяти городах. Систему научат определять соответствие между людьми, титулами и местами, чтобы избежать двусмысленности и разбить имена собственные по категориям.

Еще одна задача проекта — узнать больше о социальной мобильности в этот исторический период.

Чаще всего в административных записях указаны дата (иногда — конкретный день) и имя правителя, поэтому проследить жизненный путь личности будет не так уж сложно.

Исследователи составляют графики взаимодействий отдельного человека с другими представителями и институтами общества той поры, которые помогут получить ряд сведений о нем: уровень ответственности, смена социальной роли, титула, смещение с должности и наличие собственности. Такие исследования позволят определить социальные и политические тенденции того времени, выявить ведущие факторы, определявшие место человека в общественной иерархии.

Автоматическая обработка, анализ и перевод древних текстов — непростая задача. Какие-то данные неизбежно будут разниться и противоречить друг другу. Благодаря особому грамматическому типу в шумерском существует множество словоформ, но исследователи постараются брать только основы слов, чтобы минимизировать возможные расхождения. В источниках попадаются и региональные лексические варианты с разными значением, произношением и написанием, зависящими от типа текста, исторического периода и места создания. Не облегчают процесс перевода и многочисленные заимствования — иностранные имена и термины.

У шумерского нет «наследников», что делает задачу проставления тегов еще более сложной. Исследования показали, что параллели с современными версиями древних языков кардинально улучшают качество лингвистического маркирования. Поэтому ученые планируют в качестве эксперимента сравнить шумерский с турецким и баскским, поскольку они близки по грамматическому строю.

После окончания проекта модульную систему продолжат совершенствовать и будут использовать ее при работе с шумерскими текстами других видов и периодов. Благодаря этим инструментам древние записи станут доступнее не только машинам, но и людям. Участники проекта сформируют корпус ранней письменности, с которым смогут работать исследователи из разных областей, изучающих исторический регион Междуречья. Это уникальная возможность сделать еще один шаг в естественной обработке древних языков и открыть миру наследие цивилизаций прошлого.

Глава проекта предполагает, что искусственный интеллект в будущем позволит переводить таблички с более сложным содержанием и работать со схожими языками и наречиями. Однажды мы сможем прочесть тексты, которые еще древнее тех, что стали объектом изучения группы Паже-Перрон и ее дрессированных машин. Хотя большинство загадок Месопотамии, скорее всего, переживет нас: фрагменты многих табличек по-прежнему находятся под землей. Тем не менее уже через несколько лет массив переведенных текстов значительно расширится, и исследователи получат новые данные для изучения и анализа.