Месопотамия онлайн: как искусственный интеллект расшифровывает древние тексты
Компьютерная лингвистика, а точнее обработка естественного языка (Natural Language Processing, NLP), с недавнего времени стала одним из самых популярных направлений науки. Ее методы позволяют автоматически заменить в сообщении матерное междометие на имя девушки, убавить громкость колонок, не вставая с дивана, или перевести меню по фотографии. А группа исследователей-энтузиастов решила применить технологию машинного анализа в изучении текстов давно исчезнувших цивилизаций. Теперь компьютеры должны помочь нам перевести письмена, созданные несколько тысячелетий назад.
Один из древнейших видов письменности — клинопись — до сих пор остается практически неизученным, а главные документы той эпохи — разбитые и обгоревшие глиняные таблички с полустертыми отметками. Клинопись появилась более 5000 лет назад в Месопотамии, на территории современного Ирака, между Тигром и Евфратом.
Многочисленные источники, от гневных царских писем до рецептов успокоения плачущего младенца, позволяют составить представление о жизни сложной и удивительной цивилизации.
В них отражены периоды расцвета и угасания древнейших царств — Аккадского, Ассирийского и Вавилонского. На сегодняшний момент археологи обнаружили около полумиллиона глиняных табличек и каменных оттисков, но это далеко не все возможные находки. Хотя клинопись была расшифрована полтора века назад, 90 % древних надписей всё еще не переведено. Значительно ускорить этот процесс призваны машинные технологии.
Месопотамская цивилизация подарила человечеству важнейшие изобретения, которыми мы пользуемся по сей день: колесо, час из 60 минут, астрономия, географические карты. Первая литературная работа — эпос о Гильгамеше — тоже появилась в Междуречье. Но эти тексты в основном написаны на шумерском и аккадском языках, которые может прочесть очень небольшая группа специалистов.
Ученые из Университета Торонто создали проект машинного анализа клинописных текстов. Его участники планируют обработать и перевести 67 000 служебных и административных записей, относящихся к ХХI веку до н. э. Таким образом они хотят популяризировать прошлое и возродить интерес к древним текстам.
В табличках содержатся сведения о разных аспектах жизни народов Месопотамии. Но без дешифровки и открытого доступа экономисты, социологи и историки пока не могут полностью проанализировать общественное устройство, характерное для культуры Междуречья. Проект должен значительно упростить эту задачу. Чтобы сделать язык доступным для изучения, ассириологи копируют его и транскрибируют латиницей.
Кроме глиняных табличек, в коллекциях по всему миру хранится более 50 000 каменных оттисков и печатей, которыми пользовались на протяжении нескольких тысячелетий жители Месопотамии, чтобы обозначать принадлежность дверей, тех же табличек, кувшинов и других предметов быта. Только 10 % этих артефактов внесено в каталоги, а переведено и того меньше.
Месопотамия подарила нам больше письменных источников, чем Греция, Рим и Египет вместе взятые.
Основная проблема — нехватка специалистов, которые могли бы их прочесть.
Главный координатор проекта Эмили Паже-Перрон надеется, что машинный анализ выявит закономерности шумерской речи, пока не открытые лингвистами. Вымерший язык не связан ни с одним современным и существует только в виде клинописи. Кажется, эта письменность появилась как нельзя вовремя, чтобы сохранить наследие шумеров для будущих поколений.
Оцифровка
Чтобы увидеть глиняные таблички, теперь вовсе не обязательно мчаться в музей на другом конце света. Труды из библиотеки царя Ашшурбанапала (VII в. до н. э.) продолжают оцифровывать и выкладывать в открытый доступ. Новые технологии облегчают работу с древними и часто поврежденными источниками. Изображения с высокой детализацией позволяют выявить малейшие черточки, которые не видны без сильного увеличения.
Канадские ученые оцифровывают таблички из музейных и частных коллекций Тегерана, Парижа и Оксфорда и создают «Цифровую библиотеку клинописных текстов». Обширная онлайн-база уже содержит около трети всех известных источников такого рода. Без появления подобных ресурсов машинный перевод был бы немыслим.
Оцифровка помогает исследователям связать фрагменты текстов, которые в реальности могут находиться на огромных расстояниях друг от друга.
Команда из Торонто сотрудничает с университетами Саутгемптона и Париж Х — Нантер. Вместе с коллегами им удалось создать трехмерные копии 2000 каменных печатей, найденных в Месопотамии. В первом проекте они использовали машинные алгоритмы, чтобы изучить шесть табличек и подобрать соответветствующие им печати. Компьютеру удалось правильно сопоставить артефакт из итальянской коллекции с подобным ему, хранящимся в США: изображения на обеих табличках содержали одно и то же клеймо.
Участники проекта считают, что на оцифровку всех печатей уйдет пять лет, поэтому процесс совмещения значительно ускорится и позволит узнать больше об особенностях оттисков. К примеру, некоторые печати явно чаще использовались женщинами, чем мужчинами.
Оцифровка изменила подход к изучению нерасшифрованных текстов и письменностей. Искусственный интеллект пока не способен проявить достаточно изобретательности, «гибкости ума» и «не понимает», как была организована жизнь того периода, поэтому здесь требуется помощь человека. Например, ранние клинописные знаки расположены не в строку — они просто помещены в некое пространство, очерченное границами.
Протоэламская письменность, которая еще древнее, и вовсе рассматривается в трех измерениях: более глубокие оттиски отличаются по значению от менее отчетливых.
Однако технологии значительно помогают в процессе расшифровки — благодаря им удается получить четкие изображения и уже потом увеличивать и сравнивать их, не отправляясь при этом в далекие и недешевые экспедиции.
На высокодетализированных снимках древних табличек можно разглядеть мельчайшие элементы, которые не видны невооруженным глазом. Например, иногда заметно, какие операции писец производил с табличкой. В одной из форм критской письменности — линейном письме Б — есть следы удаления текста, когда автор наносил новые надписи поверх стертых.
Аккадский язык (наследник шумерского) теперь можно не только увидеть, но и послушать. Разумеется, никаких аудиоисточников не сохранилось, поэтому ученые восстанавливали звучание по нескольким параметрам. Они сравнивали аккадский со схожими по структуре арабским и эфиопским, опирались на тексты, где этот древний язык передан средствами греческого и арамейского алфавитов или где греческие слова выбиты клинописью. Разнообразные аспекты произношения всё еще изучаются, но по очевидным причинам многое восстановить так и не удастся. На сайте можно найти легенды и сказания шумеров, все они начитаны учеными и лингвистами, изучающими шумерский и аккадский языки.
В 2014 году певица Стеф Коннер записала небольшой альбом «Потоп», где попыталась представить, как звучали древние песни и стихотворения.
Анализ и перевод
Команда Эмили Паже-Перрон «натаскивает» алгоритмы на примере 4000 образцов древнего текста, которые загружены в цифровую базу. Записи посвящены купле-продаже домашнего скота, поставкам товаров в храмы и частные дома и т. д. Изначально тексты выдавливались в глине палочкой, но современным ученым удалось транслитерировать клинопись в латиницу — например, шумерское слово «большой» будет выглядеть как gal.
В самих формулировках не встретишь ни сочных эпитетов, ни замысловатых метафор: «11 коз для кухни 15-го дня».
Но тем они и ценны для автоматической обработки. Сейчас алгоритмы учатся переводить простые тексты на английский, а в будущем возьмутся за более сложные источники. Записи, над которыми ведется работа, не особо интересны в отрыве друг от друга, но именно их совокупность представляет огромную научную ценность. Эти тексты содержат сведения о быте Месопотамии, ее торговле и политике, а также раскрывают некоторые аспекты социальной истории. Проиндексированные переводы дают возможность исследователям из других областей изучить богатое разнообразие жизни Древнего мира.
Основной источник автоматизированного анализа — примерно 67 000 шумерских текстов (1,5 млн строк), относящихся к XXI веку до н. э. Из них человеком переведено лишь около 1600 записей. Каждый источник снабжен метаданными: объем текста, характеристика исторических реалий той поры и некоторые элементы внутреннего анализа. Записи четко рассортированы по стилю и тематике, во многих указаны результаты измерений и вычислений. Фрагменты часто повторяются: они краткие, а число формулировок ограниченно. В метаданных также указывается, на какой стороне таблички или печати нанесен текст. Перечень параметров поиска и их описание можно найти в специальном разделе.
Современная технология обработки естественного языка использует автоматические классификаторы для проставления лингвистических тегов. Специалисты уже сделали это для некоторых аккадских и шумерских текстов, но основной массив источников остается немаркированным. Такая работа, если выполнять ее вручную, займет огромное количество времени и требует знаний, которыми обладают единицы. Поэтому авторы проекта создали модульную систему обработки, позволяющую производить автоматическое лингвистическое маркирование. Его результаты затем могут исправлять специалисты. «Сырые» данные — это непереведенный шумерский текст, который будет пропущен через ряд модулей и получит морфологические и синтаксические теги.
В рамках проекта также планируется создать систему выявления информации для идентификации концептов и логических связей в тексте. Результаты будут добавлены к тегам и определениям. Главная задача — подробно изучить историческую обстановку периода третьей династии Ура. Так, шумерские тексты содержат много имен собственных, но их непросто «выловить» по отдельности в разных источниках. К примеру, слово d iskur-illat встречается 1212 раз в 1092 записях. Оно может быть топонимом, названием дороги или именем разных людей, живущих как минимум в пяти городах. Систему научат определять соответствие между людьми, титулами и местами, чтобы избежать двусмысленности и разбить имена собственные по категориям.
Еще одна задача проекта — узнать больше о социальной мобильности в этот исторический период.
Чаще всего в административных записях указаны дата (иногда — конкретный день) и имя правителя, поэтому проследить жизненный путь личности будет не так уж сложно.
Исследователи составляют графики взаимодействий отдельного человека с другими представителями и институтами общества той поры, которые помогут получить ряд сведений о нем: уровень ответственности, смена социальной роли, титула, смещение с должности и наличие собственности. Такие исследования позволят определить социальные и политические тенденции того времени, выявить ведущие факторы, определявшие место человека в общественной иерархии.
Автоматическая обработка, анализ и перевод древних текстов — непростая задача. Какие-то данные неизбежно будут разниться и противоречить друг другу. Благодаря особому грамматическому типу в шумерском существует множество словоформ, но исследователи постараются брать только основы слов, чтобы минимизировать возможные расхождения. В источниках попадаются и региональные лексические варианты с разными значением, произношением и написанием, зависящими от типа текста, исторического периода и места создания. Не облегчают процесс перевода и многочисленные заимствования — иностранные имена и термины.
У шумерского нет «наследников», что делает задачу проставления тегов еще более сложной. Исследования показали, что параллели с современными версиями древних языков кардинально улучшают качество лингвистического маркирования. Поэтому ученые планируют в качестве эксперимента сравнить шумерский с турецким и баскским, поскольку они близки по грамматическому строю.
После окончания проекта модульную систему продолжат совершенствовать и будут использовать ее при работе с шумерскими текстами других видов и периодов. Благодаря этим инструментам древние записи станут доступнее не только машинам, но и людям. Участники проекта сформируют корпус ранней письменности, с которым смогут работать исследователи из разных областей, изучающих исторический регион Междуречья. Это уникальная возможность сделать еще один шаг в естественной обработке древних языков и открыть миру наследие цивилизаций прошлого.
Глава проекта предполагает, что искусственный интеллект в будущем позволит переводить таблички с более сложным содержанием и работать со схожими языками и наречиями. Однажды мы сможем прочесть тексты, которые еще древнее тех, что стали объектом изучения группы Паже-Перрон и ее дрессированных машин. Хотя большинство загадок Месопотамии, скорее всего, переживет нас: фрагменты многих табличек по-прежнему находятся под землей. Тем не менее уже через несколько лет массив переведенных текстов значительно расширится, и исследователи получат новые данные для изучения и анализа.