Как нейросети применяют в исторических исследованиях

1531 год. Вечер. Венеция. В типографской мастерской подмастерье работает над макетом страницы, предназначенной для учебника по астрономии. Строчки набираются очень плотно, рядом — ксилографические иллюстрации. Производство книг в XVI веке было трудоемким процессом, но распространение информации благодаря этому значительно ускорилось.

Спустя пятьсот лет мы работаем с информацией уже совсем по-другому. Терабайты изображений, видео и текста, потоки цифровых данных циркулируют с невероятной скоростью и требуют такой быстрой обработки так быстро, что мы обучаем этому машины. Этот сдвиг в производстве информации влияет на будущее всего — от художественного творчества до разработки лекарств.

В то же время эти технологические достижения позволяют иначе взглянуть на данные из прошлого. Историки начали использовать нейросети для изучения исторических документов, например астрономических таблиц.

Специалисты говорят, что применение современных технологий помогает устанавливать связи между большим числом исторических источников, чем это было при индивидуальной работе с каждым документом. Правда, такой подход предполагает новые риски — использование ИИ не исключает предвзятости и откровенной фальсификации источников.

Большие данные пришли в гуманитарные науки благодаря инициативам по оцифровке исторических документов, таких как собрание газет в Библиотеке Конгресса. Для исследователей это одновременно и проблема, и новые возможности. Информации стало так много, что обработать ее без компьютерных технологий просто невозможно.

В 2009 году Йоханнес Прайзер-Капеллер, профессор австрийской Академии наук, изучал реестр решений Византийской церкви XIV века. На основе сотни архивных документов Прейзер-Капеллер создал базу данных по каждому из епископов и использовал программное обеспечение для сетевого анализа, чтобы проследить связи между ними.

Этот метод дал свои плоды — компьютер обнаружил такие связи между упоминаемыми событиями, которые человеку было бы трудно просто вычитать из текстов. Проанализировав полученную информацию, Прейзер-Капеллер пришел к утверждению, что епископы, которые больше всего выступали на собраниях, на самом деле не были самыми влиятельными. После он применил эту технику к источникам по другим сообществам, в том числе по византийской элите XIV века, и обнаружил, что ее социальная структура поддерживалась за счет скрытого влияния женщин.

Работа Прейзера-Капеллера — лишь один из примеров нового направления в исторической науке. До недавнего времени нейросети не могли обобщать информацию из больших массивов подобных текстов — не в последнюю очередь потому, что некоторые особенности исторических документов (например, неразборчивый почерк) мешали их обработке. Теперь технологии обходят эти ограничения, используя нейросети, способные выявлять закономерности в больших и сложных наборах данных.

Почти 800 лет назад астроном XIII века Иоганнес де Сакробоско опубликовал вводный трактат о геоцентрической модели космоса. Этот трактат стал обязательным чтением для студентов раннего Нового времени и самым распространенным учебником по геоцентрической космологии, сохранившийся даже после того, как Коперник перевернул взгляд на космос в XVI веке.

Этот трактат — гордость оцифрованной коллекции из 359 учебников по астрономии, изданных между 1472 и 1650 годами: 76 000 страниц, включая десятки тысяч научных иллюстраций и астрономических таблиц.

В этом наборе данных Маттео Валлериани, профессор Института истории науки им. Макса Планка, увидел возможность проследить эволюцию европейских знаний. Он понял, что для того, чтобы выявить закономерности в таком объемном материале, потребуются способности выше человеческих.

Поэтому Валлериани с группой исследователей данных обратились к машинному обучению.

Это потребовало разделить единицы массива на три категории: тексты (сочинения на определенную тему с четким началом и концом); научные иллюстрации, которые помогали объяснять такие понятия, как лунное затмение; числовые таблицы, которые использовались для обучения математическим аспектам астрономии.

Сначала текст не поддавался алгоритмической интерпретации. Во-первых, сильно различались шрифты, так как типографии раннего Нового времени имели собственные мастерские для отливки букв и разрабатывали для своих книг уникальные шрифты. Это означало, что модель, использующая обработку естественного языка (NLP) для чтения текста, нужно было заново обучать для каждой новой книги.

Еще одна проблема — язык. Многие тексты были написаны на региональных диалектах латыни, которым алгоритм также нужно обучать. Это одна из причин, по которой NLP хорошо работает с английским языком, но менее эффективно, скажем, с древним ивритом.

Исследователи вручную извлекали текст из источников и выявляли отдельные связи между наборами документов — например, был ли текст приведен в другой книге или на другом языке. Эти данные были помещены в граф, который автоматически встраивал эти отдельные ссылки в сеть, содержащую все тексты. Оставались только визуальные элементы: 20 000 иллюстраций и 10 000 таблиц, для изучения которых исследователи использовали нейронные сети.

Взгляд компьютера на исторические изображения сталкивается с теми же проблемами, что и NLP. Особенности такого восприятия Лорен Тилтон, адъюнкт-профессор цифровых гуманитарных наук в Университете Ричмонда, называет «презентистским» уклоном. По ее словам, многие модели искусственного интеллекта обучаются на наборах данных, опубликованных за последние пятнадцать лет, и объекты, которые они научились идентифицировать, как правило, являются элементами современной жизни, такими как мобильные телефоны или автомобили. Модели обычно обучаются на цветных изображениях с высоким разрешением, а не на зернистых черно-белых фотографиях из прошлого. Всё это делает компьютерное зрение менее точным применительно к историческим изображениям.

В случае проекта Валлериани исследователи из BIFOLD обучили нейронную сеть обнаруживать, классифицировать и группировать иллюстрации из текстов раннего Нового времени. Сегодня эта модель доступна другим историкам через общедоступный веб-сервис CorDeep. Они также использовали новый подход к анализу таблиц. Различные таблицы, найденные в сотнях книг, нельзя сравнивать визуально, потому что, как объясняет Валлериани, одна и та же таблица может быть напечатана тысячью различными способами. Поэтому исследователи разработали особую архитектуру нейронной сети, которая обнаруживает и группирует похожие таблицы на основе содержащихся в них чисел, игнорируя их структуру и форму.

Проект дал удивительные результаты. Исследователи поняли, что в то же самое время, когда Европа раскалывалась по религиозному признаку после Реформации, научные знания, наоборот, во всё большей степени становились общим достоянием.

Нейросети помогают и в изучении еще более древней истории. Расшифровка надписей и восстановление поврежденных документов — кропотливая работа, особенно когда объекты с надписями были изъяты из контекста. Яннис Ассаэль и Теа Зоммершильд разработали нейросеть под названием Итака. Она способна реконструировать недостающие части надписей и определять как дату, так и географическое происхождение текстов.

Этот подход пролил свет на тексты афинских декретов классического периода, которые долгое время датировались 446 и 445 годами до н. э. Исследователи обучили модель на наборе данных, а затем попросили ее проанализировать эти декреты. Нейросеть назвала другую дату — 421 год до н. э.

Другие проекты предлагают использовать машинное обучение, чтобы выработать еще подробные знания о прошлом. Так была создана Венецианская машина времени — одна из нескольких по всей Европе, которые созданы для восстановления истории по оцифрованным документам. Венецианские государственные архивы умещаются на 80 километрах полок и охватывают тысячелетнюю историю. Цель исследователей состояла в том, чтобы оцифровать эти записи, многие из которых никогда не изучались современными историками. Они использовали ИИ для извлечения информации и построения связей между упоминаемыми явлениями, отслеживая имена, фигурирующие в разных документах.

Фредерик Каплан, президент Time Machine Organization, говорит, что они оцифровали достаточно городских административных документов, чтобы реконструировать структуру города в прошлые века, и теперь они знают даже, какая семья жила в том или ином здании в разные годы.

Однако у применения нейросетей для обработки исторических данных есть ограничение, похожее на то, что обнаруживается у больших языковых моделей, таких как ChatGPT. Так как модели в строгом смысле не понимают, что они читают, они могут прийти к абсурдным выводам. В данный момент надежно интерпретировать исторические источники может только человек.

В то же время более насущную проблему представляют нейросети, которые создают ложные записи.

Зрители ютуба теперь могут посмотреть речь Ричарда Никсона, которая была написана на случай, если бы высадка на Луну в 1969 году закончилась катастрофой — это дипфейк. Исследователи создали его, чтобы показать, как ИИ может повлиять на наше общее чувство истории. Сфальсифицированные исторические документы теперь можно создать за считаные секунды.

Однако в исторических подлогах нет ничего нового — вспомним хотя бы, как Иосиф Сталин стирал имена своих врагов из учебников истории. Но сегодня масштаб и скорость, с которой могут быть созданы фальшивки, захватывают дух, а сама проблема выходит за рамки редактирования фото или параграфов в книге. ИИ может создавать тексты, которые неотличимы от подлинных речей Викторианской эпохи. Генерируя почерк или шрифты, ИИ также может создавать убедительные лже-документы прошлого.

Между тем чат-боты с искусственным интеллектом, такие как Character.ai, позволяют пользователям имитировать диалог с историческими фигурами. Историки уже выразили обеспокоенность по поводу этих чат-ботов, которые, например, могут представить некоторых личностей раскаявшимися в расизме.

Другими словами, существует риск того, что искусственный интеллект будет ошибаться. Некоторые из этих ошибок являются безобидными. На вопрос, заданный в чат-боте Character.ai Аристотелю о его взглядах на женщин, он ответил, что им не следует «заводить социальные сети». Но есть и более опасные в смысле ошибок ситуации. Например, если историк будет работать с настолько большим массивом источников, что не смог бы проверить составляющие его документы по отдельности, или если приверженец определенной интерпретации истории разработает технологию анализа данных «под себя» и будет распространять ее как нейтральную.

Хотя скептицизм в отношении новых технологий сохраняется, эта область постепенно развивается, и со временем число историков, отвергающих анализ источников с помощью языковых моделей, будет сокращаться. По словам Валлериани, опасения ученых по поводу этичности ИИ — это не столько причина не использовать машинное обучение, сколько возможность для гуманитариев внести свой вклад в его развитие.

Французский историк Эммануэль Ле Руа Ладюри писал в 1968 году:

«Историк завтрашнего дня будет программистом, иначе его не будет».

Большие данные из глубины веков. Как искусственный интеллект помогает историкам узнать правду о прошлом