нейросети

Новгородские ученые разработали систему ИИ для быстрой «расшифровки» древнерусских грамот

В Великом Новгороде продолжают находить множество берестяных грамот. «Расшифровка» их содержания — трудоемкий процесс, поэтому специалисты из НовГУ решили разработать систему ИИ для автоматического распознавания и интерпретации древнерусских текстов.

древнерусские тексты, берестяные грамоты, Великий Новгород, НовГУ
Источник: Пресс-служба НовГУ / Иван Филиппов

Ученые из разных стран активно применяют компьютерное зрение при работе с рукописными текстами. Компьютерное зрение — это область ИИ, ориентированная на анализ изображений и видео.

Работа с древнерусскими грамотами для ИИ — задача со звездочкой: одни и те же символы могут читаться по-разному, также процесс усложняет наличие редких устаревших букв.

Чтобы обучить нейросеть, новгородские исследователи использовали набор данных о содержании пяти «эталонных» грамот, размеченных вручную. Все источники были хорошо сохранены, буквы в грамотах были выведены разборчиво.

«С запуска детектора начинается процесс работы ИИ, — пояснил магистрант Иван Филиппов, соавтор работы. — Детектор отвечает за обнаружение и объединение боксов вокруг букв. Боксы — это прямоугольники, заключающие в себе буквы. Так как модель не может принять полную грамоту и дать детальную расшифровку — необходимо давать ей буквы по отдельности, уже после собирая их в строки. Затем происходит сегментация, поиск контуров, объединение соседних боксов по дистанции и соотношение площадей».

Далее система распознает буквы, и они сохраняются в виде PNG-файлов, сгруппированных по классам. Ученый может экспортировать их и провести детальный анализ грамоты.

По словам авторов проекта, ИИ-система умеет обучаться самостоятельно и со временем ее «навыки» только улучшатся.

«Точность распознавания высокая — после всех доработок и корректировок она составляет 98%. Система уже сейчас готова к интеграции в архивные и научные проекты по изучению древнерусских грамот. То, что уже сделано, позволяет раскрыть такие функции, как датирование и установка авторства грамоты», — добавил Иван.

Читайте больше актуальных новостей тут.