Исследователи из новосибирского Института вычислительных технологий разработали алгоритм, который переводит дореволюционные тексты в современную орфографию. Об этом пишет «Наука в Сибири».
Система будет выполнять работу редакторов и даст ученым дополнительные инструменты для анализа текстов. За основу программы взяли «Справочник по старой орфографии русского языка» Павла Давыдова, проанализировавшего учебники, словари и справочники, изданные в старой орфографии до 1917 года.
В дореволюционном правописании можно выделить несколько групп слов: они характеризуются устаревшими морфемами и морфологическими признаками. Исследователи сопоставили устаревшее и современное написание для каждой из групп, нашли закономерности и описали правила перевода.
Сложность заключалась в том, что до середины XX века орфография русского языка не была официально утверждена.
Пока что программа не может переводить случаи, которых нет в справочниках, но ученые продолжат работу по выявлению таких незафиксированных правил, чтобы решить эту задачу.