Сможете ли вы отличить Хемингуэя от Диккенса или Фолкнера от Теккерея, если убрать из книг текст и оставить только знаки препинания?
Ученые из Оксфорда, Уорикского университета и Калифорнийского университета в Лос-Анджелесе взялись доказать, что это возможно.
Используя открытую базу проекта «Гутенберг», математики изучили почти 15 000 текстовых документов и определили идиостиль свыше 650 авторов.
Исследователи опирались на частотность знаков препинания, расстояние между ними и длину предложений. Затем они применили к этим параметрам математические формулы и составили тепловые карты для избранных произведений.
Полученные данные загрузили в нейросеть. Системе удалось распознать писателей с точностью до 72 %. Также компьютер определил жанр произведения с точностью до 65 %.
Полный текст исследования опубликован на сайте SocArXiv.