Две группы ученых разработали ИИ-модели, работающие с жестовыми языками. Одна переводит с них на звучащие языки, другая — переводит текст на язык жестов, которые воспроизводит аватар.
Перевода с жестового языка осложняется распознаванием изображений. Жестовый язык принципиально трехмерный, так как рука двигается не только вверх-вниз, но и вперед-назад, а видео двумерно.
Кроме того, значение слов и фраз зависит от последовательности жестов, а в некоторых случаях даже от темпа. Однако ученые из Университета Суррея смогли решить эти проблемы и создать рабочую модель Sign2GPT.
Исследователи из нескольких американских университетов описали ИИ-модель SignLLM. Она тоже обучалась на видеозаписях жестового языка, но ее цель была другой: превратить текст в видео.
В дальнейшем обе команды планируют объединить возможности двух моделей в одну и добавить распознавание и синтез голоса. Это упростит общение слабослышащих людей.