Ученые Калифорнийского университета в Беркли создали алгоритм, который воссоздает жесты человека по его речи. На основе аудиозаписи нейросеть генерирует реалистичный видеоролик. О разработке пишет N+1.
Сначала алгоритм на базе сверточной нейросети UNet предсказывает жесты по аудио, а затем визуализирует последовательность поз.
Исследователи обучили нейросеть на датасете из аудио- и видеозаписей телеведущих, лекторов и религиозных проповедников общей длительностью 144 часа.
Некоторые движения не полностью соответствуют реальным жестам человека на исходной записи. Часто алгоритм подбирает верное движение, но использует другую руку, отмечается в работе.