Нейросеть предсказала жесты человека по его речи

Ученые Калифорнийского университета в Беркли создали алгоритм, который воссоздает жесты человека по его речи. На основе аудиозаписи нейросеть генерирует реалистичный видеоролик. О разработке пишет N+1.

Сначала алгоритм на базе сверточной нейросети UNet предсказывает жесты по аудио, а затем визуализирует последовательность поз.

Исследователи обучили нейросеть на датасете из аудио- и видеозаписей телеведущих, лекторов и религиозных проповедников общей длительностью 144 часа.

Некоторые движения не полностью соответствуют реальным жестам человека на исходной записи. Часто алгоритм подбирает верное движение, но использует другую руку, отмечается в работе.