Нейросеть нарисовала людей по голосу

Нейросеть Speech2Face научилась определять пол, возраст и этническое происхождение человека по голосу. Системе также удалось воссоздать по спектрограмме речи примерное изображение лица человека, пишет N+1.

Ученые из Массачусетского технологического института загрузили в нейросеть архив AVSpeech — это более миллиона коротких видеороликов с разговорами свыше 100 000 человек.

Чтобы оценить точность работы алгоритма, ученые сравнили пол, примерный возраст и этнические характеристики человека на видео и портрета, созданного по голосу.

Настоящие лица и смоделированные компьютером по голосу.

Выяснилось, что нейросеть хорошо угадывает пол, но редко определяет возраст с точностью до десяти лет, а также лучше всего рисует европейцев и азиатов. Исследователи объясняют эту особенность неравномерным распределением рас в выборке.

Подробнее о работе алгоритма можно узнать на github.