Нейросеть Speech2Face научилась определять пол, возраст и этническое происхождение человека по голосу. Системе также удалось воссоздать по спектрограмме речи примерное изображение лица человека, пишет N+1.
Ученые из Массачусетского технологического института загрузили в нейросеть архив AVSpeech — это более миллиона коротких видеороликов с разговорами свыше 100 000 человек.
Чтобы оценить точность работы алгоритма, ученые сравнили пол, примерный возраст и этнические характеристики человека на видео и портрета, созданного по голосу.

Выяснилось, что нейросеть хорошо угадывает пол, но редко определяет возраст с точностью до десяти лет, а также лучше всего рисует европейцев и азиатов. Исследователи объясняют эту особенность неравномерным распределением рас в выборке.
Подробнее о работе алгоритма можно узнать на github.