Нейросеть Speech2Face воссоздала лица людей по их голосу

Алгоритм, созданный в MIT, умеет распознавать голос и анализировать его. ИИ-система с высокой точностью определяет пол говорившего, с менее высокой точностью — его возраст и национальность. Подробно результаты тестирования описаны авторами в статье Speech2Face: Learning the Face Behind a Voice в журнале Computer Science.

Нейросеть обучали на датасетах коротких видео с говорившими людьми. Алгоритм тренировали разделять аудио и видео данные и самостоятельно перерабатывать их. В результате искусственный интеллект научился «угадывать» говоривших, создавая их примерные портреты.

Стоит отметить, что несмотря на довольно низкое качество воссозданных изображений, иногда нейросеть воссоздавала очень точные изображения говоривших. Наилучшие результаты программа показала в определении пола. Также неплохих результатов ученым удалось добиться в указании национальности владельцев анализируемого голоса. А вот возраст говоривших искусственный интеллект угадывал хуже всего.

Иллюстрация на обложке: arxiv.org

Источник

Это также будет Вам интересно:
iMag.one - Самые важные новости достойные вашего внимания из более чем 300 изданий!