Учёные научили нейросеть по записи голоса жестикулировать так, как реальный человек

Американцы смогли сделать алгоритм, способный точно рассчитывать и предсказывать работу человеческих рук во время разговора. Получая готовую аудиозапись, программа создает полностью анимированную модель работы рук и моделирует человеческое тело, после чего перекидывает полученный результат на реальное видео.

Ученые обнаружили, что эволюция контроля речи и движений рук может быть прослежена до одного и того же места в мозге, что может объяснить, почему мы используем жесты, когда говорим.

Почему это важно? Мы все полагаемся на жесты, чтобы увеличить силу и значение произносимых слов. Исследования показали, что нейронные сети в головном мозге, контролирующие более сложные голосовые и грудные механизмы социальной передачи сигналов, имеют свое наследственное происхождение в одном отделе мозга.

Суть работы алгоритма

Алгоритм можно разделить на этапы: сначала программа предсказывает движение ладоней путем анализа аудиозаписи человеческой речи, после чего визуализирует жесты, используя новую программу, представленную группой исследователей.

На первом этапе алгоритм принимает и рассчитывает двумерную спектрограмму аудиозаписи, после чего превращает ее в одномерный сигнал. Далее данный сигнал преобразуется в движение рук и последовательность поз, которые представлены в виде модели скелета.

Чтобы научить алгоритм преобразовывать речь в правильные движения, специалисты собрали данные, состоящие из многочисленных аудиозаписей, длина которых в сумме достигает 144 часа.

Источник

Интересное по теме