Нейросеть «оживила» «Мону Лизу»

Российские разработчики из «Сколково» и Samsung представили статью, препринт которой доступен на сайте arXiv.org, и продемонстрировали в ней алгоритм, способный превращать статичные портреты в короткие видео. При этом система может работать на основе небольшого количества кадров.

Исследователи в области искусственного интеллекта уже научили алгоритм переносить информацию с одного изображения на другое. Сложность этого процесса в том, что для него необходимо большое количество исходных данных. Сотрудники Университета Карнеги — Меллона, к примеру, перенесли речь телеведущего Джона Оливера на видеоклип с ведущим вечернего шоу Стивеном Колбертом. Сделать то же самое на основе 16, восьми или даже одного кадра до этого момента никому не удавалось. Авторы из «Сколково» смогли добиться этого при помощи алгоритма на основе сверточной нейросети. 

В него входит три нейросети — Embedder, Generator и Discriminator, — которые прошли метаобучение. То есть алгоритм обучен на основе массива кадров с лицами людей. На каждое лицо накладывается маска, учитывающая границы лица и мимику. Первая нейросеть хранит информацию в виде векторов. Вторая через набор сверточных слоев использует маску, чтобы наложить ее на изображение человека. Третья выступает в качестве рецензента, который оценивает реалистичность получившегося результата.

©Egor Zakharov

Эта система позволила разработчикам переносить информацию между двумя объектами, используя лишь один или два кадра. При этом чем больше кадров доступно алгоритму, тем более правдоподобным получается результат. Возможности системы авторы продемонстрировали на фотографиях Мэрилин Монро и Альберта Эйнштейна. Однако она работает не только на портретах знаменитостей, но и на картинах, написанных художниками. Эту способность продемонстрировали на примере «Моны Лизы» и «Девушки с жемчужной сережкой».

©Egor Zakharov

©Egor Zakharov

Сейчас на анимированных изображениях все еще присутствует множество артефактов, а в некоторых сразу заметна искусственность движений — устранением этих дефектов разработчики планируют заняться в дальнейшем.

Ранее представители Nvidia продемонстрировали искусственный интеллект, который за секунды обрабатывает схематичный набросок и превращает его в фотореалистичное изображение. Нейросеть назвали GauGAN.

Источник

Это также будет Вам интересно:
iMag.one - Самые важные новости достойные вашего внимания из более чем 300 изданий!