ИИ EMO сделает из фотографии реалистичный видеоклип

Для создание дипфейкового видео теперь нужно одно фото и аудиозапись

Команда из китайской технологической компании Alibaba разработала систему искусственного интеллекта Emote Portrait Alive (EMO)

EMO может генерировать плавные и выразительные выражения лица и движения головы в соответствии с аудиодорожкой.

Включив видео ниже, вы сможете увидеть видео, созданное EMO:

EMO использует диффузионную модель искусственного интеллекта. Для обучения модели исследователи использовали более 250 часов выступлений, фильмов, телешоу и клипов.

ЕMO генерирует новые изображения непосредственно из аудио, в отличие от традиционных методов, которые полагаются на 3D-модели лица и синтез контуров для имитации движений. Это позволяет создавать естественные изображения, фиксируя незаметные движения и уникальную мимику, связанные с пением и речью. Все, что нужно для вывода “поющего” видео — это одно изображение и аудиотрек.

Обычные методы не могли охватить весь спектр выражений лица, а также уникальные черты отдельных, не похожих на другие, лиц. Чтобы решить эту проблему, ЕМО позволяет обойтись без промежуточных 3D-моделей и использует подход прямого синтеза аудио-видео.

Используя эту технологию, можно легко создавать реалистичные видеоролики, просто подготовив изображение и звук – а это уже новый уровень дипфейков.