Make-A-Video позволяет ввести строку слов, например «Собака в костюме супергероя с красной накидкой, летящей по небу», а затем генерирует пятисекундный клип, который, хотя и довольно точно отображает смысл, но выглядит как старое домашнее видео.
Нейросеть Make-A-Video, которая еще не стала доступной для общественности, скорее всего, побудит другие лаборатории ИИ выпустить свои собственные версии. ИИ преобразования текста в видео напрямую связан с некоторыми проблемами. Во-первых, эти модели требуют огромного количества вычислительной мощности. Они требуют еще больший вычислительный пул, чем модели искусственного интеллекта преобразования текста в изображение.
Чтобы оптимизировать нейросеть, Meta AI объединила данные из трех наборов изображений и видеоданных с открытым исходным кодом для обучения своей модели. Стандартные наборы данных текстовых изображений, помеченные как неподвижные изображения, помогли ИИ узнать, как называются объекты и как они выглядят. А база данных с видео помогла узнать, как эти объекты должны перемещаться в мире. Сочетание двух подходов помогло Make-A-Video получить приемлемый результат.
Танмай Гупта, ученый-исследователь компьютерного зрения в Институте искусственного интеллекта Аллена, говорит, что результаты Meta являются многообещающими. Видео, которыми он делится, показывают, что модель может сделать захват 3D-фигуры при вращении камеры. Модель также имеет некоторое представление о глубине резкости и освещении.
Тем не менее, «есть над чем поработать, особенно если эти системы будут использоваться для редактирования видео и создания профессионального контента», — добавляет он. В частности, нейросеть пока не может моделировать сложные взаимодействия между объектами. В видео, созданном из текста «Живопись кисти художника на холсте», кисть перемещается по холсту, но мазки на холсте не реалистичны.
Со своей стороны, Meta* обещает, что технология может «открыть новые возможности для создателей контента и художников». Но по мере развития технологии есть опасения, что она может быть использована в качестве мощного инструмента для создания и распространения дезинформации и дипфейков.
*Компания Meta признана экстремистской организацией в России