Как запустить Stable Video Diffusion img2vid – самый простой способ генерации видео онлайн

Stable Video Diffusion — первая модель Stable Diffusion для создания видео. Она предназначена для анимации изображений, созданных в Stable Diffusion на основе эталонного изображения или промта (image 2 video)
Как запустить Stable Video Diffusion img2vid

Прочитать, что такое Stable Video Diffusion можно в нашей статье.

В рамках данного гайда мы расскажем, как с помощью Stable Video Diffusion создать ваше первое ИИ-видео на основе одного базового изображения.

Локальная установка не потребуется, в качестве ознакомления мы будем использовать Google Colab и генерировать видео онлайн. 

Вот примеры генерации img2vid данным способом. Не учитывая времени ожидания компиляций и генерации он занимает всего 1 минуту!

Как запустить среду для генерации видео в Google Colab

  1. Перейдите на страницу GitHub блокнота Colab, затем нажмите иконку «Open in Colab», чтобы открыть скрипт, Или сразу нажмите на прямую ссылку.  (Данный скрипт создан командой stable-diffusion-art.com)
  2. В настройках блокнота можно отключить сохранение полученного видео на Google Диск, чтобы не засорять его.
  3. Запустите скрипт – нажмите кнопку «Run»(треугольник в левой части), чтобы начать выполнение скрипта.
  4. После завершения загрузки(~5 мин) вы увидите ссылку gradio.live. Нажмите на нее, чтобы открыть графический интерфейс.

  5. Загрузите ваше изображение или фото. Видео будет создано в альбомной ориентации, учтите это при выборе изображения и настройке смещения (1). В правом окне отобразится обработанная версия, которая и будет преобразовываться нейросетью в видео.

  6. Нажмите кнопку «Run» , чтобы начать генерацию видео. Когда генерация закончится(~10 мин), видео появится внизу экрана. Вы можете внести изменения в настройки генерации на вкладке «Advanced options». Чтобы создавать одно и тоже видео с разными настройками, параметр seed нужно оставлять фиксированным числом. На бесплатном тарифе Google colab не стоит выставлять высокую частоту кадров или длину видео – генерация вылетит с ошибкой.

ИТОГИ

В целом это хороший инструмент и с нескольких(десятков) попыток можно получить приемлемый результат

Особенно хорошо получаются видео, созданные на основе портретов с небольшим количеством деталей, животные, 3D-арты, простое легко идентифицируемые объекты.
Если вы загрузите какой то “фантазм”, созданный нейросетью – в качестве результата получится каша или анимированное увеличение\ уменьшение изображения