StreamDiffusion – конвейер для генерации изображений

Эта нейросеть может генерировать более 100 изображений в секунду

StreamDiffusion – самый быстрый text2image

По мнению создателей StreamDiffusion, существующие нейросети хорошо генерируют изображения из текстовых или графических подсказок, но часто терпят провал, когда дело доходит до взаимодействия в режиме реального времени. Такие ограничения особенно заметны в сценариях, при которых необходим моментальный ответ системы – таких как метавселенная и потоковое видео в реальном времени. Поэтомуи они разработали новый подход для решения этой задачи.

При создании изображения на StreamDiffusion на компьютере с видеокартой RTX 4090, процессором Core i9-13900K и ОС Ubuntu 22.04.3 LTS генерация текста в изображении на модели SD-turbo достигла 106,16 кадров в секунду:

Прикладываем GIF-файл, показывающий, как аниме-изображения генерируются из текста в реальном времени на StreamDiffusion. 

А вот видео, на котором безостановочно генерируются котики в шляпках:

Функция Stream Batch устраняет задержку генерации и повышает эффективность обработки данных за счет пакетной обработки. RCFG сводит к минимуму избыточность вычислений и эффективно использует графический процессор. 

Фильтр “стохастического сходства” снижает нагрузку на графический процессор за счет минимизации процесса преобразования, когда кадр не сильно отличается от предыдущего кадра». На GIF-анимации ниже, показывающей эффективность фильтра стохастического сходства, можно видеть, что нагрузка на графический процессор остается низкой, даже несмотря на то, что изображения выводятся с практически моментальной скоростью.

Доступ к репозитория на GITHUB можно найти тут