StreamDiffusion – самый быстрый text2image
По мнению создателей StreamDiffusion, существующие нейросети хорошо генерируют изображения из текстовых или графических подсказок, но часто терпят провал, когда дело доходит до взаимодействия в режиме реального времени. Такие ограничения особенно заметны в сценариях, при которых необходим моментальный ответ системы – таких как метавселенная и потоковое видео в реальном времени. Поэтомуи они разработали новый подход для решения этой задачи.
При создании изображения на StreamDiffusion на компьютере с видеокартой RTX 4090, процессором Core i9-13900K и ОС Ubuntu 22.04.3 LTS генерация текста в изображении на модели SD-turbo достигла 106,16 кадров в секунду:
Прикладываем GIF-файл, показывающий, как аниме-изображения генерируются из текста в реальном времени на StreamDiffusion.
А вот видео, на котором безостановочно генерируются котики в шляпках:
Функция Stream Batch устраняет задержку генерации и повышает эффективность обработки данных за счет пакетной обработки. RCFG сводит к минимуму избыточность вычислений и эффективно использует графический процессор.
Фильтр “стохастического сходства” снижает нагрузку на графический процессор за счет минимизации процесса преобразования, когда кадр не сильно отличается от предыдущего кадра». На GIF-анимации ниже, показывающей эффективность фильтра стохастического сходства, можно видеть, что нагрузка на графический процессор остается низкой, даже несмотря на то, что изображения выводятся с практически моментальной скоростью.