Созданная исследователями и инженерами из Stability AI , CompVis и LAION , «Stable Diffusion» является новым современным средством преобразования текста в изображение, и она является моделью с открытым исходным кодом.
Хотя создание изображений из текста уже не кажется новой технологией, Stable Diffusion удается привнести инновации, что еще более удивительно, учитывая, что это проект с открытым исходным кодом.
Давайте углубимся в детали и посмотрим, что Stable Diffusion приготовил для сообщества пользователей и разработчиков
Представляем Stable Diffusion
Stable Diffusion — это реализация архитектуры скрытой диффузии с открытым исходным кодом, обученная шумоподавлению случайного гауссовского шума в скрытом пространстве меньшего размера для получения интересующей выборки.
Диффузионные модели обучаются предсказывать способ незначительного шумоподавления исходного изображения на каждом этапе, и после нескольких итераций получается результат. Диффузионные модели уже применялись к различным задачам генерации, таким как изображение, речь, трехмерная форма и синтез графа.

Диффузионные модели состоят из двух этапов:
- Прямая диффузия — сопоставляет данные с шумом путем постепенного искажения входных данных. Формально это достигается с помощью простого стохастического процесса, который начинается с выборки данных и итеративно генерирует более зашумленные выборки с использованием простого ядра гауссовой диффузии. Этот процесс используется только во время обучения, а не при выводе.
- Обратная диффузия — отменяет прямое распространение и выполняет итеративное шумоподавление. Этот процесс представляет собой синтез данных и обучен генерировать данные путем преобразования случайного шума в реалистичные данные.
Прямой и обратный процессы требуют последовательного повторения тысяч шагов, введения и уменьшения шума, что делает весь процесс медленным и тяжелым для вычислительных ресурсов.
Чтобы обеспечить обучение на ограниченных ресурсах, сохранив его качество и гибкость, создатели Stable Diffusion приняли метод, предложенный в статье. Вместо того, чтобы использовать фактическое пространство пикселей, они применили процесс диффузии в скрытом пространстве меньшего размера.
Архитектура Stable Diffusion
Архитектура Stable Diffusion имеет три основных компонента: два для сокращения выборки до скрытого пространства меньшего размера и последующего шумоподавления случайного гауссовского шума, а также один для обработки текста.
1) Автоэнкодер: вход модели представляет собой случайный шум размером с желаемый выход. Сначала он уменьшит выборку до скрытого пространства меньшего размера. Для этого авторы использовали архитектуру VAE , состоящую из двух частей — кодера и декодера. Кодер используется во время обучения для преобразования выборки в более низкое скрытое представление и передачи ее в качестве входных данных для следующего блока. На выводе сгенерированные сэмплы с шумоподавлением подвергаются обратной диффузии и преобразуются обратно в исходное размерное скрытое пространство.
2) U-Net: блок U-Net, состоящий из ResNet, получает зашумленный образец в пространстве с меньшей задержкой, сжимает его, а затем декодирует обратно с меньшим шумом. Предполагаемый остаточный шум на выходе U-Net используется для создания ожидаемого представления выборки с пониженным шумом.
3) Кодировщик текста: кодировщик текста отвечает за обработку текста, преобразовывая подсказку в пространство для встраивания. Подобно Google Imagen , Stable Diffusion использует замороженный текстовый кодировщик CLIP ViT-L/14.
Как работает Stable Diffusion?
- У вас есть изображения, и вы разбиваете их на шум.
- Диффузия работает, превращая шум обратно в наиболее близкое значение ваших входных данных.
- Это происходит в скрытом пространстве, что означает, что элементы, похожие друг на друга, располагаются ближе друг к другу.
- Стабильная диффузия обучается на миллиардах изображений 512×512.
- Изображения с высоким разрешением достигаются за счет дальнейшей обработки выходных данных, т.е. результирующие изображения масштабируются с 512×512.
Stable Diffusion по сравнению с DALL-E 2
#Boston Terrier with a mermaid tail, at the bottom of the ocean, dramatic, digital art
Перевод: Бостон-терьер с хвостом русалки, на дне океана, драматическое, цифровое искусство.
#A Boston Terrier jedi holding a dark green lightsaber, photorealistic
Перевод: Бостонский терьер-джедай с темно-зеленым световым мечом, фотореалистично
Из результатов видно, что DALL-E2 удается понять и создавать изображения, более подходящие для подсказки, в то время как Stable Diffusion не может определиться. Например, собака стоит на рыбе, а не на хвосте. Тем не менее, качество изображения, цвет, освещение и стиль впечатляют.
Спорная сторона Stable Diffusion
Стабильная диффузия вызвала много споров за свое короткое время существования. В отличие от DALL-E2, Stable Diffusion имеет очень мало ограничений на контент, который он может генерировать. После его выпуска пользователи проверили его ограничения, генерируя изображения людей по именам, порнографические изображения и изображения, подозрительно напоминающие работы художников, которые не давали согласия на использование своих материалов.
Все это вызвало множество дискуссий в Twitter и Reddit , где люди призывали остановить проект из-за проблем с безопасностью. В блоге Twitter решили заблокировать учетную запись проекта, а модель, размещенная в HugginFace Space , была ограничена в отношении NSFW контента, который она может генерировать.
Вывод
Stable Diffusion — один из самых захватывающих проектов. Он обеспечивает самые современные результаты и значительное улучшение по всем направлениям по сравнению с предыдущими моделями преобразования текста в изображение.
Вам не нужно платить за создание изображений, и все, что вам нужно сделать, это подождать.
Еще слишком рано говорить, станет ли Stable Diffusion убийцей DALL-E, но, учитывая бесплатный исходный код, вполне может быть.
Однако все упирается в цену. Даже если DALL-E и Stable Diffusion имеют одинаковые высококачественные изображения, время ожидания не слишком велико и оба обучены на миллиардах изображений, в выигрыше окажется служба ИИ, обеспечивающая лучшую поддержку клиентов.
Итак, нам просто нужно подождать и посмотреть.