Обзор Stable Diffusion от TensorFlow

Лучшая версия DALL-E 2 с открытым исходным кодом
Сложность
2/5

Созданная исследователями и инженерами из Stability AI , CompVis и LAION , «Stable Diffusion» является новым современным средством преобразования текста в изображение, и она является моделью с открытым исходным кодом.

Хотя создание изображений из текста уже не кажется новой технологией, Stable Diffusion удается привнести инновации, что еще более удивительно, учитывая, что это проект с открытым исходным кодом.

Давайте углубимся в детали и посмотрим, что Stable Diffusion приготовил для сообщества пользователей и разработчиков

Представляем Stable Diffusion

Stable Diffusion — это реализация архитектуры скрытой диффузии с открытым исходным кодом, обученная шумоподавлению случайного гауссовского шума в скрытом пространстве меньшего размера для получения интересующей выборки.

Диффузионные модели обучаются предсказывать способ незначительного шумоподавления исходного изображения на каждом этапе, и после нескольких итераций получается результат. Диффузионные модели уже применялись к различным задачам генерации, таким как изображение, речь, трехмерная форма и синтез графа.

Процесс диффузии

Диффузионные модели состоят из двух этапов:

  • Прямая диффузия — сопоставляет данные с шумом путем постепенного искажения входных данных. Формально это достигается с помощью простого стохастического процесса, который начинается с выборки данных и итеративно генерирует более зашумленные выборки с использованием простого ядра гауссовой диффузии. Этот процесс используется только во время обучения, а не при выводе.
  • Обратная диффузия — отменяет прямое распространение и выполняет итеративное шумоподавление. Этот процесс представляет собой синтез данных и обучен генерировать данные путем преобразования случайного шума в реалистичные данные.

 

Прямой и обратный процессы требуют последовательного повторения тысяч шагов, введения и уменьшения шума, что делает весь процесс медленным и тяжелым для вычислительных ресурсов.

Чтобы обеспечить обучение на ограниченных ресурсах, сохранив его качество и гибкость, создатели Stable Diffusion приняли метод, предложенный в статье. Вместо того, чтобы использовать фактическое пространство пикселей, они применили процесс диффузии в скрытом пространстве меньшего размера.

Архитектура Stable Diffusion

Архитектура Stable Diffusion имеет три основных компонента: два для сокращения выборки до скрытого пространства меньшего размера и последующего шумоподавления случайного гауссовского шума, а также один для обработки текста.

1) Автоэнкодер: вход модели представляет собой случайный шум размером с желаемый выход. Сначала он уменьшит выборку до скрытого пространства меньшего размера. Для этого авторы использовали архитектуру VAE , состоящую из двух частей — кодера и декодера. Кодер используется во время обучения для преобразования выборки в более низкое скрытое представление и передачи ее в качестве входных данных для следующего блока. На выводе сгенерированные сэмплы с шумоподавлением подвергаются обратной диффузии и преобразуются обратно в исходное размерное скрытое пространство.

2) U-Net: блок U-Net, состоящий из ResNet, получает зашумленный образец в пространстве с меньшей задержкой, сжимает его, а затем декодирует обратно с меньшим шумом. Предполагаемый остаточный шум на выходе U-Net используется для создания ожидаемого представления выборки с пониженным шумом.

3) Кодировщик текста: кодировщик текста отвечает за обработку текста, преобразовывая подсказку в пространство для встраивания. Подобно Google Imagen , Stable Diffusion использует замороженный текстовый кодировщик CLIP ViT-L/14.

Как работает Stable Diffusion?

  • У вас есть изображения, и вы разбиваете их на шум.
  • Диффузия работает, превращая шум обратно в наиболее близкое значение ваших входных данных.
  • Это происходит в скрытом пространстве, что означает, что элементы, похожие друг на друга, располагаются ближе друг к другу.
  • Стабильная диффузия обучается на миллиардах изображений 512×512.
  • Изображения с высоким разрешением достигаются за счет дальнейшей обработки выходных данных, т.е. результирующие изображения масштабируются с 512×512.

 

Stable Diffusion по сравнению с DALL-E 2

#Boston Terrier with a mermaid tail, at the bottom of the ocean, dramatic, digital art

Перевод: Бостон-терьер с хвостом русалки, на дне океана, драматическое, цифровое искусство.

 

#A Boston Terrier jedi holding a dark green lightsaber, photorealistic

Перевод: Бостонский терьер-джедай с темно-зеленым световым мечом, фотореалистично

Из результатов видно, что DALL-E2 удается понять и создавать изображения, более подходящие для подсказки, в то время как Stable Diffusion не может определиться. Например, собака стоит на рыбе, а не на хвосте. Тем не менее, качество изображения, цвет, освещение и стиль впечатляют.

Спорная сторона Stable Diffusion

Стабильная диффузия вызвала много споров за свое короткое время существования. В отличие от DALL-E2, Stable Diffusion имеет очень мало ограничений на контент, который он может генерировать. После его выпуска пользователи проверили его ограничения, генерируя изображения людей по именам, порнографические изображения и изображения, подозрительно напоминающие работы художников, которые не давали согласия на использование своих материалов.

Все это вызвало множество дискуссий в Twitter и Reddit , где люди призывали остановить проект из-за проблем с безопасностью. В блоге Twitter решили заблокировать учетную запись проекта, а модель, размещенная в HugginFace Space , была ограничена в отношении NSFW контента, который она может генерировать.

 

Вывод

Stable Diffusion — один из самых захватывающих проектов. Он обеспечивает самые современные результаты и значительное улучшение по всем направлениям по сравнению с предыдущими моделями преобразования текста в изображение.

Вам не нужно платить за создание изображений, и все, что вам нужно сделать, это подождать.

Еще слишком рано говорить, станет ли Stable Diffusion убийцей DALL-E, но, учитывая бесплатный исходный код, вполне может быть.

Однако все упирается в цену. Даже если DALL-E и Stable Diffusion имеют одинаковые высококачественные изображения, время ожидания не слишком велико и оба обучены на миллиардах изображений, в выигрыше окажется служба ИИ, обеспечивающая лучшую поддержку клиентов.

Итак, нам просто нужно подождать и посмотреть.

Галерея
Последние статьи