Руководство
по моделям Stable Diffusion
для начинающих

Внимание, качайте неофициальные модели, гиперсети, инверсии и прочие надстройки и плагины с осторожностью.

Они МОГУТ содержать вирусы!

Модели, иногда называемые файлами контрольных точек, предназначенные для генерации изображений общего или определенного жанра.

Какие изображения может генерировать модель, зависит от данных, используемых для ее обучения. Модель не сможет сгенерировать изображение кошек, если в обучающих данных никогда не было кошек. Точно так же, если вы обучаете модель только по изображениям кошек, она не будет генерировать ничего другого.

Содержание

Модели с тонкой настройкой

 

Что такое тонкая настройка?

Тонкая настройка — распространенный метод машинного обучения. Требуется модель, которая обучается на широком наборе данных, и немного больше обучается на узком наборе данных.

 Точно настроенная модель будет направлена на создание изображений, похожих на ваш набор данных, при сохранении универсальности исходной модели.

 

Почему люди делают их?

Стабильная диффузия хороша, но хороша не во всем. Например, он может и будет генерировать изображения в стиле аниме с ключевым словом «аниме» в приглашении. Но может быть сложно создать изображения поджанра аниме. Вместо того, чтобы возиться с подсказкой, вы можете точно настроить модель с изображениями этого поджанра.

 

Как они сделаны?

Два основных метода тонкой настройки: (1) Дополнительное обучение и (2) Dreambooth. Оба они начинают с базовой модели, такой как Stable Diffusion v1.4 или v1.5 .

 Дополнительное обучение достигается путем обучения базовой модели с дополнительным набором данных, который вас интересует. Например, вы можете обучить Stable Diffusion v1.5 с дополнительным набором данных о старинных автомобилях, чтобы сместить эстетику автомобилей в сторону поджанра.

 Dreambooth , первоначально разработанный Google, представляет собой метод внедрения пользовательских тем в модели преобразования текста в изображение. Он работает всего с 3-5 пользовательскими изображениями. Вы можете сделать несколько снимков себя и использовать Dreambooth, чтобы поместить себя в модель. Для модели, обученной с помощью Dreambooth, требуется специальное ключевое слово.

 Есть еще одна менее популярная техника тонкой настройки, называемая текстовой инверсией (иногда называемая встраиванием). Цель аналогична Dreambooth: внедрить пользовательский объект в модель, используя всего несколько примеров. Новое ключевое слово создается специально для нового объекта. Точно настроена только сеть встраивания текста, остальная часть модели остается неизменной. С точки зрения непрофессионала, это похоже на использование существующих слов для описания новой концепции.

Базовые модели

Существуют тысячи точно настроенных моделей Stable Diffusion. Число увеличивается с каждым днем. Ниже приведен список моделей, которые можно использовать для общих целей – они натренированы на гигантском количестве разных изображений поэтому “знают” обо всем по не многу. С ним вы сможете получить изображения практически всего что хотите, но качество и детализация не сравнится с кастомными узкопрофильными моделями.

Stable diffusion v1.4

Страница модели

Ссылка для скачивания

Выпущенная в августе 2022 года компанией Stability AI модель v1.4 считается первой общедоступной моделью Stable Diffusion.

Вы можете рассматривать v1.4 как модель общего назначения. В большинстве случаев достаточно использовать его как есть, если только вы не слишком придирчивы к определенным стилям.

Stable diffusion v1.5

Страница модели

Ссылка для скачивания

Версия 1.5 выпущена в октябре 2022 года компанией Runway ML, партнером Stability AI. Модель основана на v1.2 с дальнейшим обучением.

На странице модели не упоминается, что это за улучшение. Он дает немного другие результаты по сравнению с v1.4, но неясно, лучше ли они.

Как и v1.4, вы можете рассматривать v1.5 как модель общего назначения.

По моему опыту, версия 1.5 является прекрасным выбором в качестве начальной модели и может использоваться взаимозаменяемо с версией 1.4.

Stable diffusion XL 1

В июне 2023 Stability AI выпустил новую версию своего генератора изображений – Stable Diffusion XL 1.0. Теперь он работает быстрее, требует меньше ресурсов и способен генерировать картинки с текстом.

Новая модель обещает более яркие и точные цвета, лучший контраст, тени и освещение. Кроме того, она способна создавать изображения с полным разрешением 1 мегапикселя за считанные секунды.

Где искать узкоспециализированные/пользовательские модели?

Вы можете найти их в Huggingface и на Civitai.

Рекомендуем именно второй ресурс, тк в нем огромное количество моделей с фильтрами, рейтингами и примерами пользователей. Кстати, модель из Civitai можно запустить онлайн в браузере, не скачивая локально!