AI-инструменты 25 мин чтения SD · Automatic1111 · ComfyUI

Stable Diffusion: локальная генерация изображений

Midjourney — удобно, но дорого и без контроля. Stable Diffusion на своём GPU — бесплатно, приватно и с возможностями, которых нет ни в одном облачном сервисе. Разбираем весь стек: от установки до LoRA и ControlNet.

Дистилляция из базы знаний ekstraktznaniy.ru — 8 547 обработанных видео по AI-инструментам.
Поделиться: TG WA X

Зачем запускать Stable Diffusion локально

Облачные сервисы (Midjourney, DALL-E, Adobe Firefly) удобны для быстрого старта, но у них есть жёсткие ограничения: стоимость при большом объёме, цензура контента, отсутствие контроля над моделью и данными. Локальный SD снимает все эти ограничения.

Плюсы локального SD:

  • Бесплатно после покупки GPU
  • Нет ограничений по объёму генераций
  • Полный контроль над моделью и настройками
  • Приватность — данные не уходят на сервер
  • LoRA, ControlNet, inpainting без ограничений
  • Тысячи бесплатных моделей на CivitAI

Минусы и требования:

  • Нужен GPU (минимум 6 GB VRAM)
  • Настройка занимает время
  • Модели весят 2–10 GB каждая
  • Обновления — вручную
  • Нет mobile-версии

Минимальные требования:

GPU: NVIDIA с 6+ GB VRAM (RTX 3060+)
RAM: 16 GB (рекомендуется 32 GB)
Диск: 50+ GB свободно (SSD)
ОС: Windows 10/11 или Linux

AMD GPU работает через ROCm (Linux). Без GPU — CPU-генерация, но очень медленно (10+ минут на изображение).

Установка за 15 минут

Самый простой путь — установить Automatic1111 WebUI. Это веб-интерфейс, который запускается локально и открывается в браузере. Всё управление — через удобный UI.

1 Предустановка (Windows)

# Установить Python 3.10.x (НЕ 3.11+, важно!)
# Скачать с python.org — при установке отметить "Add to PATH"

# Установить Git
# Скачать с git-scm.com

# Установить CUDA Toolkit (если NVIDIA GPU)
# Скачать с developer.nvidia.com/cuda-downloads

2 Клонировать и запустить Automatic1111

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui

# Windows: запустить webui-user.bat
# Linux/Mac: запустить webui.sh

# При первом запуске скачиваются зависимости (~10-20 мин)
# После — открыть браузер: http://127.0.0.1:7860

3 Скачать первую модель

Положить файл .safetensors в папку stable-diffusion-webui/models/Stable-diffusion/

civitai.com — главный источник huggingface.co — официальные модели

Для Mac (Apple Silicon): используйте Diffusers или InvokeAI — они поддерживают Metal GPU. Automatic1111 на Mac работает медленнее. Альтернативно: облачный рантайм (RunPod, Vast.ai) — аренда GPU по $0.2–0.5/час.

Automatic1111 vs ComfyUI: что выбрать

Это два главных интерфейса для Stable Diffusion. Они не конкуренты — у каждого своя аудитория и задачи. Многие профессионалы используют оба: Automatic1111 для экспериментов, ComfyUI для production-воркфлоу.

Automatic1111

Классический UI с вкладками и настройками. Огромная экосистема расширений. Лучший для начинающих и быстрых экспериментов.

Простой старт, понятный интерфейс
500+ расширений (ADetailer, ControlNet и др.)
X/Y/Z plot для сравнения настроек
Batch processing из папки
Медленнее ComfyUI на сложных воркфлоу
Сложнее автоматизировать

ComfyUI

Node-based редактор. Визуальные воркфлоу из блоков. Более гибкий и быстрый, но требует понимания пайплайна SD.

Максимальная гибкость воркфлоу
Быстрее: меньше overhead
Легко шарить воркфлоу как JSON
Лучшая поддержка Flux и новых архитектур
Крутая кривая обучения
Нет некоторых QoL-функций A1111

Рекомендация: начните с Automatic1111. Когда освоитесь и захотите более сложных воркфлоу — изучите ComfyUI. Для работы с Flux (новейшая архитектура 2024) — ComfyUI предпочтительнее.

Модели: SDXL, Flux и что между ними

Stable Diffusion — это не одна модель, а семейство. Базовая архитектура + тысячи дообученных вариантов на CivitAI. Понять поколения моделей — значит правильно выбрать для задачи.

SD 1.5 (legacy)

512×512

Самое большое комьюнити и экосистема LoRA. Работает на 4 GB VRAM. Для фотореализма уступает SDXL, но огромный выбор тонко настроенных моделей под конкретные стили.

Популярные производные: Realistic Vision, DreamShaper, ChilloutMix

SDXL (рекомендуется)

1024×1024

Современный стандарт. В 3.5x больше параметров чем SD 1.5. Качество изображений значительно выше: детализация, правильные руки, текст на изображениях. Требует 8 GB VRAM.

Популярные производные: Juggernaut XL, RealVisXL, LEOSAM's

Flux (новейший, 2024)

До 2048×2048

Новая архитектура от Black Forest Labs (создатели оригинального SD). Принципиально лучшее следование промптам, реалистичные руки, точный текст в изображениях. Требует 12+ GB VRAM для нормальной работы.

Flux.1 Dev (бесплатно), Flux.1 Pro (API). Лучшее качество из доступных открытых моделей.

Где скачивать модели: CivitAI (civitai.com) — главный ресурс. Тысячи моделей, LoRA, текстурные инверсии. Обязательно читайте описание модели: там указан тип (SD 1.5 / SDXL / Flux) и рекомендуемые параметры генерации.

Промпт-инжиниринг для Stable Diffusion

В SD промпты работают иначе, чем в языковых моделях. Здесь важны конкретные теги, порядок слов и веса. Чем конкретнее описание — тем предсказуемее результат.

Структура позитивного промпта

[КАЧЕСТВО] [СУБЪЕКТ] [ДЕЙСТВИЕ/ПОЗА] [НАСТРОЙКА] [ОСВЕЩЕНИЕ] [СТИЛЬ] [ТЕХНИКА]

Пример:
masterpiece, best quality, photorealistic,
beautiful young woman, soft smile, standing,
modern city background, bokeh, golden hour lighting,
professional photography, 85mm lens, shallow depth of field

Для SDXL можно писать естественным языком:
"A photorealistic portrait of a young woman with soft smile,
standing in a modern city at golden hour, bokeh background"

Негативный промпт

Негативный промпт — что не должно быть на изображении. Для SD 1.5 он критически важен. Для SDXL и Flux — менее обязателен, но всё ещё полезен.

# Универсальный негативный промпт для SD 1.5:
ugly, deformed, noisy, blurry, low quality, bad anatomy,
bad hands, extra fingers, missing fingers, watermark,
text, signature, cropped, out of frame, worst quality,
jpeg artifacts, duplicate, morbid, mutilated

# Для реалистичных портретов добавить:
cartoon, anime, painting, sketch, illustration

Веса и акценты

(слово:1.3)

Увеличить вес слова до 1.3×. Диапазон: 0.5–1.5. Больше 1.5 — артефакты.

[слово]

Уменьшить вес слова (0.9×). Полезно для тонкой корректировки.

[a|b]

Чередование: a на нечётных шагах, b на чётных. Для смешивания стилей.

Ключевые параметры генерации

Sampling Method

DPM++ 2M Karras — лучший баланс скорости/качества. Euler a — для органичных результатов. DDIM — для inpainting.

Steps

20–30 шагов — оптимально. Больше 40 — редко даёт улучшение. Меньше 15 — размытость.

CFG Scale

7–8 — стандарт. Выше → точнее следует промпту, но теряет реализм. Ниже → более «творческий».

Seed

-1 — случайный каждый раз. Фиксируйте seed понравившегося изображения чтобы итеративно улучшать промпт.

LoRA: дообучение под конкретный стиль или персонаж

LoRA (Low-Rank Adaptation) — небольшие файлы (5–300 MB), которые дообучены на конкретном стиле, персонаже или концепции. Применяются поверх базовой модели и позволяют добавить то, чего нет в базе.

Стилевые LoRA

Художественные стили: аниме, акварель, конкретный художник, ретро-фотография. Применяются для единообразия серии изображений.

Персонажные LoRA

Конкретный персонаж из аниме/игры/кино. Или реальная личность — но здесь важно соблюдение этических норм и прав.

Концептуальные LoRA

Объекты, позы, одежда, освещение — что угодно, чего не умеет генерировать базовая модель хорошо.

Как использовать LoRA

# В промпте после загрузки файла в папку models/Lora/:
<lora:имя_файла:0.8>

# Пример — LoRA для стиля аниме с весом 0.7:
masterpiece, anime style, 1girl, <lora:animestyle_v2:0.7>

# Несколько LoRA одновременно:
photorealistic portrait, <lora:lighting_master:0.6> <lora:skin_texture_xl:0.8>

# Вес 0.5–0.8 — обычно оптимально
# Вес > 1.0 — переобучение, артефакты

Тренировка собственной LoRA

Для тренировки LoRA на свой стиль или персонаж нужно 15–50 изображений и 30–60 минут на RTX 3090. Инструменты: Kohya SS (основной тренер), расширение Dreambooth для A1111.

Шаг 1: Подготовить 15–50 изображений одного субъекта/стиля, обрезать до 512×512 или 1024×1024

Шаг 2: Разметить изображения (автоматически через WD14 Tagger)

Шаг 3: Настроить конфиг тренировки в Kohya SS (learning rate, epochs, network rank)

Шаг 4: Запустить тренировку (~30 мин на RTX 3090 для 15 изображений)

Шаг 5: Протестировать checkpoint-ы, выбрать лучший

ControlNet: точный контроль позы и композиции

ControlNet — одно из самых мощных расширений для SD. Позволяет задавать точную позу, контуры, глубину и освещение через контрольное изображение. Вы показываете «как должна выглядеть сцена» — SD следует этому шаблону при генерации.

OpenPose — контроль позы тела

Скелетная карта позы (stick figure). Задаёте позу через фото или рисунок — SD воссоздаёт её с нужным субъектом. Идеально для fashion, спорта, портретов в конкретной позе.

Canny / Lineart — контуры и структура

Извлекает края из изображения и использует их как шаблон композиции. Полезно для редизайна: хотите «то же самое, но в другом стиле» — Canny сохранит структуру.

Depth — карта глубины

Создаёт карту глубины сцены и сохраняет пространственные отношения. Объекты остаются на тех же «планах» что в оригинале, меняется только внешний вид.

IP-Adapter — перенос стиля лица

Переносит черты лица из одного изображения в другое. Даёте фото — генерируете того же человека в разных сценах, позах, стилях. Незаменим для consistent characters.

Практический пример — consistent product shots:

  1. 1. Сфотографировать продукт в студии
  2. 2. Загрузить в ControlNet с режимом Canny
  3. 3. В промпте описать новый фон и освещение
  4. 4. Получить 10 вариантов с сохранённой формой продукта и разными бэкграундами

Inpainting: редактирование части изображения

Inpainting — замена выделенной части изображения. Встроен в Automatic1111: вкладка img2img → Inpaint. Нарисуйте маску на части, напишите что там должно быть — SD перегенерирует только эту область.

Кейсы: убрать объект с фото, заменить одежду на персонаже, изменить выражение лица, добавить объект в сцену. В связке с ADetailer (расширение A1111) — автоматическое улучшение лиц после генерации.

Ключевые тейкэвеи

1

Начните с SDXL, не SD 1.5. Качество значительно выше, а разница в требованиях к GPU небольшая (8 GB vs 6 GB). SD 1.5 — только если нужна конкретная legacy LoRA.

2

Автоmatic1111 для старта, ComfyUI для продвинутых воркфлоу. Не тратьте неделю на освоение ComfyUI если ещё не сделали 1000 генераций в A1111.

3

Негативный промпт важен для SD 1.5, менее критичен для SDXL. Для Flux он почти не нужен — модель и так хорошо следует позитивному промпту.

4

Фиксируйте seed при итерации промпта. Меняйте только промпт, держите seed константным — видите что именно дало улучшение. Потом освободите seed для разнообразия.

5

LoRA + ControlNet = профессиональный уровень. LoRA даёт стиль/персонажа, ControlNet даёт позу/композицию. Связка позволяет создавать consistent контент: один персонаж в разных сценах.

6

Flux — следующий шаг, если есть 12+ GB VRAM. Следование промптам, реалистичные руки, точный текст — принципиально лучше. ComfyUI для Flux пока лучше, чем A1111.

Больше контента об AI-инструментах

8 547 видео о Stable Diffusion, Midjourney, нейросетях в базе ekstraktznaniy.ru. Семантический поиск по всему контенту.

Поискать в базе знаний

Связанные статьи

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Дайджест Экстрактов

Лучшие методички за неделю — каждый понедельник