Stable Diffusion:
локальная генерация изображений
Midjourney — удобно, но дорого и без контроля. Stable Diffusion на своём GPU — бесплатно, приватно и с возможностями, которых нет ни в одном облачном сервисе. Разбираем весь стек: от установки до LoRA и ControlNet.
Разделы
Зачем запускать Stable Diffusion локально
Облачные сервисы (Midjourney, DALL-E, Adobe Firefly) удобны для быстрого старта, но у них есть жёсткие ограничения: стоимость при большом объёме, цензура контента, отсутствие контроля над моделью и данными. Локальный SD снимает все эти ограничения.
Плюсы локального SD:
- ✓ Бесплатно после покупки GPU
- ✓ Нет ограничений по объёму генераций
- ✓ Полный контроль над моделью и настройками
- ✓ Приватность — данные не уходят на сервер
- ✓ LoRA, ControlNet, inpainting без ограничений
- ✓ Тысячи бесплатных моделей на CivitAI
Минусы и требования:
- ✗ Нужен GPU (минимум 6 GB VRAM)
- ✗ Настройка занимает время
- ✗ Модели весят 2–10 GB каждая
- ✗ Обновления — вручную
- ✗ Нет mobile-версии
Минимальные требования:
AMD GPU работает через ROCm (Linux). Без GPU — CPU-генерация, но очень медленно (10+ минут на изображение).
Установка за 15 минут
Самый простой путь — установить Automatic1111 WebUI. Это веб-интерфейс, который запускается локально и открывается в браузере. Всё управление — через удобный UI.
1 Предустановка (Windows)
# Установить Python 3.10.x (НЕ 3.11+, важно!)
# Скачать с python.org — при установке отметить "Add to PATH"
# Установить Git
# Скачать с git-scm.com
# Установить CUDA Toolkit (если NVIDIA GPU)
# Скачать с developer.nvidia.com/cuda-downloads
2 Клонировать и запустить Automatic1111
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
# Windows: запустить webui-user.bat
# Linux/Mac: запустить webui.sh
# При первом запуске скачиваются зависимости (~10-20 мин)
# После — открыть браузер: http://127.0.0.1:7860
3 Скачать первую модель
Положить файл .safetensors в папку stable-diffusion-webui/models/Stable-diffusion/
Для Mac (Apple Silicon): используйте Diffusers или InvokeAI — они поддерживают Metal GPU. Automatic1111 на Mac работает медленнее. Альтернативно: облачный рантайм (RunPod, Vast.ai) — аренда GPU по $0.2–0.5/час.
Automatic1111 vs ComfyUI: что выбрать
Это два главных интерфейса для Stable Diffusion. Они не конкуренты — у каждого своя аудитория и задачи. Многие профессионалы используют оба: Automatic1111 для экспериментов, ComfyUI для production-воркфлоу.
Automatic1111
Классический UI с вкладками и настройками. Огромная экосистема расширений. Лучший для начинающих и быстрых экспериментов.
ComfyUI
Node-based редактор. Визуальные воркфлоу из блоков. Более гибкий и быстрый, но требует понимания пайплайна SD.
Рекомендация: начните с Automatic1111. Когда освоитесь и захотите более сложных воркфлоу — изучите ComfyUI. Для работы с Flux (новейшая архитектура 2024) — ComfyUI предпочтительнее.
Модели: SDXL, Flux и что между ними
Stable Diffusion — это не одна модель, а семейство. Базовая архитектура + тысячи дообученных вариантов на CivitAI. Понять поколения моделей — значит правильно выбрать для задачи.
SD 1.5 (legacy)
512×512Самое большое комьюнити и экосистема LoRA. Работает на 4 GB VRAM. Для фотореализма уступает SDXL, но огромный выбор тонко настроенных моделей под конкретные стили.
Популярные производные: Realistic Vision, DreamShaper, ChilloutMix
SDXL (рекомендуется)
1024×1024Современный стандарт. В 3.5x больше параметров чем SD 1.5. Качество изображений значительно выше: детализация, правильные руки, текст на изображениях. Требует 8 GB VRAM.
Популярные производные: Juggernaut XL, RealVisXL, LEOSAM's
Flux (новейший, 2024)
До 2048×2048Новая архитектура от Black Forest Labs (создатели оригинального SD). Принципиально лучшее следование промптам, реалистичные руки, точный текст в изображениях. Требует 12+ GB VRAM для нормальной работы.
Flux.1 Dev (бесплатно), Flux.1 Pro (API). Лучшее качество из доступных открытых моделей.
Где скачивать модели: CivitAI (civitai.com) — главный ресурс. Тысячи моделей, LoRA, текстурные инверсии. Обязательно читайте описание модели: там указан тип (SD 1.5 / SDXL / Flux) и рекомендуемые параметры генерации.
Промпт-инжиниринг для Stable Diffusion
В SD промпты работают иначе, чем в языковых моделях. Здесь важны конкретные теги, порядок слов и веса. Чем конкретнее описание — тем предсказуемее результат.
Структура позитивного промпта
[КАЧЕСТВО] [СУБЪЕКТ] [ДЕЙСТВИЕ/ПОЗА] [НАСТРОЙКА] [ОСВЕЩЕНИЕ] [СТИЛЬ] [ТЕХНИКА]
Пример:
masterpiece, best quality, photorealistic,
beautiful young woman, soft smile, standing,
modern city background, bokeh, golden hour lighting,
professional photography, 85mm lens, shallow depth of field
Для SDXL можно писать естественным языком:
"A photorealistic portrait of a young woman with soft smile,
standing in a modern city at golden hour, bokeh background"
Негативный промпт
Негативный промпт — что не должно быть на изображении. Для SD 1.5 он критически важен. Для SDXL и Flux — менее обязателен, но всё ещё полезен.
# Универсальный негативный промпт для SD 1.5:
ugly, deformed, noisy, blurry, low quality, bad anatomy,
bad hands, extra fingers, missing fingers, watermark,
text, signature, cropped, out of frame, worst quality,
jpeg artifacts, duplicate, morbid, mutilated
# Для реалистичных портретов добавить:
cartoon, anime, painting, sketch, illustration
Веса и акценты
(слово:1.3)
Увеличить вес слова до 1.3×. Диапазон: 0.5–1.5. Больше 1.5 — артефакты.
[слово]
Уменьшить вес слова (0.9×). Полезно для тонкой корректировки.
[a|b]
Чередование: a на нечётных шагах, b на чётных. Для смешивания стилей.
Ключевые параметры генерации
Sampling Method
DPM++ 2M Karras — лучший баланс скорости/качества. Euler a — для органичных результатов. DDIM — для inpainting.
Steps
20–30 шагов — оптимально. Больше 40 — редко даёт улучшение. Меньше 15 — размытость.
CFG Scale
7–8 — стандарт. Выше → точнее следует промпту, но теряет реализм. Ниже → более «творческий».
Seed
-1 — случайный каждый раз. Фиксируйте seed понравившегося изображения чтобы итеративно улучшать промпт.
LoRA: дообучение под конкретный стиль или персонаж
LoRA (Low-Rank Adaptation) — небольшие файлы (5–300 MB), которые дообучены на конкретном стиле, персонаже или концепции. Применяются поверх базовой модели и позволяют добавить то, чего нет в базе.
Стилевые LoRA
Художественные стили: аниме, акварель, конкретный художник, ретро-фотография. Применяются для единообразия серии изображений.
Персонажные LoRA
Конкретный персонаж из аниме/игры/кино. Или реальная личность — но здесь важно соблюдение этических норм и прав.
Концептуальные LoRA
Объекты, позы, одежда, освещение — что угодно, чего не умеет генерировать базовая модель хорошо.
Как использовать LoRA
# В промпте после загрузки файла в папку models/Lora/:
<lora:имя_файла:0.8>
# Пример — LoRA для стиля аниме с весом 0.7:
masterpiece, anime style, 1girl, <lora:animestyle_v2:0.7>
# Несколько LoRA одновременно:
photorealistic portrait, <lora:lighting_master:0.6> <lora:skin_texture_xl:0.8>
# Вес 0.5–0.8 — обычно оптимально
# Вес > 1.0 — переобучение, артефакты
Тренировка собственной LoRA
Для тренировки LoRA на свой стиль или персонаж нужно 15–50 изображений и 30–60 минут на RTX 3090. Инструменты: Kohya SS (основной тренер), расширение Dreambooth для A1111.
Шаг 1: Подготовить 15–50 изображений одного субъекта/стиля, обрезать до 512×512 или 1024×1024
Шаг 2: Разметить изображения (автоматически через WD14 Tagger)
Шаг 3: Настроить конфиг тренировки в Kohya SS (learning rate, epochs, network rank)
Шаг 4: Запустить тренировку (~30 мин на RTX 3090 для 15 изображений)
Шаг 5: Протестировать checkpoint-ы, выбрать лучший
ControlNet: точный контроль позы и композиции
ControlNet — одно из самых мощных расширений для SD. Позволяет задавать точную позу, контуры, глубину и освещение через контрольное изображение. Вы показываете «как должна выглядеть сцена» — SD следует этому шаблону при генерации.
OpenPose — контроль позы тела
Скелетная карта позы (stick figure). Задаёте позу через фото или рисунок — SD воссоздаёт её с нужным субъектом. Идеально для fashion, спорта, портретов в конкретной позе.
Canny / Lineart — контуры и структура
Извлекает края из изображения и использует их как шаблон композиции. Полезно для редизайна: хотите «то же самое, но в другом стиле» — Canny сохранит структуру.
Depth — карта глубины
Создаёт карту глубины сцены и сохраняет пространственные отношения. Объекты остаются на тех же «планах» что в оригинале, меняется только внешний вид.
IP-Adapter — перенос стиля лица
Переносит черты лица из одного изображения в другое. Даёте фото — генерируете того же человека в разных сценах, позах, стилях. Незаменим для consistent characters.
Практический пример — consistent product shots:
- 1. Сфотографировать продукт в студии
- 2. Загрузить в ControlNet с режимом Canny
- 3. В промпте описать новый фон и освещение
- 4. Получить 10 вариантов с сохранённой формой продукта и разными бэкграундами
Inpainting: редактирование части изображения
Inpainting — замена выделенной части изображения. Встроен в Automatic1111: вкладка img2img → Inpaint. Нарисуйте маску на части, напишите что там должно быть — SD перегенерирует только эту область.
Кейсы: убрать объект с фото, заменить одежду на персонаже, изменить выражение лица, добавить объект в сцену. В связке с ADetailer (расширение A1111) — автоматическое улучшение лиц после генерации.
Ключевые тейкэвеи
Начните с SDXL, не SD 1.5. Качество значительно выше, а разница в требованиях к GPU небольшая (8 GB vs 6 GB). SD 1.5 — только если нужна конкретная legacy LoRA.
Автоmatic1111 для старта, ComfyUI для продвинутых воркфлоу. Не тратьте неделю на освоение ComfyUI если ещё не сделали 1000 генераций в A1111.
Негативный промпт важен для SD 1.5, менее критичен для SDXL. Для Flux он почти не нужен — модель и так хорошо следует позитивному промпту.
Фиксируйте seed при итерации промпта. Меняйте только промпт, держите seed константным — видите что именно дало улучшение. Потом освободите seed для разнообразия.
LoRA + ControlNet = профессиональный уровень. LoRA даёт стиль/персонажа, ControlNet даёт позу/композицию. Связка позволяет создавать consistent контент: один персонаж в разных сценах.
Flux — следующий шаг, если есть 12+ GB VRAM. Следование промптам, реалистичные руки, точный текст — принципиально лучше. ComfyUI для Flux пока лучше, чем A1111.
Больше контента об AI-инструментах
8 547 видео о Stable Diffusion, Midjourney, нейросетях в базе ekstraktznaniy.ru. Семантический поиск по всему контенту.
Поискать в базе знаний