Stable Diffusion на своём сервере: генерация изображений локально

Midjourney стоит $10/мес и работает только через Discord. DALL-E — через API с оплатой за картинку. А можно поставить Stable Diffusion на свой GPU и генерировать бесплатно, без ограничений и цензуры.

AI-генерация

Почему ComfyUI, а не Automatic1111

Два основных фронтенда для Stable Diffusion:

	Automatic1111	ComfyUI
Интерфейс	Вкладки и ползунки	Нод-граф (node-based)
Гибкость	Ограниченная	Полная
Производительность	Средняя	Лучше (переиспользование вычислений)
Кривая обучения	Пологая	Крутая
Воспроизводимость	Скриншоты настроек	Экспорт воркфлоу в JSON

ComfyUI сложнее в начале, но позволяет строить любые пайплайны: img2img, inpainting, ControlNet, IP-Adapter, AnimateDiff — всё через ноды.

Установка

# Клонируем ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# Виртуальное окружение
python3 -m venv venv
source venv/bin/activate

# Зависимости (NVIDIA GPU)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

# Запуск
python main.py --listen 0.0.0.0 --port 8188

Для Docker:

services:
  comfyui:
    image: ghcr.io/ai-dock/comfyui:latest
    ports:
      - "8188:8188"
    volumes:
      - ./models:/opt/ComfyUI/models
      - ./output:/opt/ComfyUI/output
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

Модели

Скачиваем в models/checkpoints/:

Модель	Размер	Для чего
SDXL 1.0	6.5 GB	Универсальная, хорошее качество
SD 1.5	4.0 GB	Быстрая, много LoRA
FLUX.1 schnell	12 GB	Топовое качество, быстрая
FLUX.1 dev	12 GB	Ещё лучше, но медленнее

# Скачиваем SDXL
cd models/checkpoints
wget https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors

Минимальный воркфлоу

В ComfyUI всё через ноды. Базовый пайплайн text-to-image:

[CLIP Text Encode] → промпт
         ↓
[KSampler] → генерация
         ↓
[VAE Decode] → декодирование латентов
         ↓
[Save Image] → сохранение

Промпт для качественного результата:

Положительный: detailed photograph of a mountain lake at sunset,
  golden hour lighting, reflections in water, 8k, professional photography

Отрицательный: blurry, low quality, watermark, text, deformed

Требования к GPU

GPU	VRAM	SDXL (512×512)	SDXL (1024×1024)	FLUX
RTX 3060	12 GB	~8 сек	~25 сек	Медленно
RTX 3090	24 GB	~4 сек	~12 сек	~15 сек
RTX 4090	24 GB	~2 сек	~6 сек	~8 сек

VRAM — главный лимитирующий фактор. Для SDXL достаточно 8 GB, для FLUX нужно 12+ GB.

ComfyUI node editor

LoRA: тонкая настройка стиля

LoRA — это маленькие дополнения к основной модели (обычно 50-200 MB), которые добавляют стиль или концепт:

# Скачиваем LoRA в models/loras/
cd models/loras
wget https://civitai.com/api/download/models/xxxxx -O pixel-art.safetensors

В ComfyUI добавляем ноду LoRA Loader между checkpoint и sampler. Можно комбинировать несколько LoRA с разными весами.

Интеграция с Open WebUI

Open WebUI поддерживает генерацию изображений через ComfyUI:

В Admin Panel → Settings → Images включить Image Generation
Выбрать ComfyUI как бэкенд
Указать URL: http://comfyui:8188
Загрузить JSON-воркфлоу

Теперь в чате можно попросить: «нарисуй логотип для моего блога» — и получить картинку.

Итого

Self-hosted Stable Diffusion через ComfyUI — это:

Бесплатная генерация без лимитов
Полная приватность (ничего не уходит в облако)
Гибкость (любые модели, LoRA, пайплайны)
Требует GPU с 8+ GB VRAM

Если есть RTX 3060 или лучше — нет причин платить за Midjourney.