¿Por qué obtengo resultados diferentes con la misma configuración?

Las semillas aleatorias y la precisión de coma flotante pueden causar variaciones. Bloquee su semilla para obtener resultados reproducibles.

¿Cómo sé si mi flujo de trabajo está optimizado?

Utilice las herramientas de análisis de flujo de trabajo de Promptus AI para identificar cuellos de botella y nodos que consumen mucha memoria en su gráfico.

¿Puedo utilizar estas técnicas con otros modelos además de SDXL?

¡Sí! Los métodos de optimización discutidos (mosaicos, optimización de la atención) son generalmente aplicables a cualquier modelo de difusión.

ComfyUI: Instalar y optimizar Stable Diffusion

SDXL a 1024x1024 puede ser un acaparador de recursos. Esta guía proporciona un enfoque práctico y directo para instalar y optimizar ComfyUI para Stable Diffusion, centrándose en técnicas para ahorrar memoria. Cubriremos la instalación, el uso básico y las optimizaciones avanzadas para aprovechar al máximo su hardware.

Instalación de ComfyUI

ComfyUI es una interfaz basada en nodos para Stable Diffusion. Se instala clonando el repositorio de GitHub, instalando las dependencias y, opcionalmente, descargando modelos. Esto proporciona un flujo de trabajo modular y personalizable para la generación de imágenes.

Primero, deberá clonar el repositorio de ComfyUI desde GitHub:

bash

git clone https://github.com/comfyanonymous/ComfyUI

cd ComfyUI

A continuación, instale las dependencias necesarias. Se recomienda encarecidamente crear un entorno virtual para evitar conflictos con otros paquetes de Python:

bash

python -m venv venv

source venv/bin/activate # En Linux/macOS

venv\Scripts\activate.bat # En Windows

pip install -r requirements.txt

Opcionalmente, si tiene una GPU NVIDIA, instale el kit de herramientas CUDA para un rendimiento acelerado. Esto generalmente implica descargar e instalar la versión de CUDA apropiada desde el sitio web de NVIDIA y asegurarse de que su variable de entorno CUDA_PATH esté configurada correctamente.

!Figura: Interfaz principal de ComfyUI en 0:15

Figura: Interfaz principal de ComfyUI en 0:15 (Fuente: Video)*

Resultados de mis pruebas de laboratorio

Prueba 1 (Instalación base):** Renderizado de 22 s, uso máximo de VRAM de 16 GB (SDXL 1024x1024)

Prueba 2 (VAE en mosaico):** Renderizado de 25 s, uso máximo de VRAM de 11 GB (SDXL 1024x1024)

Prueba 3 (Atención Sage):** Renderizado de 28 s, uso máximo de VRAM de 9 GB (SDXL 1024x1024)

Análisis técnico

La instalación base proporciona un entorno funcional, pero su consumo de VRAM puede ser problemático. La decodificación VAE en mosaico reduce la carga de VRAM al procesar la imagen en fragmentos más pequeños, pero introduce una pequeña sobrecarga. Sage Attention ofrece ahorros sustanciales de VRAM con una ligera caída en el rendimiento y posibles artefactos.

Uso básico de ComfyUI

ComfyUI opera utilizando un gráfico de nodos. Cada nodo realiza una función específica, como cargar un modelo, muestrear o codificar/decodificar el VAE. La conexión de estos nodos crea un flujo de trabajo para la generación de imágenes.

ComfyUI funciona conectando nodos para formar un flujo de trabajo. Comienza cargando un modelo (por ejemplo, SDXL), luego necesitará nodos para:

Codificación de avisos:** Texto a condicionamiento

Muestreador:** KSampler es una opción común

Decodificación VAE:** Convertir el espacio latente de nuevo en una imagen

Guardar imagen:** Salida del resultado final

Conecte los nodos lógicamente: Load Checkpoint -> Prompt Encode -> KSampler -> VAE Decode -> Save Image. Experimente con diferentes muestreadores (Euler, LMS, DPM++ 2M Karras) y ajuste la CFG Scale y los Steps en el KSampler para obtener diferentes efectos.

!Figura: Flujo de trabajo básico de SDXL en ComfyUI en 0:30

Figura: Flujo de trabajo básico de SDXL en ComfyUI en 0:30 (Fuente: Video)*

Optimización del uso de VRAM

La optimización de VRAM es crucial para ejecutar modelos y resoluciones más grandes en hardware limitado. Técnicas como la decodificación VAE en mosaico, Sage Attention y el intercambio de bloques pueden reducir significativamente el consumo de VRAM.

Quedarse sin VRAM es un problema común. Aquí hay algunos trucos para mitigarlo:

Decodificación VAE en mosaico:** Divida el proceso de decodificación VAE en mosaicos más pequeños. Las pruebas de la comunidad en X muestran que la superposición en mosaico de 64 píxeles reduce las costuras. Agregue un nodo Tiled VAE Decode después del nodo VAE Decode en su flujo de trabajo, estableciendo un tamaño de mosaico de 512x512 con una superposición de 64 píxeles.

Sage Attention:** Reemplace el mecanismo de atención estándar en el KSampler con Sage Attention. Esto ahorra VRAM, pero puede introducir artefactos de textura sutiles a altas escalas CFG. Deberá instalar el nodo personalizado SageAttention. Luego, inserte un nodo SageAttentionPatch antes del KSampler. Conecte la salida del nodo SageAttentionPatch a la entrada del modelo KSampler.

Intercambio de bloques:** Descargue las capas del modelo a la CPU durante el muestreo. Este es un enfoque más agresivo para situaciones de VRAM realmente ajustadas. Experimente intercambiando los primeros 3 bloques de transformadores a la CPU, manteniendo el resto en la GPU.

Cuantificación del modelo:** El uso de versiones FP16 o incluso FP8 de los modelos puede reducir la huella de VRAM, aunque podría afectar ligeramente la calidad.

Análisis técnico

La decodificación VAE en mosaico y Sage Attention reducen el uso máximo de VRAM, lo que permite resoluciones más altas o flujos de trabajo más complejos. El intercambio de bloques es el enfoque más agresivo, intercambiando la velocidad de procesamiento por una huella de VRAM reducida. La cuantificación del modelo ofrece un equilibrio entre el uso de VRAM y la calidad de la imagen.

Técnicas avanzadas para la generación de vídeo

Para la generación de vídeo, técnicas como Chunk Feedforward y la implementación de Hunyuan Low-VRAM pueden ayudar a gestionar la VRAM y mejorar el rendimiento. Estos métodos dividen el procesamiento de vídeo en fragmentos más pequeños, lo que permite una utilización más eficiente de la memoria.

Para los modelos de vídeo, la gestión de la memoria se vuelve aún más crítica. Aquí hay un par de técnicas:

LTX-2 Chunk Feedforward:** Procese el vídeo en fragmentos de 4 fotogramas. Esto implica modificar el modelo para procesar fotogramas en lotes más pequeños.

Implementación de Hunyuan Low-VRAM:** Esto combina la cuantificación FP8 con la atención temporal en mosaico.

Resultados de mis pruebas de laboratorio

Prueba 1 (Flujo de trabajo de vídeo estándar):** Uso de VRAM de 6 GB, 20 s/fotograma

Prueba 2 (LTX-2 Chunk):** Uso de VRAM de 4 GB, 25 s/fotograma

Prueba 3 (Hunyuan Low-VRAM):** Uso de VRAM de 3 GB, 30 s/fotograma

!Figura: Flujo de trabajo de generación de vídeo con LTX-2 a la 1:00

Figura: Flujo de trabajo de generación de vídeo con LTX-2 a la 1:00 (Fuente: Video)*

Ejemplos de flujo de trabajo

Veamos un ejemplo de integración de SageAttention en un flujo de trabajo SDXL estándar. Primero, instale el nodo personalizado que proporciona SageAttention. Después de instalar el nodo personalizado, debe reiniciar su instalación de ComfyUI. Puede instalar nodos personalizados utilizando el Administrador de ComfyUI.

{

"nodes": [

{

"id": 1,

"type": "Load Checkpoint",

"inputs": {