¿Por qué obtengo resultados diferentes con la misma configuración?

Las semillas aleatorias y la precisión de coma flotante pueden causar variaciones. Bloquee su semilla para obtener resultados reproducibles.

¿Cómo sé si mi flujo de trabajo está optimizado?

Utilice las herramientas de análisis de flujo de trabajo de Promptus AI para identificar cuellos de botella y nodos que consumen mucha memoria en su gráfico.

¿Puedo utilizar estas técnicas con otros modelos además de SDXL?

¡Sí! Los métodos de optimización discutidos (mosaicos, optimización de la atención) son generalmente aplicables a cualquier modelo de difusión.

ComfyUI: Domine la generación de imágenes con IA

Ejecutar SDXL a altas resoluciones a menudo lleva incluso a las GPU de gama alta a sus límites. Esta guía profundiza en la optimización de los flujos de trabajo de ComfyUI para tareas exigentes como texto a imagen, imagen a imagen y escalado, cubriendo la instalación, técnicas avanzadas y consejos para la resolución de problemas. Esta no es una guía para principiantes; asumimos que ya está familiarizado con los conceptos básicos de ComfyUI y Stable Diffusion.

¿Qué es ComfyUI?

ComfyUI es una interfaz de usuario basada en gráficos para Stable Diffusion. Proporciona un entorno modular y flexible para crear flujos de trabajo complejos de generación de imágenes. A diferencia de las interfaces más simples, ComfyUI permite un control preciso sobre cada paso del proceso, desde la carga de modelos hasta la aplicación de nodos y scripts personalizados.**

ComfyUI ofrece un control sin igual sobre la canalización de generación de imágenes. Su sistema basado en nodos le permite visualizar y modificar cada paso, lo que lo hace ideal para la experimentación y los flujos de trabajo avanzados. Esta flexibilidad, sin embargo, viene con una curva de aprendizaje más pronunciada en comparación con las interfaces más simples.

!Figura: Interfaz de ComfyUI con un ejemplo de flujo de trabajo en 0:00

Figura: Interfaz de ComfyUI con un ejemplo de flujo de trabajo en 0:00 (Fuente: Video)*

Instalación

El primer paso es poner en marcha ComfyUI. La instalación es sencilla, pero requiere Git y Python. El repositorio de ComfyUI en GitHub (ComfyUI Official) proporciona instrucciones detalladas para diferentes sistemas operativos [1:48].

Regla de oro: Asegúrese siempre de tener los controladores más recientes para su GPU. Los controladores obsoletos pueden causar problemas de rendimiento y errores.

Una vez instalado, deberá descargar los modelos necesarios.

Descarga de modelos

La descarga de modelos es esencial para crear imágenes en ComfyUI. Los modelos se descargan de sitios como Civitai y Hugging Face. Estos modelos se colocan luego en la carpeta correcta dentro de ComfyUI para acceder a ellos dentro del gráfico de nodos.**

ComfyUI no viene con modelos precargados. Deberá descargarlos por separado de fuentes como Civitai y Hugging Face [4:00]. Coloque los archivos de modelo descargados (normalmente .ckpt o .safetensors) en el directorio ComfyUI/models/checkpoints. Del mismo modo, los archivos VAE van en ComfyUI/models/vae, y los modelos LoRA van en ComfyUI/models/loras.

Texto a imagen

Texto a imagen es un flujo de trabajo fundamental en ComfyUI. Implica conectar nodos para cargar un punto de control, introducir un prompt, muestrear, decodificar la imagen y guardar la salida. Ajustando los parámetros de cada nodo, puede controlar el proceso de generación.**

El flujo de trabajo básico de texto a imagen implica varios nodos clave [7:25]:

Cargar punto de control: Carga el modelo de Stable Diffusion.
CLIP Text Encode (Prompt): Codifica los prompts positivos y negativos.
Imagen latente vacía: Crea un espacio latente vacío para la imagen.
KSampler: Realiza el proceso de muestreo, generando la imagen latente.
VAE Decode: Decodifica la imagen latente en una imagen de píxeles.
Guardar imagen: Guarda la imagen generada.

Conecte estos nodos en la secuencia correcta, ajustando parámetros como el muestreador, el scheduler y la escala CFG en el nodo KSampler. Experimente con diferentes prompts y puntos de control de modelos para ver cómo afectan a la salida.

!Figura: Gráfico de nodos de flujo de trabajo básico de texto a imagen en 10:00

Figura: Gráfico de nodos de flujo de trabajo básico de texto a imagen en 10:00 (Fuente: Video)*

Navegación, edición y atajos

Navegar y editar flujos de trabajo en ComfyUI es más fácil usando atajos. Estos atajos aumentarán la velocidad de desarrollo y la eficiencia del flujo de trabajo.**

ComfyUI ofrece varios atajos de teclado para agilizar la creación de flujos de trabajo [21:30]:

Ctrl+C, Ctrl+V: Copiar y pegar nodos.

Ctrl+Shift+K: Poner en cola el prompt.

Ctrl+B: Omitir un nodo.

Doble clic: Abrir las propiedades del nodo.

Arrastrar y soltar: Conectar nodos.

Familiarícese con estos atajos para mejorar la eficiencia de su flujo de trabajo.

Instalación de ComfyUI Manager & Git

La instalación de ComfyUI Manager y Git es necesaria para gestionar plugins y dependencias. El ComfyUI Manager simplifica el proceso de instalación, actualización y eliminación de nodos y extensiones personalizados. Git es necesario para descargar y gestionar el propio manager.**

El ComfyUI Manager simplifica la instalación y gestión de nodos y extensiones personalizados [26:15]. Para instalarlo, necesitará Git. Descargue Git del sitio web oficial y siga las instrucciones de instalación. A continuación, clone el repositorio de ComfyUI Manager en el directorio ComfyUI/custom_nodes.

Escalado

El escalado es el proceso de aumentar la resolución de una imagen. En ComfyUI, puede escalar imágenes utilizando varias técnicas y modelos. El escalado en mosaico es una técnica comúnmente utilizada para reducir el uso de VRAM al escalar a resoluciones extremas.**

El escalado es crucial para mejorar la resolución y el detalle de las imágenes generadas [28:43]. ComfyUI ofrece varios métodos de escalado, incluyendo:

Latent Upscale:** Escala la imagen latente antes de decodificar.

Image Upscale:** Escala la imagen decodificada.

Tile Upscaling:** Divide la imagen en mosaicos, escala cada mosaico por separado y luego los vuelve a unir. Esto reduce el uso de VRAM.

Para el escalado de alta resolución, generalmente se prefiere el escalado en mosaico.

Imagen a imagen

Imagen a imagen es un flujo de trabajo que utiliza una imagen existente como base para generar una nueva imagen. Implica codificar la imagen de entrada en espacio latente, añadir ruido y luego guiar el proceso de eliminación de ruido con un prompt.**

Imagen a imagen le permite transformar imágenes existentes utilizando Stable Diffusion [37:49]. El flujo de trabajo básico implica:

Cargar imagen: Carga la imagen de entrada.
VAE Encode: Codifica la imagen en espacio latente.
Añadir ruido: Añade ruido a la imagen latente.
KSampler: Realiza el proceso de muestreo, guiado por un prompt.
VAE Decode: Decodifica la imagen latente en una imagen de píxeles.
Guardar imagen: Guarda la imagen generada.

Ajuste la cantidad de ruido añadido para controlar el grado de transformación.

Escalado en mosaico

El escalado en mosaico es una técnica para escalar imágenes en trozos más pequeños, o mosaicos, para reducir el uso de memoria. Esto le permite escalar imágenes a resoluciones muy altas sin quedarse sin VRAM. La superposición entre mosaicos ayuda a reducir las costuras.**

El escalado en mosaico es esencial para generar imágenes de alta resolución, especialmente en GPU con VRAM limitada [43:07]. Implica dividir la imagen en mosaicos más pequeños, escalar cada mosaico individualmente y luego volver a unirlos. La clave es utilizar una superposición suficiente entre los mosaicos para minimizar las costuras. Las pruebas de la comunidad en X muestran que una superposición de mosaicos de 64 píxeles reduce las costuras.