¿Por qué obtengo resultados diferentes con la misma configuración?

Las semillas aleatorias y la precisión de coma flotante pueden causar variaciones. Bloquee su semilla para obtener resultados reproducibles.

¿Cómo sé si mi flujo de trabajo está optimizado?

Utilice las herramientas de análisis de flujo de trabajo de Promptus AI para identificar cuellos de botella y nodos que consumen mucha memoria en su gráfico.

¿Puedo utilizar estas técnicas con otros modelos además de SDXL?

¡Sí! Los métodos de optimización discutidos (mosaicos, optimización de la atención) son generalmente aplicables a cualquier modelo de difusión.

ComfyUI: Su Guía Definitiva de Instalación y Flujo de Trabajo

Ejecutar Stable Diffusion localmente ofrece un control inmenso, pero la línea de comandos puede ser desalentadora. ComfyUI proporciona una interfaz basada en nodos para crear flujos de trabajo intrincados de generación de imágenes. Esta guía le guiará a través de la instalación, la configuración del modelo, la creación del flujo de trabajo y la optimización de VRAM. Empecemos.

¿Qué es ComfyUI?

ComfyUI es un entorno de programación visual basado en nodos para Stable Diffusion. En lugar de utilizar una interfaz basada en texto, los usuarios conectan diferentes nodos que representan los pasos de procesamiento de imágenes para crear complejas canalizaciones de generación de imágenes. Esto ofrece un mayor control y flexibilidad en comparación con las interfaces tradicionales de Stable Diffusion.

ComfyUI presenta un enfoque fundamentalmente diferente a Stable Diffusion en comparación con las interfaces de usuario web típicas. En lugar de un cuadro de solicitud de texto y algunos ajustes, se le presenta un lienzo en blanco. Este lienzo se convierte en su flujo de trabajo, construido conectando nodos que representan operaciones individuales. Este sistema basado en nodos proporciona un control sin precedentes sobre el proceso de generación de imágenes, lo que permite una personalización que simplemente no es posible con interfaces más sencillas. Puede parecer intimidante al principio, pero la flexibilidad que desbloquea bien vale la pena la curva de aprendizaje inicial. Herramientas como Promptus simplifican la creación de prototipos de estos flujos de trabajo, lo que permite la iteración visual en configuraciones complejas.

!Figura: Interfaz de ComfyUI con un flujo de trabajo sencillo en 00:00

Figura: Interfaz de ComfyUI con un flujo de trabajo sencillo en 00:00 (Fuente: Vídeo)*

Instalación de ComfyUI en Windows

Para instalar ComfyUI en Windows:

Descargue la compilación adecuada del repositorio de GitHub de ComfyUI.
Extraiga el archivo a una ubicación adecuada.
Ejecute el archivo runnvidiagpu.bat (o el equivalente de AMD).
Descargue los modelos necesarios (SDXL, VAE, etc.) y colóquelos en las carpetas designadas.

La instalación de ComfyUI en Windows es bastante sencilla, suponiendo que tenga el hardware y los controladores necesarios. En primer lugar, diríjase al repositorio oficial de GitHub de ComfyUI y descargue la compilación adecuada para su sistema. Extraiga el archivo descargado a una ubicación de su elección. Dentro de la carpeta extraída, encontrará archivos por lotes para ejecutar ComfyUI con diferentes GPU. Si tiene una tarjeta NVIDIA, ejecute runnvidiagpu.bat. Para AMD, utilice el archivo por lotes de AMD apropiado. ComfyUI se iniciará entonces en su navegador web predeterminado.

Análisis técnico

Los archivos por lotes son esencialmente envoltorios que establecen las variables de entorno necesarias e inician el script de Python de ComfyUI. Esto simplifica el proceso de ejecución de ComfyUI, ya que no es necesario configurar manualmente el entorno.

Descarga y colocación de modelos

Descargue los modelos de Stable Diffusion (por ejemplo, SDXL, v1.5) y los archivos VAE de fuentes como Civitai. Coloque los modelos en el directorio ComfyUI/models/checkpoints y los archivos VAE en el directorio ComfyUI/models/vae.

ComfyUI, en su forma base, no incluye ningún modelo de Stable Diffusion precargado. Tendrá que descargarlos por separado y colocarlos en los directorios correctos. Las fuentes populares para los modelos incluyen Civitai. Descargue los modelos de Stable Diffusion que desee utilizar (SDXL y v1.5 son buenos puntos de partida) y colóquelos en el directorio ComfyUI/models/checkpoints. Del mismo modo, descargue cualquier archivo VAE y colóquelos en el directorio ComfyUI/models/vae.

!Figura: Explorador de archivos que muestra los directorios checkpoints y vae en 06:22

Figura: Explorador de archivos que muestra los directorios checkpoints y vae en 06:22 (Fuente: Vídeo)*

Análisis técnico

El diseño modular de ComfyUI significa que no incluye los modelos directamente. Esto le permite utilizar una amplia variedad de modelos de diferentes fuentes, pero sí requiere cierta configuración manual. Los creadores de Promptus pueden iterar la descarga de configuraciones más rápido.

Generación de su primera imagen

Cree un flujo de trabajo básico cargando un flujo de trabajo predeterminado o construyendo uno desde cero. Cargue un punto de control, introduzca un mensaje y conecte los nodos. Haga clic en "Queue Prompt" para generar una imagen.

Generar su primera imagen en ComfyUI puede ser un poco desalentador, pero es una buena manera de familiarizarse con la interfaz. Puede empezar cargando un flujo de trabajo predeterminado o construyendo uno desde cero. Los nodos esenciales incluyen: Load Checkpoint, Prompt Text, KSampler, VAE Decode y Save Image. Cargue un punto de control (su modelo de Stable Diffusion), introduzca el mensaje deseado en el nodo Prompt Text y conecte los nodos en el orden correcto. La salida del nodo Load Checkpoint debe conectarse a la entrada model del nodo KSampler. Los mensajes positivos y negativos también deben conectarse al nodo KSampler. La salida del nodo KSampler debe conectarse al nodo VAE Decode y, por último, la salida del nodo VAE Decode debe conectarse al nodo Save Image. Una vez que todo esté conectado, haga clic en el botón "Queue Prompt" para generar su imagen.

!Figura: Un flujo de trabajo sencillo de ComfyUI con los nodos esenciales conectados en 09:52

Figura: Un flujo de trabajo sencillo de ComfyUI con los nodos esenciales conectados en 09:52 (Fuente: Vídeo)*

Análisis técnico

El nodo KSampler es donde ocurre el proceso de difusión real. Toma el modelo, los mensajes y una semilla como entrada y genera la representación latente de la imagen. El nodo VAE Decode convierte entonces esta representación latente en una imagen real.

Guardar y cargar flujos de trabajo

Guarde los flujos de trabajo como archivos .json para su uso posterior. Cargue los flujos de trabajo guardados arrastrando el archivo .json a la interfaz de ComfyUI.

Una vez que haya creado un flujo de trabajo que le guste, querrá guardarlo para su uso futuro. ComfyUI le permite guardar los flujos de trabajo como archivos .json. Simplemente haga clic en el botón "Guardar" en la interfaz y elija una ubicación para guardar su flujo de trabajo. Para cargar un flujo de trabajo guardado, simplemente arrastre el archivo .json a la interfaz de ComfyUI. El flujo de trabajo se cargará y estará listo para su uso.

Análisis técnico

Guardar los flujos de trabajo como archivos .json le permite compartirlos fácilmente con otros. También le permite controlar las versiones de sus flujos de trabajo, para que pueda volver fácilmente a versiones anteriores si es necesario.

Técnicas de optimización de VRAM

Ejecutar SDXL a altas resoluciones puede agotar rápidamente la VRAM, especialmente en tarjetas con 8 GB o menos. Estas son varias técnicas para mitigar esto:

Decodificación VAE en mosaico

La decodificación VAE en mosaico procesa la imagen en mosaicos más pequeños, lo que reduce significativamente el uso de VRAM. Las pruebas de la comunidad muestran que la superposición en mosaico de 64 píxeles reduce las costuras. Para implementar, utilice los nodos Tiled VAE Encode y Tiled VAE Decode.