Z-Image-Turbo: Generación de imágenes de alta velocidad en ComfyUI
Ejecutar SDXL a velocidades razonables puede ser una tarea ardua, especialmente en hardware más antiguo. Z-Image-Turbo tiene como objetivo abordar esto, ofreciendo una generación de imágenes rápida dentro de ComfyUI con una calidad sorprendentemente buena, incluso con recuentos de pasos bajos. Esta guía profundiza en la configuración y optimización de los flujos de trabajo de Z-Image-Turbo para ComfyUI.
Z-Image-Turbo ofrece una generación de imágenes acelerada en ComfyUI, equilibrando velocidad y calidad. Esta guía explora sus capacidades, la integración del flujo de trabajo, las técnicas de optimización y los consejos para la resolución de problemas.**
Configuración inicial y configuración del flujo de trabajo
Primero, asegúrese de que ComfyUI esté instalado correctamente. Si es nuevo en ComfyUI, hay guías disponibles para guiarlo a través del proceso. Con ComfyUI en funcionamiento, el siguiente paso es adquirir e integrar el modelo Z-Image-Turbo.
- Descargue el modelo Z-Image-Turbo: Obtenga los archivos de modelo necesarios de Hugging Face. Coloque los archivos de modelo descargados en el directorio de modelos ComfyUI apropiado.
- Instale los nodos personalizados necesarios: Asegúrese de tener instalados los nodos personalizados necesarios. Estos nodos mejoran la funcionalidad de ComfyUI y permiten la compatibilidad con Z-Image-Turbo.
- Cargue el modelo en ComfyUI: Utilice los nodos ComfyUI apropiados para cargar el modelo Z-Image-Turbo. Este proceso generalmente implica especificar la ruta del modelo dentro de la interfaz de ComfyUI.
!Figura: Nodo de carga del modelo en 0:15
Figura: Nodo de carga del modelo en 0:15 (Fuente: Video)*
Análisis técnico
Configurar el flujo de trabajo inicial es sencillo. La idea central es intercambiar el modelo estándar de Stable Diffusion con la versión Z-Image-Turbo. Esto implica modificar el nodo CheckpointLoader en sus flujos de trabajo existentes. Asegúrese de que el VAE correcto se cargue junto con el modelo para una decodificación de imagen óptima.
Flujo de trabajo de texto a imagen
Uno de los principales casos de uso de Z-Image-Turbo es la generación de texto a imagen. Aquí le mostramos cómo configurar un flujo de trabajo básico:
- Cargue el modelo Z-Image-Turbo: Utilice un nodo
CheckpointLoaderpara cargar el modelo Z-Image-Turbo en ComfyUI. - Cree un mensaje de texto: Utilice un nodo
CLIPTextEncodepara ingresar su mensaje de texto deseado. - Configure el muestreador: Utilice un nodo
KSamplery conéctelo al modelo y al mensaje. Ajuste parámetros comosteps,cfgysampler_name. Z-Image-Turbo a menudo funciona bien con recuentos de pasos más bajos (por ejemplo, 6-12 pasos). - Decodifique la imagen latente: Utilice un nodo
VAEDecodepara convertir la imagen latente en una imagen visible. - Guarde la imagen: Utilice un nodo
Save Imagepara guardar la imagen generada en la ubicación deseada.
Análisis técnico
La clave aquí es la configuración de KSampler. Z-Image-Turbo está diseñado para un muestreo rápido, así que experimente con diferentes muestreadores (Euler, DPM++ 2M Karras) y recuentos de pasos más bajos. Puede ser necesaria una escala CFG más alta para mejorar la adherencia del mensaje, pero tenga en cuenta los posibles artefactos.
Flujo de trabajo de imagen a imagen
Adaptar el flujo de trabajo para la generación de imagen a imagen implica incorporar una imagen inicial:
- Cargue el modelo Z-Image-Turbo: Como antes, utilice un nodo
CheckpointLoaderpara cargar el modelo. - Cargue la imagen inicial: Utilice un nodo
Load Imagepara cargar la imagen que desea utilizar como punto de partida. - Codifique la imagen en espacio latente: Utilice un nodo
VAEEncodepara codificar la imagen en espacio latente. - Cree un mensaje de texto: Utilice un nodo
CLIPTextEncodepara su mensaje. - Configure el muestreador: Utilice un nodo
KSampler, conectando el modelo, el mensaje y la imagen codificada. Ajuste los parámetros, prestando atención al parámetrodenoise, que controla la fuerza de la influencia de la imagen inicial. - Decodifique y guarde: Utilice los nodos
VAEDecodeySave Imagecomo en el flujo de trabajo de texto a imagen.
!Figura: Gráfico de nodos de imagen a imagen en 0:45
Figura: Gráfico de nodos de imagen a imagen en 0:45 (Fuente: Video)*
Análisis técnico
El parámetro denoise en el KSampler es crucial para la imagen a imagen. Un valor de 1.0 significa que la imagen inicial se reemplaza por completo por la salida generada, mientras que 0.0 conserva la imagen inicial por completo. Experimente con valores entre 0.4 y 0.7 para un buen equilibrio.
Flujo de trabajo de Inpainting
Inpainting le permite modificar selectivamente partes de una imagen existente:
- Cargue el modelo Z-Image-Turbo: Utilice un nodo
CheckpointLoader. - Cargue la imagen y la máscara: Utilice los nodos
Load Imagepara cargar tanto la imagen como una máscara que indique el área que se va a pintar. - Codifique el área enmascarada: Utilice un nodo
VAEEncodeForInpaintpara codificar la región enmascarada de la imagen. - Cree un mensaje de texto: Utilice un nodo
CLIPTextEncodepara describir el contenido deseado para el área enmascarada. - Configure el muestreador: Utilice un nodo
KSampler, conectando el modelo, el mensaje y la imagen enmascarada codificada. - Decodifique y combine: Utilice un nodo
VAEDecodepara decodificar la región pintada y, a continuación, utilice un nodo comoImage Overlaypara combinar la región pintada con la imagen original. - Guarde la imagen: Utilice un nodo
Save Image.
Análisis técnico
El nodo VAEEncodeForInpaint es esencial. Asegúrese de que su máscara esté correctamente alineada con la imagen. Experimente con diferentes muestreadores y recuentos de pasos para lograr el nivel de detalle deseado en la región pintada. Preste atención a la combinación perfecta entre las áreas originales y pintadas.
Optimización del rendimiento y el uso de la memoria
Generar imágenes, particularmente a altas resoluciones, puede sobrecargar los recursos de su GPU. Aquí hay varias estrategias para optimizar el rendimiento y reducir el uso de la memoria:
Recuentos de pasos más bajos:** Z-Image-Turbo está diseñado para producir buenos resultados con menos pasos. Experimente con recuentos de pasos entre 6 y 12 para reducir el tiempo de generación.
Decodificación VAE en mosaicos:** El uso de la decodificación VAE en mosaicos puede reducir significativamente el uso de VRAM, especialmente con imágenes de alta resolución. Las pruebas de la comunidad muestran que la superposición en mosaicos de 64 píxeles reduce las costuras.
Atención Sage:** Considere la posibilidad de utilizar Sage Attention como una alternativa de memoria eficiente a la atención estándar en el flujo de trabajo de KSampler. Tenga en cuenta que podría introducir artefactos de textura sutiles a escalas CFG altas.
Intercambio de bloques/capas:** Descargue las capas del modelo a la CPU durante el muestreo. Por ejemplo, intercambie los primeros 3 bloques de transformador a la CPU mientras mantiene el resto en la GPU.
!