42.uk Research

ComfyUI : Maîtriser la génération d'images par l'IA - Un examen approfondi

1 986 mots 10 minutes de lecture SS 92

Explorez ComfyUI, le générateur d'images ultime, avec ce guide complet. Apprenez les techniques avancées pour le texte-vers-image,...

Promptus UI

ComfyUI : Maîtriser la génération d'images par l'IA

L'exécution de SDXL à des résolutions élevées pousse souvent même les GPU haut de gamme à leurs limites. Ce guide se penche sur l'optimisation des flux de travail ComfyUI pour les tâches exigeantes telles que le texte-vers-image, l'image-vers-image et la mise à l'échelle, en couvrant l'installation, les techniques avancées et les conseils de dépannage. Ce n'est pas un guide pour débutants ; nous supposons que vous connaissez déjà les bases de ComfyUI et de Stable Diffusion.

Qu'est-ce que ComfyUI ?

ComfyUI est une interface utilisateur graphique pour Stable Diffusion basée sur des graphes. Il fournit un environnement modulaire et flexible pour créer des flux de travail complexes de génération d'images. Contrairement aux interfaces plus simples, ComfyUI permet un contrôle précis de chaque étape du processus, du chargement des modèles à l'application de nœuds et de scripts personnalisés.

ComfyUI offre un contrôle inégalé sur le pipeline de génération d'images. Son système basé sur des nœuds vous permet de visualiser et de modifier chaque étape, ce qui le rend idéal pour l'expérimentation et les flux de travail avancés. Cette flexibilité, cependant, s'accompagne d'une courbe d'apprentissage plus abrupte par rapport aux interfaces plus simples.

!Figure : Interface ComfyUI avec exemple de flux de travail à 0 :00

Figure : Interface ComfyUI avec exemple de flux de travail à 0 :00 (Source : Vidéo)*

Installation

La première étape consiste à faire fonctionner ComfyUI. L'installation est simple, mais nécessite Git et Python. Le référentiel GitHub de ComfyUI (ComfyUI officiel) fournit des instructions détaillées pour différents systèmes d'exploitation [1:48].

Règle d'or : Assurez-vous toujours d'avoir les derniers pilotes pour votre GPU. Des pilotes obsolètes peuvent entraîner des problèmes de performances et des erreurs.

Une fois installé, vous devrez télécharger les modèles nécessaires.

Téléchargement de modèles

Le téléchargement de modèles est essentiel pour créer des images dans ComfyUI. Les modèles sont téléchargés à partir de sites comme Civitai et Hugging Face. Ces modèles sont ensuite placés dans le bon dossier à l'intérieur de ComfyUI pour y accéder dans le graphe de nœuds.

ComfyUI n'est pas livré avec des modèles préchargés. Vous devrez les télécharger séparément à partir de sources comme Civitai et Hugging Face [4:00]. Placez les fichiers de modèle téléchargés (généralement .ckpt ou .safetensors) dans le répertoire ComfyUI/models/checkpoints. De même, les fichiers VAE vont dans ComfyUI/models/vae, et les modèles LoRA vont dans ComfyUI/models/loras.

Texte vers image

Le texte vers image est un flux de travail fondamental dans ComfyUI. Il implique la connexion de nœuds pour charger un point de contrôle, saisir une invite, échantillonner, décoder l'image et enregistrer la sortie. En ajustant les paramètres de chaque nœud, vous pouvez contrôler le processus de génération.

Le flux de travail de base du texte vers image implique plusieurs nœuds clés [7:25] :

  1. Charger le point de contrôle : Charge le modèle Stable Diffusion.
  2. CLIP Text Encode (Invite) : Encode les invites positives et négatives.
  3. Image latente vide : Crée un espace latent vide pour l'image.
  4. KSampler : Effectue le processus d'échantillonnage, en générant l'image latente.
  5. VAE Decode : Décode l'image latente en une image pixel.
  6. Enregistrer l'image : Enregistre l'image générée.

Connectez ces nœuds dans la séquence correcte, en ajustant les paramètres tels que l'échantillonneur, le planificateur et l'échelle CFG dans le nœud KSampler. Expérimentez avec différentes invites et différents points de contrôle de modèle pour voir comment ils affectent la sortie.

!Figure : Graphe de nœuds de flux de travail de base du texte vers image à 10 :00

Figure : Graphe de nœuds de flux de travail de base du texte vers image à 10 :00 (Source : Vidéo)*

Navigation, édition et raccourcis

La navigation et l'édition des flux de travail dans ComfyUI sont facilitées grâce à des raccourcis. Ces raccourcis augmenteront la vitesse de développement et l'efficacité du flux de travail.

ComfyUI offre plusieurs raccourcis clavier pour simplifier la création de flux de travail [21:30] :

Ctrl+C, Ctrl+V : Copier et coller des nœuds.

Ctrl+Shift+K : Mettre l'invite en file d'attente.

Ctrl+B : Contourner un nœud.

Double-clic : Ouvrir les propriétés du nœud.

Glisser-déposer : Connecter des nœuds.

Familiarisez-vous avec ces raccourcis pour améliorer l'efficacité de votre flux de travail.

Installation de ComfyUI Manager et Git

L'installation de ComfyUI Manager et Git est nécessaire pour gérer les plugins et les dépendances. Le gestionnaire ComfyUI simplifie le processus d'installation, de mise à jour et de suppression des nœuds et extensions personnalisés. Git est nécessaire pour télécharger et gérer le gestionnaire lui-même.

Le gestionnaire ComfyUI simplifie l'installation et la gestion des nœuds et extensions personnalisés [26:15]. Pour l'installer, vous aurez besoin de Git. Téléchargez Git depuis le site Web officiel et suivez les instructions d'installation. Ensuite, clonez le référentiel ComfyUI Manager dans le répertoire ComfyUI/custom_nodes.

Mise à l'échelle

La mise à l'échelle est le processus d'augmentation de la résolution d'une image. Dans ComfyUI, vous pouvez mettre à l'échelle des images à l'aide de diverses techniques et modèles. La mise à l'échelle en mosaïque est une technique couramment utilisée pour réduire l'utilisation de la VRAM lors de la mise à l'échelle à des résolutions extrêmes.

La mise à l'échelle est essentielle pour améliorer la résolution et les détails des images générées [28:43]. ComfyUI offre plusieurs méthodes de mise à l'échelle, notamment :

Mise à l'échelle latente :** Met à l'échelle l'image latente avant le décodage.

Mise à l'échelle de l'image :** Met à l'échelle l'image décodée.

Mise à l'échelle en mosaïque :** Divise l'image en mosaïques, met à l'échelle chaque mosaïque séparément, puis les assemble. Cela réduit l'utilisation de la VRAM.

Pour la mise à l'échelle à haute résolution, la mise à l'échelle en mosaïque est généralement préférée.

Image vers image

L'image vers image est un flux de travail qui utilise une image existante comme base pour générer une nouvelle image. Il implique l'encodage de l'image d'entrée dans un espace latent, l'ajout de bruit, puis le guidage du