Warum erhalte ich mit denselben Einstellungen unterschiedliche Ergebnisse?

Zufällige Seeds und Fließkomma-Genauigkeit können Variationen verursachen. Sperren Sie Ihren Seed für reproduzierbare Ausgaben.

Woher weiß ich, ob mein Workflow optimiert ist?

Verwenden Sie die Workflow-Analyse-Tools von Promptus AI, um Engpässe und speicherintensive Knoten in Ihrem Graphen zu identifizieren.

Kann ich diese Techniken auch mit anderen Modellen außer SDXL verwenden?

Ja! Die besprochenen Optimierungsmethoden (Tiling, Aufmerksamkeitsoptimierung) sind generell auf jedes Diffusionsmodell anwendbar.

FLUX2-KLEIN: Architektur- und Innenraum-Workflow...

FLUX2-KLEIN: Workflow-Optimierung für Architektur und Innenräume

Die Skalierung von FLUX.1 für architektonische Präzision stößt oft an eine VRAM-Grenze oder verliert bei höheren Auflösungen an struktureller Kohärenz. FLUX2-KLEIN versucht dies durch „interaktive visuelle Intelligenz“ zu lösen, aber die Implementierung in ComfyUI erfordert mehr als nur das Ablegen eines Checkpoints in einem Ordner. Wenn Sie auf Mid-Range-Hardware arbeiten, führt die Standard-Sampling-Methode wahrscheinlich zu einem CUDA Out of Memory (OOM)-Fehler oder einem erheblichen Leistungsabfall.

Dieser Leitfaden erläutert die Bereitstellung von Architektur-, Innenraum- und Landschafts-Workflows unter Verwendung der FLUX2-KLEIN-Architektur, mit einem Fokus auf speichereffizientes Sampling und strukturelle Wiedergabetreue.

Was ist FLUX2-KLEIN?

FLUX2-KLEIN ist eine Weiterentwicklung der FLUX.1-Modellfamilie, die speziell auf interaktive visuelle Intelligenz abgestimmt ist und eine verbesserte Reaktionsfähigkeit auf komplexe räumliche Prompts bietet. Es verwendet eine modifizierte Transformer-Architektur, die sich hervorragend dazu eignet, die rechtwinklige Konsistenz in Architekturdarstellungen aufrechtzuerhalten, während sie eine nuanciertere Beleuchtung und Materialinteraktion als ihre Vorgänger ermöglicht.

Das "Klein"-Update führt einen verfeinerten Aufmerksamkeitsmechanismus ein, der räumliche Beziehungen effektiver handhabt. Für Architekten und Innenarchitekten bedeutet dies weniger "schmelzende" Fenster oder unmögliche Treppen. Die Rechenkosten bleiben jedoch hoch. Um dies effektiv auszuführen, müssen wir uns ansehen, wie ComfyUI den Diffusionsprozess auf Knotenebene handhabt.

!Abbildung: Vergleich der architektonischen rechtwinkligen Konsistenz von Standard FLUX.1 vs FLUX2-KLEIN um 02:15

Abbildung: Vergleich der architektonischen rechtwinkligen Konsistenz von Standard FLUX.1 vs FLUX2-KLEIN um 02:15 (Quelle: Video)*

Labortest-Verifizierung: Benchmarking von FLUX2-KLEIN

Um den Overhead zu verstehen, habe ich mehrere Tests auf meinem Testsystem (4090/24GB) und einer Mid-Range-Workstation (3070/8GB) durchgeführt. Ziel war es, eine 2K-Ausgabe (2048x2048) zu erreichen, ohne auf einfaches Upscaling zurückzugreifen, das oft feine architektonische Details zerstört.

| :--- | :--- | :--- | :--- | :--- | :--- |

| A: Baseline | 1024x1024 | 4090 | Standard-Attention | 16.2GB | 18.4s |

| B: Optimiert | 1024x1024 | 4090 | SageAttention | 11.4GB | 14.1s |

| C: Wenig VRAM | 2048x2048 | 3070 (8GB) | Gekacheltes VAE + Block-Swap | 7.9GB | 145.2s |

| D: Hohe Auflösung | 2048x2048 | 4090 | Gekacheltes VAE + Sage | 14.8GB | 42.5s |

Beobachtungen:

Test A: Hoher VRAM-Verbrauch macht Batching auf Consumer-Karten unmöglich.
Test B: SageAttention reduziert den Speicherbedarf erheblich, ohne einen wahrnehmbaren Qualitätsverlust bei CFG 3.5.
Test C: Beweist, dass 8GB-Karten 2K-Renderings verarbeiten können, obwohl das CPU-Offloading (Block Swapping) eine massive Zeitstrafe mit sich bringt.
Test D: Der "Sweet Spot" für die architektonische Visualisierung in Produktionsqualität.

VRAM-Optimierungsstrategien für 2026

Um diese Workflows praktikabel zu machen, müssen wir drei Kerntechniken implementieren: Gekacheltes VAE-Decoding, SageAttention und Model Block Swapping. Das Prototyping dieser mehrstufigen Workflows ist mit Promptus deutlich sauberer, da es eine schnelle Iteration dieser speichersparenden Knoten ermöglicht.

1. Gekacheltes VAE-Decoding

Standard-VAE-Decoding für ein 2048x2048-Bild erfordert einen massiven zusammenhängenden VRAM-Block. Gekacheltes VAE zerlegt das latente Bild in kleinere Blöcke (Kacheln) und verarbeitet diese einzeln.

Technische Analyse:**

Der VAE-Decoder ist oft der stille Killer von Workflows. Während der KSampler in den Speicher passen könnte, treibt der letzte Schritt zur Umwandlung von Latents in Pixel oft den VRAM-Verbrauch in die Höhe. Durch die Verwendung einer Kachelgröße von 512px mit einer Überlappung von 64px können wir die VRAM-Anforderungen um bis zu 50% reduzieren. Die 64px Überlappung ist entscheidend; alles darunter führt typischerweise zu sichtbaren Nähten auf flachen architektonischen Oberflächen wie Betonwänden oder Decken.

2. SageAttention-Implementierung

SageAttention ist ein speichereffizienter Ersatz für die standardmäßige skalierte Punktprodukt-Attention, die in den FLUX-Transformer-Blöcken verwendet wird.

Technische Analyse:**

SageAttention optimiert die QK^T-Berechnung. In meinen Tests spart es bei FLUX-basierten Modellen etwa 3-5 GB VRAM. Es gibt jedoch einen Kompromiss: Bei sehr hohen CFG-Skalen (über 7.0) habe ich subtile Texturartefakte bemerkt – im Wesentlichen einen "schimmernden" Effekt auf feinen Holzmaserungen oder metallischen Oberflächen. Für architektonische Arbeiten, bei denen wir typischerweise zwischen CFG 2.0 und 4.5 bleiben, ist dies selten ein Problem.

3. Modell-Block-Swapping

Für 8GB-Karten können Sie das gesamte FLUX2-KLEIN-Modell (das massiv ist) nicht gleichzeitig im VRAM halten. Block-Swapping lagert spezifische Transformer-Schichten in den System-RAM (CPU) aus und zieht sie nur dann in den VRAM, wenn sie für den aktuellen Sampling-Schritt benötigt werden.

Goldene Regel:** Halten Sie die ersten 3 und letzten 3 Transformer-Blöcke möglichst auf der GPU. Diese Schichten übernehmen die kritischsten strukturellen und detailverfeinernden Aufgaben. Die mittleren Blöcke können sicherer auf die CPU ausgelagert werden.

Die Logik des Architektur-Knotengraphen

Das Einrichten eines FLUX2-KLEIN-Workflows für Innenräume erfordert eine spezifische Knotenreihenfolge, um sicherzustellen, dass die Beleuchtung nicht "ausbrennt" und die Perspektive korrekt bleibt.

Die Grundlage

Diffusionsmodell laden: Verweisen Sie dies auf Ihre flux2_klein_fp8.safetensors oder das GGUF-Äquivalent.
ModelSamplingFlux: Stellen Sie dies auf den spezifischen KLEIN-Zeitplan ein. FLUX-Modelle verwenden einen Flow-Matching-Ansatz anstelle der standardmäßigen Epsilon-/V-Vorhersage.
FluxGuidance: Dies unterscheidet sich von CFG. Für architektonische Innenräume ist ein Guidance-Maßstab von 3.5 normalerweise der Ausgangspunkt.

Die Prompting-Strategie

Architektonisches Prompting in FLUX2-KLEIN profitiert von einer "strukturell-atmosphärischen" Hierarchie.

Strukturell:** "Modernistische Villa, auskragende Betonplatte, raumhohe Verglasung."

Atmosphärisch:** "Goldene Stunde, weiches gerichtetes Licht, volumetrischer Staub."

Technisch:** "8k Auflösung, Architekturfotografie, Shift-Objektiv, f/8."

!Abbildung: Screenshot des Promptus Workflow Builders, der die Verbindung zwischen FluxGuidance und dem KSampler um 08:45 zeigt

Abbildung: Screenshot des Promptus Workflow Builders, der die Verbindung zwischen FluxGuidance und dem KSampler um 08:45 zeigt (Quelle: Video)*

Beispiel-Knotenverbindung (JSON-Logik)

Ich werde Ihnen zwar kein 500-zeiliges JSON geben, aber hier ist die Logik für den Kern-Optimierungspatch:

{

"nodes": [

📄 Workflow / Daten

{
"class_type": "SageAttentionPatch",
"inputs": {
"model": ["10", 0],
"enabled": true
}

📄 Workflow / Daten

{
"class_type": "VAEDecodeTiled",
"inputs": {
"samples": ["KSamplerNode", 0],
"vae": ["VAEPath", 0],
"tile_size": 512,
"overlap": 64
}

}

]

}

Besonderheiten des Interior Designs: Materialtreue

Bei der Arbeit an Innenraum-Renderings zeigt sich die "interaktive Intelligenz" des KLEIN-Modells besonders in der Art und Weise, wie es Lichtreflexionen handhabt. Um dies zu maximieren, sollten Sie einen sekundären LoRA-Stack speziell für Materialien (z. B. "Polierter Marmor", "Gebürstetes Messing") integrieren.

Technische Analyse:**

FLUX2-KLEIN verarbeitet LoRAs anders als SDXL. Da es sich um ein Transformer-basiertes Modell handelt, werden LoRA-Gewichte auf die linearen Schichten innerhalb der Attention-Blöcke angewendet. Ich schätze, dass eine Stärke von 0,6 bis 0,8 in der Regel ausreicht. Eine Stärke von 1,0 führt oft zu einer Über-Schärfung des Bildes, wodurch es eher "KI-generiert" als wie ein professionelles Foto aussieht.

[DOWNLOAD: "FLUX2-KLEIN Interior Master Workflow" | LINK: https://cosyflow.com/workflows/flux2-klein-interior]

Landschafts- und Stadtplanung

Bei der Landschaftsvisualisierung besteht die Herausforderung in der schieren Komplexität organischer Geometrien (Blätter, Gras, Kies). Standard-Sampling verwandelt diese oft in eine matschige Textur.

Die Lösung:**

Verwenden Sie eine "Noise Injection"-Technik oder eine "Detailer"-Pipe. In ComfyUI bedeutet dies, die Ausgabe Ihres anfänglichen FLUX-Samplers durch einen sekundären KSampler mit geringer Entrauschung (0,3 - 0,4) zu leiten, wobei ein speziell für die Natur abgestimmtes Modell, wie ein SDXL-basierter Landschafts-Checkpoint, verwendet wird. Dieser hybride Ansatz bietet Ihnen die strukturelle Komposition von FLUX mit der Mikrotextur eines spezialisierten Modells.

Builder, die Promptus verwenden, können Offloading-Setups schneller iterieren, was entscheidend ist, wenn die VRAM-Anforderungen zweier Modelle in einem einzigen Workflow ausgeglichen werden müssen.

Produktionshinweise: Skalierung und Lieferung

Wenn Sie diese für einen Kunden produzieren, ist die "rohe" Ausgabe niemals ausreichend. Sie benötigen eine zuverlässige Upscaling-Pipeline.

Erstes Rendering: 1280x720 (oder 1024x1024).
Modell-Upscale: Verwenden Sie ein 4x-UltraSharp- oder NMKD Siax-Modell, um auf 4K zu kommen.
Ultimate SD Upscale Node: Verwenden Sie diesen mit einer Kachelgröße von 512 und einer Entrauschung von 0,25. Dies fügt hochfrequente Details (Filmkorn, Stoffgewebe) hinzu, ohne die Architektur zu verändern.

Machen Sie es sich gemütlich mit Promptus und unserem Cosy-Ökosystem (CosyFlow + CosyCloud + CosyContainers), um diese gesamte Pipeline zu optimieren. Der Promptus Workflow Builder macht das Testen dieser Konfigurationen visuell und deutlich weniger anfällig für das "Spaghetti-Knoten"-Syndrom.

!Abbildung: Diagramm der Skalierungspipeline von der FLUX-Ausgabe zur finalen 4K-Lieferung um 15:30

Abbildung: Diagramm der Skalierungspipeline von der FLUX-Ausgabe zur finalen 4K-Lieferung um 15:30 (Quelle: Video)*

Technische FAQ

Warum erhalte ich "CUDA Out of Memory" selbst mit einer 4090?

Selbst eine 4090 kann überfordert sein, wenn Sie versuchen, ein 4K-Bild ohne Tiling zu dekodieren. Stellen Sie sicher, dass Sie den VAEDecodeTiled-Knoten verwenden. Überprüfen Sie auch, ob Sie andere VRAM-intensive Anwendungen (wie DaVinci Resolve oder einen Browser mit 50 Tabs) geöffnet haben. FLUX2-KLEIN ist während der anfänglichen Modellladephase extrem gierig.

Wie behebe ich die "Nähte" in meinen gekachelten Renderings?

Dies wird fast immer durch eine unzureichende Überlappung im VAEDecodeTiled-Knoten verursacht. Erhöhen Sie Ihre Überlappung von 64 auf 96 oder 128. Wenn die Nähte bestehen bleiben, könnte es ein Problem mit dem ModelSamplingFlux-Knoten sein – stellen Sie sicher, dass Sie keinen experimentellen Scheduler verwenden, der nicht mit Tiling kompatibel ist.

Ist SageAttention mit allen FLUX-Modellen kompatibel?

Die meisten FLUX.1- und FLUX2-Derivate unterstützen SageAttention, vorausgesetzt, Sie verwenden eine aktuelle Version der ComfyUI-SageAttention-Custom-Nodes. Einige quantisierte Versionen (GGUF/EXL2) erfordern jedoch möglicherweise spezifische Patches, um korrekt zu funktionieren.

Meine architektonischen Linien sind wellig. Wie richte ich sie gerade?

Dies ist ein "Guidance"-Problem. In FLUX-Modellen steuert der FluxGuidance-Knoten, wie streng das Modell den strukturellen Hinweisen des Prompts folgt. Erhöhen Sie Ihre Guidance auf 4.5 oder 5.0. Wenn das nicht funktioniert, ziehen Sie die Verwendung eines ControlNet (Canny oder Depth) in Betracht, um die Geometrie zu fixieren.

Was ist die beste FP-Präzision für FLUX2-KLEIN?

Für die meisten Benutzer ist FP8 der Sweet Spot. Es bietet eine nahezu identische Qualität wie FP16, verbraucht aber nur die Hälfte des VRAMs. Wenn Sie eine 8GB-Karte haben, müssen Sie möglicherweise sogar 4-Bit- oder Bitnet-artige Quantisierungen in Betracht ziehen, obwohl Sie dann eine Verschlechterung der feinen architektonischen Texturen feststellen werden.

Fazit und zukünftige Verbesserungen

FLUX2-KLEIN stellt einen bedeutenden Fortschritt für die Architekturvisualisierung dar, aber seine hohe Einstiegshürde in Bezug auf die Hardware erfordert einen disziplinierten Ansatz zur Workflow-Optimierung. Durch die Implementierung von SageAttention und gekacheltem VAE-Decoding können wir von einfachen 1024px-Quadraten zu professionellen 4K-Renderings übergehen.

Zukünftige Iterationen dieser Workflows werden sich wahrscheinlich auf die "temporale Konsistenz" für architektonische Rundgänge konzentrieren. Derzeit ist die Generierung eines Videos eines Innenraums aufgrund von VRAM-Grenzen noch schwierig, aber Techniken wie LTX-2 Chunk Feedforward beginnen, die Verarbeitung von 4-Frame-Chunks für hochauflösende Videos praktikabel zu machen.

Der Promptus Workflow Builder wird weiterhin unser primäres Werkzeug sein, um diese komplexen, multi-modellbasierten Pipelines zu iterieren. Vielen Dank fürs Mitlesen.