Schluss mit Zufallsbildern: Mehr Kontrolle für deine KI-Fotos
Wer KI-Tools für Bilder nutzt, kennt das typische Glücksspiel: Zwar gibst du eine spannende Idee ein, doch das Ergebnis gleicht oft einer Lotterie. Mal stimmt das Licht nicht, mal wirkt die Szene künstlich oder die Kamera wählt eine völlig falsche Perspektive.
Das Problem liegt dabei meist nicht an der KI selbst, sondern an der fehlenden Struktur im Befehl. Wenn wir der KI nämlich nicht genau sagen, wie ein Bild aussehen soll, füllt sie diese Lücken einfach mit Zufallswerten oder Klischees. Deshalb habe ich ein System entwickelt, das diesen Zufall minimiert: den „Visual Prompt Architect“.
Früher war das ein langer Textbefehl zum Kopieren, doch heute habe ich dieses System in einen eigenen GPT verpackt. Auf diese Weise kannst du das Tool direkt nutzen und erhältst zudem eine klare Empfehlung für das passende Bild-Tool.
Der Visual Prompt Architect: Erst denken, dann generieren
Normalerweise beschreibst du ein Bild und die KI legt sofort los. Dieses Tool schiebt jedoch einen entscheidenden Schritt dazwischen: die technische Spezifikation per JSON-Code.
Der Prozess sieht dabei wie folgt aus:
- Deine Idee: Du beschreibst grob auf Deutsch, was du sehen möchtest.
- Die Übersetzung (JSON): Das Tool zwingt die KI dazu, deine Idee in technische Einzelteile wie Kamera, Licht und Styling zu zerlegen.
- Der finale Befehl: Erst daraus erstellt das Tool den eigentlichen englischen Bild-Prompt, den du einfach kopierst.
Ein Praxis-Beispiel: Was das Tool aus einem Satz macht
Schauen wir uns an, was passiert, wenn du dem GPT eine simple Anweisung gibst.
Dein Input (das gibst du ein):
„Ein Webdesigner am Schreibtisch, spät abends, konzentriert, modernes Homeoffice. Seitenverhältnis 3:2.“
Ohne das System würde die KI jetzt einfach raten, wie „modern“ aussieht oder was „spät abends“ lichttechnisch bedeutet. Der Visual Prompt Architect liefert dir jedoch erst eine Analyse und eine Spezifikation.
Das Output des Tools (vereinfacht dargestellt):
Zuerst sagt dir das Tool, welche Annahmen es trifft:
Assumptions:
- Alter: ca. 30–35 Jahre
- Lichtstimmung: Cinematic, hauptsächlich Monitor-Glow und kühles Umgebungslicht.
- Kamera: 35mm Objektiv für einen dokumentarischen Look.
Dann erstellt es das JSON-Gerüst. Das sieht ungefähr so aus (Auszug):
{
"subject": {
"description": "Male, approx 32 years, tired but focused expression",
"wardrobe": "Casual hoodie, dark grey, relaxed fit"
},
"environment": {
"location": "Home office, minimal design, shelf with plants in background",
"details": "Coffee mug, sketches on desk, high-end monitor"
},
"lighting": {
"key_light": "Cool blue monitor glow illuminating face",
"fill_light": "Warm desk lamp in background for separation",
"mood": "Quiet, isolated, productive"
},
"camera": {
"lens": "35mm",
"aperture": "f/2.0"
}
}
Und ganz am Ende liefert es dir den fertigen Text (Prompt).
Warum das JSON-Gerüst so wichtig ist
Das JSON oben zeigt dir genau, wie die KI deine Idee interpretiert hat. Sie hat entschieden: „Der Mann trägt einen Hoodie“. Vielleicht wolltest du das gar nicht? Vielleicht sollte er ein Hemd tragen?
Genau hier liegt der Vorteil: Du siehst die Entscheidungen der KI, bevor das Bild entsteht.
Wenn dir im JSON etwas nicht passt, kannst du dem GPT einfach antworten: „Ändere im JSON die Kleidung auf ‚weißes Leinenhemd‘ und mach das Licht wärmer.“
Das Tool schreibt den Code um, und der finale Prompt passt sich automatisch an. Du hast also die Kontrolle über Details (Licht, Kamera, Outfit), ohne komplizierte Fachbegriffe auswendig lernen zu müssen.
Warum die Ausgabe auf Englisch erfolgt
Du wirst merken: Du sprichst mit dem Tool auf Deutsch, aber die Ausgabe (JSON) erfolgt jedoch komplett auf Englisch. Das ist volle Absicht. Da alle großen Bild-KIs primär mit englischen Daten trainiert wurden, verstehen sie englische Begriffe für Lichtsetzung oder Kameraperspektiven wesentlich präziser.
Fachbegriffe wie „Rim Light“ oder „Depth of Field“ sind im Englischen eindeutig. Deshalb übersetzt der GPT deine Wünsche automatisch in das korrekte Fach-Englisch, damit die Bild-KI deine Vision exakt umsetzen kann.
Konsistenz durch eigene Referenzbilder
Das Tool enthält zudem eine Platzhalter-Logik für Referenzbilder. Wenn du das Bild schließlich generierst, kannst du ein eigenes Foto hochladen. Die KI nutzt dieses Foto dann als Basis, um Merkmale wie Gesichtsform oder Haarfarbe auf die Figur zu übertragen.
Das Ziel ist dabei echte Konsistenz. Anstatt jedes Mal ein neues Zufallsgesicht zu erhalten, erschaffst du so eine fiktive Figur, die immer wieder deine optischen Merkmale als Referenz nutzt. Nutze dafür bitte ausschließlich eigene Fotos, um eine authentische Figur zu kreieren.
Meine Empfehlung: Nano Banana für fotorealistische Ergebnisse
Der GPT liefert dir den perfekten Bauplan, doch wo solltest du das Bild bauen lassen? Zwar kann ChatGPT (DALL-E) das Bild direkt erstellen, allerdings empfehle ich für professionelle Ergebnisse das Tool Nano Banana.
DALL-E lässt Bilder oft sehr „glatt“ und künstlich wirken. Dagegen setzt Nano Banana Licht und Hautstrukturen deutlich natürlicher um. Infolgedessen liefert die Kombination aus der Präzision des GPTs und der Qualität von Nano Banana die besten Ergebnisse.
Das Tool direkt nutzen
Du musst nichts installieren. Klicke einfach auf den Link unten, beschreibe kurz deine Bildidee und kopiere den englischen Prompt.
So gehst du vor:
- Architekten starten: Klicke auf den Link zum GPT unten.
- Briefing: Beschreibe im Chat kurz deine Bildidee (z. B. „Handwerker in Werkstatt, helles Licht, 16:9“).
- Prompt kopieren: Kopiere den englischen Textblock („Hauptprompt“), den das Tool am Ende ausgibt.
- Bild erstellen: Öffne Nano Banana, füge den Prompt ein (und lade optional dein Referenzbild hoch).
Hier geht es zum GPT-Tool: 👉 Visual Prompt Architect öffnen
Viel Erfolg beim Ausprobieren und Strukturieren deiner Bildideen.
