Bilderstellung mit KI – Grundlegende Tipps & Tricks

Kurze Einführung in das Thema KI

In diesem Blogbeitrag fassen wir die wesentlichen Fakten aus unserem Webinar zum Thema “Bilderstellung mit KI” zusammen. Statt den Blogbeitrag zu lesen, möchtest du dir lieber die Webinar-Aufzeichnung anschauen? Sehr gern – hier findest du die Webinar-Aufzeichnung: Bilderstellung mit KI

Das erwartet dich hier: Wir zeigen dir, welches KI-Tool für welches angestrebte Ergebnis am besten geeignet ist. Außerdem erfährst du wie du Schritt für Schritt deine Idee in ein fertiges Bild umsetzen kannst.    

Wir schauen in die gängigen Tools und zeigen dir die Unterschiede, Stärken und Schwächen und zeigen, ob auch eine Kombination aus verschiedenen KI-Tools sinnvoll sein kann.   

Und noch eine ganz wichtige Frage: Wie steht es aktuell um die Rechtslage? Ist dies eine Grauzone oder gibt es bereits verabschiedete Gesetze? 

Wir nähern uns dem Thema Künstliche Intelligenz hier mit klarem Fokus auf Midjourney, einfach weil das aktuell das meistgenutzte Tool ist.  

Vorweg: Im Bereich KI ändern sich die Dinge unglaublich schnell, so dass hier Erwähntes morgen durch Updates in den KI-Tools schon wieder überholt sein kann. Das hält uns aber nicht davon ab in dieses spannende Thema einzutauchen. Let’s go!  

Eine Sache haben alle KI-System gemeinsam: Es führen sehr viele Wege nach Rom. Es hängt von der Aufgabe ab, welches Ergebnis du erwarten kannst. Daher: Wähle die am besten dafür geeignete KI aus, die dich zu deinem Ziel führt.  

Das ist vergleichbar mit einer handwerklichen Tätigkeit:

Du benötigst das passende Werkzeug, um deine Arbeit bestmöglich zu machen: Einen Hammer, um einen Nagel in die Wand zu schlagen. Mit einem Akkuschrauber wird das eher nichts – außer du haust mit diesem auf den Nagel ein – Dann hast du zwar auch ein Ergebnis, aber eben kein schönes. Sondern höchstes einen krummen Nagel, der nur halb in der Wand steckt. Zufriedenstellend wäre das wohl eher nicht.  

Daher: Überlege dir als erstes: Was möchtest du tun? Welches Problem soll mein Bild lösen? Auf welcher Plattform wird es benötigt? Oder möchtest du erst einmal nur herumspielen und prompten lernen?  

Wait! Was heißt prompten?

Als Prompt oder Prompting wird eine Anweisung oder Eingabe bezeichnet, die an ein KI-System gerichtet ist, um eine bestimmte Antwort oder Aktion zu initiieren. Prompten ist die eingedeutschte Verbform dazu.  

Weitere Überlegungen zuvor: Soll das Bild im Nachgang noch animiert werden? Oder sollen noch irgendwelche Ebenen darübergelegt werden? Du merkst schon: Am Anfang solltest du dir genau überlegen, wohin du möchtest und was du als Ergebnis erwartest. Je mehr du weißt, was du willst, umso besser kannst du den Prompt erstellen und damit der KI sagen, was sie tun soll. Und umso besser ist damit wahrscheinlich auch das Ergebnis.  

Du weißt gar nicht so genau, was du eigentlich für ein Bild möchtest? Dann kannst du damit auch die KI beauftragen und sie liefert dir ein paar Ideen.

Briefing ist das A und O

Wichtig ist: Je genauer du beschreibst, was du möchtest, umso präziser kann die KI deine Ideen umsetzen. Vage Prompts führen weniger zu zufriedenstellenden Ergebnisse. Aber: Es gehört auch einfach etwas Übung dazu: Probiere verschiedene Prompts aus. Ändere einzelne Worte und Anweisungen und lass dich von den Ergebnissen überraschen 😊  

Dir gefällt das Ergebnis noch nicht, das die KI ausgeworfen hat? Dann war wahrscheinlich der Prompt einfach noch nicht gut genug und zu wenig eindeutig. Oder die KI ist noch nicht so weit – auch das ist natürlich möglich. Außerdem gibt es zwischen den einzelnen KIs aktuell noch deutliche Qualitätsunterschiede. Und es kann auch sein, dass es dann einfach eine Woche oder einen Monat später funktioniert. Die Entwicklung ist auf dem Gebiet gerade unglaublich schnell. Hier ist die Devise: Du musst einfach dranbleiben, wenn du nichts verpassen möchtest.  

Warum das Briefing so wichtig ist 

Ein Beispiel: “Ich möchte ein Bild aufhängen.”  

Die meisten Leute wüssten sicher, was nun zu tun ist: Nagel und Hammer holen und anschließend den Nagel in die Wand hämmern. Doch das ist hier nur eine Interpretation der Situation. Denn: Wie groß ist das Bild? Wie schwer ist das Bild? Wie ist die Beschaffenheit der Wand? An welcher Position soll das Bild an die Wand? Wo finde ich Nägel? Wo ist der Hammer?

Daher wäre folgender Befehl eindeutiger:  

“Ich möchte ein DIN-A4-Bild in einem Holzrahmen aufhängen. Bitte schlage den Nagel mit einem Hammer neben der Küchenuhr in die Wand.”  

Dann weiß der Empfänger schon deutlich mehr, was genau zu tun ist. Aber auch jetzt sind noch weitere Fragen offen: Soll das Bild links neben der Küchenuhr aufgehangen werden? Oder doch lieber rechts davon? Noch besser (und damit idiotensicher) wäre daher:  

“Ich möchte ein DIN-A4-Bild in einem Holzrahmen mit Plexiglasscheibe aufhängen. Bitte schlage dafür den schwarzen 5 cm langen Nagel mit einem Hammer an die Wand, rechts neben der Küchenuhr auf gleicher Höhe. Achte darauf, dass du den Nagel nicht komplett versenkst, da du sonst das Bild nicht mehr aufhängen kannst. Nagel und Hammer findest du im Werkzeugkoffer im Hauswirtschaftsraum hinter der Tür.”  

Mit dieser Anforderung sollte das Ergebnis folgendes sein: Das Bild hängt genau dort, wo es hängen soll. Und genau so muss man es auch mit der KI machen: Beschreibe so genau wie möglich, welches Ergebnis du dir wünschst.  

Was bei einer KI immer relativ schnell passieren kann: Man verliert sich in einem Prompt-Loop. Das bedeutet, dass man ewig mit der KI hin und her chattet und der Frust dabei immer größer wird, weil man so nicht richtig zum Ziel kommt. Um das zu vermeiden, solltest du auch bereits mit einem Ergebnis von 80 Prozent zufrieden sein und die restlichen 10 bis 20 Prozent erledigst du beispielsweise mit Photoshop oder suchst dir jemanden, der dir das entsprechend final bearbeiten kann. Damit sparst du Zeit und Nerven. Natürlich kannst du auch Glück haben und bist sofort mit dem ersten Ergebnis super zufrieden.  

Der perfekte Prompt für das perfekte Bild 

Am Beispiel von Midjourney zeigen wir jetzt einmal, was der perfekte Prompt beinhalten sollte, damit das Ergebnis gut ist:  

Bildtyp, Hauptmotiv, Szenerie, Wann/Wie, Parameter  

Zum Beispiel: „Luftbild, Langzeitbelichtung, Weitwinkelaufnahme, schmale Bergstraße mit vielen Kurven, dazwischen ein dichter verschneiter Tannenwald, weiße Autolichter, bläuliches Mondlicht –ar 3:2 –style raw –v 6.0“  

(“ar” steht für das Seitenverhältnis, “style raw” bedeutet: realistischer Stil, und “v 6.0” weist an, dass Midjourney in der Version 6.0 genutzt werden soll – diese Parameter sind Midjourney-spezifisch, weitere Midjourney-Parameter findest du hier: https.//docs.midjourney.com) 

Dieser Prompt generiert dieses Bild:  

KI-generiertes Bild

Das Ergebnis ist schon recht zufriedenstellend. Vielleicht bis auf das fehlende Mondlicht. Das könnte man nun mit einem weiteren Prompt noch anfordern – oder man begnügt sich damit, wie es ist.  

Bildgenerierende KI-Tools im Überblick 

Wir geben nun einen kleinen Überblick zu bildgenerierenden KI-Tools, wobei wir uns aufgrund der Fülle an Tools hier nur auf die big player fokussieren. Es macht viel Sinn, dass du dich auf die größten drei Tools fokussierst und bei diesen am Ball bleibst, wie sich die Tools entwickeln. Bei der unglaublichen Fülle an KI-Tools, kann aktuell niemand den kompletten Überblick behalten.  

Special Tipp: Nutze KI-Suchmaschinen 

Wenn du die für dich und deine Wünsche perfekte KI suchst, dann kannst du spezielle Suchmaschinen dazu befragen wie beispielsweise hier: www.ki-suche.io – aber auch hier gilt: Viele Wege führen nach Rom.  

DALL-E kann bspw. über Chat-GPT genutzt werden, aber ebenso kannst du es auch über die Bing-Suchmaschine nutzen. Stable Diffusion kannst du dir lokal auf deinem Rechner installieren oder du kannst es via Supermachine nutzen. Supermachine schlägt beispielsweise sogar Prompt-Verbesserungen vor. Dazu liefern wir gern ein Beispiel:  

„Eine zierliche 24-jährige Frau mit sonnengeküsster Haut spaziert allein in Santorini, trägt ein wunderschönes oranges Sommerkleid, ihr Haar ist leicht vom Wind verweht – Wind, Ganzkörperaufnahme, professionelles Foto, unscharfer Hintergrund“  

Und so würde Supermachine den Prompt optimieren:  

„24-jährige Frau mit sonnengeküsster Haut, orangefarbenes Sommerkleid, windzerzaustes Haar, Ganzkörperfoto, professionelle Qualität, unscharfer Hintergrund“  

Der optimierte Prompt ist deutlich kompakter, weil er um unwichtige Informationen reduziert wurde. Das gleiche haben wir bei Chat-GPT probiert und haben das Gegenteil bekommen: einen deutlich längeren Text:  

Erstellen Sie ein professionelles Foto einer zierlichen 24-jährigen Frau mit sonnengeküsster Haut, die alleine auf Santorin spazieren geht, im Seitenverhältnis 1:1. Sie trägt ein wunderschönes orangefarbenes Sommerkleid, und ihr Haar ist leicht vom Wind verweht. Der Hintergrund sollte unscharf sein und sich auf die Frau konzentrieren, um die Essenz eines warmen, sonnigen Tages auf Santorin einzufangen. Das Bild sollte Eleganz und Gelassenheit ausdrücken.“  

Fazit: Chat-GPT benötigt deutlich mehr Kontext als beispielweise Supermachine, wo einzelne Schlagworte genügen. Midjourney wiederum ist eher ein Mix aus beiden. Weiter gibt es noch Adobe Firefly, implementiert bei Adobe.  

Tja und welches Tool ist nun das beste Tool für dich?  

Wir zeigen es an einem Beispiel: Wir haben einen (wirklich nur einen) Prompt erstellt und haben diesen in alle vier Systeme gegeben – ohne jeglichen Re-Prompt etc.  

“Porträt eines 25-jährigen Mannes, Weitwinkelaufnahme, steht in einem kalifornischen Plattenladen“ 

Und das sind die vier Ergebnisse, die wirklich nicht unterschiedlicher sein könnten:  

KI-generierte Bilder – oben links: Adobe FireFly, oben rechts: Chat-GPT, & DALL-E,
unten links: Midjourney 6, unten rechts: Stable Diffusion 

Adobe ist aktuell sehr gut dafür geeignet, wenn man Teile des Bildes verändert haben möcht: bspw. Die Jacke soll statt blau lieber rot sein.  

Chat-GPT & DALL-E: Deutlich besser als Adobe. Rechts unten im Bild steht sogar etwas mit “California”. Trotzdem sieht auch dieses Bild noch sehr stark illustriert aus und weniger fotorealistisch.  

Midjourney: Das Ergebnis ist schon wirklich krass gut.  

Stable Diffusion: Ebenfalls ein sehr gutes Ergebnis. Hier ist noch der Vorteil, dass es unglaublich viele Trainingsmodelle gibt, die man selbst definieren kann. Stable Diffusion ist in Sachen Qualität immer ein kleines Stück weiter als Midjourney und kann jetzt auch schon asymmetrische Gesichter. Bei Midjourney sehen die Menschen meist noch zu perfekt aus.  

All about Midjourney 

Midjourney wird über Discord genutzt, es wird aber daran gearbeitet, dass es auch autark genutzt werden kann. Um den Überblick zwischen den ganzen Chats zu behalten: Leg dir einen eigenen Discord-Server an. Klingt kompliziert? Ist es aber nicht: Das bekommst du mit wenigen Klicks hin. Klicke unten links auf das kleine Plus (+) und lade den Midjourney-Bot einfach ein und das war es auch schon und du hast in deinem Stream nur deine Bilder und nicht noch zahlreiche andere Bilder anderer User.  

Midjourney 1 vs. Midjourney 6  

Ganz schön viel passiert in den letzten Monaten: Bei den ersten Versuchen realistische Bilder von Menschen erzeugen, musste man noch beide Augen zudrücken, um das als “realistisch” durchgehen zu lassen. Mittlerweile sind die Ergebnisse deutlich besser geworden.  

Was kann Midjourney?  

● Bilder generieren mit dem Parameter: “/imagine” 

● Bilder interpretieren mit dem Parameter: “/describe” 

● Bilder reproduzieren mit dem Parameter: “–seed“ 

● Bilder verschmelzen mit dem Parameter: “/blend” 

● MIDJOURNEY Style Tuner mit dem Parameter: “/tune” (steht für Bildsprache)  

Und was geht sonst so mit Midjourney?  

  • Charakter reproduzieren 
  • Face Swapping  
  • Bildstile noch einfacher generieren mit Parameter “sref” plus Bild-URL 
  • App Runway: erstellt Mini-Animationen aus Bildern  

ChatGPT + DALL-E  

Hier kommst du schnell in einen Chat Ping-Pong, wenn Bilder reproduziert werden sollen, allerdings muss der Initial-Prompt nicht wie bei Midjourney weiter ausgefeilt werden: Chat-GPT bezieht die weiteren Prompts auf die vorherigen und passt das Ergebnis immer weiter an.  

Stable Diffusion 

Lokal auf dem eigenen (Windows-)Rechner installiert, dadurch keine Folgekosten. Sehr viele Einstellmöglichkeiten wie bspw. die Größe. Weiterhin einfach bedienbar durch:  

  • Negativ-Prompts  
  • Bild-Reproduktion  
  • Text-zu-Bild 
  • Bild-zu-Bild 
  • Hochskalieren 
  • face-swapp 
  • Trainieren 
  • uvm. 

+++ Achtung: Keine Rechtsberatung +++  

Neue EU-Gesetze für KI-Anwendungen durch “AI-ACT”: Vom digitalen Wasserzeichen über Copyright bis zur Risikoeinstufung von KI-Systemen ist alles darin geregelt. Wenn du dir unsicher bist: Frage einen Medien-Anwalt ganz explizit nach dem AI-ACT und findet so gemeinsam raus, was du darfst und was nicht. Denn es gibt natürlich viele Faktoren, die mit reinspielen: Welche KI nutzt du? Mit welchen Trainingsdaten wurde die KI trainiert und wie wurde sie trainiert? Hast du die KI mit Daten gefüttert? Oder hat die KI die Daten irgendwo her? Kann die jeweilige KI überhaupt verlässlich benennen, woher die ganzen Trainingsdaten sind? Wurde das dokumentiert?  

AI-ACT: Das EU-Gesetz über künstliche Intelligenz

Pauschale Antworten kannst du daher auf Fragen zum Copyright nicht bekommen.  

Das Wichtigste zur KI-Bildbearbeitung zum Schluss

Probiere, teste aus und bleib am Ball! Und. verliere dich nicht in den Prompt-Loops 😉  

Vielen Dank an Dirk Mävers (Head of Creative Tech, Philipp und Keuntje) für die vielen interessanten Infos!

Du hast noch nicht genug von der KI? Dann melde dich gleich zu unserem nächsten Webinar am: 

Kostenloses Webinar: KI in SEO & Content Marketing 
Am 14. März 2024 von 16 bis 17 Uhr 
Jetzt anmelden 

Du möchtest dir das Webinar zur Bilderstellung mit KI doch lieber noch einmal in Ruhe anschauen? Dann folge diesem Link: Zur Aufzeichnung