Consulting, Beratung
Basiswissen KI-Bildgenerierung – Funktionsprinzip, Verfahren, Tools, Compliance & GovernanceManagement Summary
KI-gestützte Bildgenerierung hat sich in kurzer Zeit vom Spielerei-Status zu einem ernstzunehmenden Werkzeug für Unternehmen entwickelt. Moderne Text-zu-Bild-Modelle wie Stable Diffusion oder Midjourney erstellen in Sekunden aus Texteingaben (Prompts) beeindruckende Bilder. Richtig eingesetzt, ermöglichen diese Tools eine effiziente Produktion visueller Inhalte – von Marketinggrafiken bis Produktbildern – in gleichbleibender Qualität. Besonders wertvoll wird dies, wenn Bilder wiederholbar, markenkonform und rechtlich sauber erzeugt werden, also mit klar definierten Workflows, Freigabeprozessen und Dokumentation.
Dieses Whitepaper gibt Entscheidern aus IT, Marketing, Recht und Management einen fundierten Überblick zum Thema KI-Bildgenerierung. Es erläutert das Funktionsprinzip (Training, Modelle, latentem Raum, Diffusion), stellt wichtige Verfahren wie Text-to-Image, Image-to-Image oder ControlNet vor und vergleicht Tools (Cloud-Services vs. lokale Lösungen). Zudem werden Compliance & Governance-Aspekte praxisnah beleuchtet – von Urheberrechten über Datenschutz bis zu internen Richtlinien. Abschließend zeigt der Autor, wie er als Berater beim Aufbau einer firmeninternen “Bild-Maschine” unterstützt, um KI-Bilder sicher und effizient in die Unternehmensabläufe zu integrieren. Im FAQ und Glossar werden häufige Fragen geklärt und wichtige Fachbegriffe kurz definiert.
Grundprinzip: Wie KI-Bildgenerierung funktioniert
Trainingsdaten und Modelle: KI-Bildgeneratoren basieren auf neuronalen Netzen, die mit Millionen bis Milliarden von Beispielbildern und zugehörigen Textbeschreibungen trainiert wurden. So nutzt Stable Diffusion z.B. den öffentlichen LAION-5B-Datensatz mit rund 5,85 Milliarden Bild-Text-Paaren. Beim Training lernen die Modelle, komplexe Zusammenhänge zwischen Wörtern und Bildelementen zu erkennen. Ein spezialisiertes Teilmodell wie CLIP wandelt Texteingaben (Prompts) in hochdimensionale Vektoren um, die die semantische Bedeutung der Worte repräsentieren. Gleichzeitig lernt ein Bilddecoder (oft ein sogenanntes Diffusionsmodell) aus verrauschten Bildern schrittweise realistische Bilder zu erzeugen. Das Ergebnis des Trainings ist ein KI-Modell (z.B. ~4 GB Dateigröße), das Hunderte Millionen Parameter enthält und gelernt hat, neue Bilder zu synthetisieren.
Latenter Raum und Diffusion: Moderne Modelle arbeiten nicht direkt im Pixelraum, sondern in einem latenten Raum – einer komprimierten Bilddarstellung. Ein Variational Autoencoder (VAE) wandelt Bilder in kompakte Latent-Codes (z.B. 64×64 statt 512×512 Pixel) um und zurück. Das eigentliche Diffusionsverfahren funktioniert vereinfacht so: Ein klares Trainingsbild wird in vielen kleinen Schritten (oft 1000) immer weiter mit Rauschen überlagert (Forward-Prozess), bis es vollkommen zufällig erscheint. Dann lernt das Modell den Umkehrprozess: aus reinem Rauschen schrittweise wieder ein sinnvolles Bild „herauszuentrauschen“. Dabei kommt ein U-Net-Neuronales Netz zum Einsatz, das in Iterationen (üblich sind 20–50 Schritte) jeweils einen Teil des Rauschens entfernt. Die Generierung startet also mit einem zufälligen Rauschbild (determiniert durch einen Seed, s.u.) im latenten Raum. In jeder Iteration bekommt das Modell Informationen über den aktuellen Bildzustand, den eingegebenen Text (als Embedding) und den Fortschritt (Schritt-Timestamp). Nach und nach formen die Netzwerkvorhersagen aus dem Rauschen immer deutlicher das gewünschte Motiv heraus. Ist der Diffusionsprozess abgeschlossen, wandelt der VAE den fertigen Latent-Code zurück in ein hochauflösendes Bild.
Prompts, Seed, CFG, Sampler, Steps: Der Prompt ist der vom Nutzer eingegebene Text, der Motiv und Stil des Bildes beschreibt (z.B. „Ein roter Sportwagen vor Bergkulisse, im Stil eines Ölgemäldes“). Er ist der zentrale Steuerbefehl für die KI. Ein Seed ist eine Zufallszahl, die den initialen Rauschzustand festlegt. Gleicher Prompt mit gleichem Seed (und Modell) führt reproduzierbar zum gleichen Bild – Seeds sind daher wichtig, um Ergebnisse zu speichern oder zu teilen. CFG (Classifier-Free Guidance) ist ein Parameter, der bestimmt, wie strikt das Modell dem Prompt folgt. Technisch lässt man das Modell pro Diffusionsschritt zwei Vorhersagen machen: eine mit Berücksichtigung des Prompts und eine ohne. Die Differenz wird verstärkt, um das Bild näher an die Textvorgabe zu bringen. Eine niedrige CFG-Skala gibt der KI mehr künstlerische Freiheit, birgt aber das Risiko am Prompt vorbeizugehen, während ein sehr hoher CFG-Wert zu Übersättigung und Artefakten führen kann. Als Sampler bezeichnet man den Algorithmus, der die schrittweise Entrauschung durchführt (z.B. Euler, DDIM oder DPM++). Verschiedene Sampler können leicht unterschiedliche Bildstile oder Geschwindigkeiten ergeben. Die Anzahl der Steps (Entrauschungs-Schritte) kann der Nutzer oft einstellen – mehr Schritte dauern länger, liefern aber meist mehr Details, während zu wenige Schritte ein grobkörniges Resultat ergeben. Insgesamt arbeiten all diese Faktoren zusammen: Der Prompt gibt das Was vor, Seed und Sampler beeinflussen das Wie, und CFG sowie Step-Anzahl steuern wie genau bzw. wie kreativ die Umsetzung erfolgt.
Verfahren: Text-to-Image, Image-to-Image, Text-to-Video, ControlNet, LoRA, Fine-Tuning, Embeddings
Text-to-Image (Text-zu-Bild)
Definition: Generierung von Bildern ausschließlich aus einer Texteingabe heraus. Die KI erhält einen Prompt und erzeugt daraus ein vollkommen neues Bild ohne weiteres Ausgangsmaterial.
Einsatzbereich: Eignet sich für kreative Ideenfindung, Konzeptentwürfe, Artwork oder jedes Szenario, in dem schnell Variationen zu einer textlichen Beschreibung benötigt werden. Ideal, wenn kein Referenzbild vorliegt oder maximale Freiheit gewünscht ist.
Vorteile: – Sehr einfacher Prozess (nur Text nötig, kein Bild-Input). – Maximale kreative Freiheit – es können auch völlig fiktive Szenen entstehen. – Schnelle Generierung vieler Varianten desselben Themas durch Prompt-Variationen oder Seeds. Nachteile: – Begrenzte Kontrolle über die genaue Bildkomposition (die KI entscheidet Details selbständig). – Ergebnisqualität hängt stark von Prompt und Modell ab; es braucht etwas Prompt Engineering-Geschick. – In manchen Fällen können wichtige Details fehlen oder falsch sein (z.B. Text im Bild, korrekte Hände), sodass Nachbearbeitung nötig ist.
Image-to-Image (Bild-zu-Bild, Img2Img)
Definition: Generierung eines Bildes auf Basis eines bereits vorhandenen Ausgangsbildes plus einer Texteingabe. Das Ausgangsbild wird zunächst teilweise in Rauschen überführt und dann von der KI mit dem Prompt als Leitfaden neu gerendert. Ein wichtiger Parameter ist dabei die Denoising Strength: Er bestimmt, wie stark die KI das Originalbild verändern darf. Niedrige Werte führen zu behutsamen Änderungen (z.B. nur Stil wird angepasst), hohe Werte erlauben eine weite Neugestaltung, die nur die grobe Komposition des Originals beibehält.
Einsatzbereich: Perfekt, um Stile zu transferieren (z.B. ein Foto in ein Gemälde verwandeln), Variationen eines bestehenden Motivs zu erzeugen oder aus groben Skizzen/Renderings detaillierte Bilder zu machen. Auch nützlich, um unerwünschte Bildelemente durch passendere Inhalte zu ersetzen (ähnlich Inpainting, siehe unten).
Vorteile: – Hohe Kontrolle über Aufbau und Komposition, da ein Referenzbild als Grundlage dient. – Kombination aus menschlicher Vorlage und KI-Kreativität: das Original gibt grobe Formen vor, die KI fügt Detail oder Stil hinzu. – Gut, um Entwürfe zu verfeinern: man kann ein KI-Bild erneut als Img2Img-Input nutzen, um bestimmte Aspekte mit neuem Prompt zu verbessern. Nachteile: – Erfordert ein geeignetes Startbild; ohne Vorlage ist dieses Verfahren nicht anwendbar. – Je nach gewählter Änderungsstärke können wichtige Details des Originals verloren gehen. – Bei zu hoher Änderungsstärke kann das Resultat vom Originalmotiv abweichen, bei zu niedriger passiert ggf. wenig – es braucht etwas Experimentieren.
Text-to-Video (Text-zu-Video)
Definition: Generierung eines Videoclips aus einer textuellen Beschreibung. Ähnlich wie bei Text-to-Image, aber hier erzeugt die KI mehrere aufeinanderfolgende Frames, die zusammen einen kurzen Film bilden. Aktuelle Ansätze basieren meist auf Diffusionsmodellen, die für jede Zeiteinheit ein Bild generieren und auf zeitliche Konsistenz optimiert sind.
Einsatzbereich: Noch im frühen Stadium, aber interessant für Animationen, Werbeclips oder visuelle Prototypen, bei denen kein Dreh oder 3D-Modell vorhanden ist. Kann z.B. genutzt werden, um kurze Sequenzen für Marketing (Produktrotationen, Stimmungsclips) zu erstellen.
Vorteile: – Kann bewegte Bilder erschaffen, ohne dass Videoaufnahmen nötig sind – große Zeit- und Kostenersparnis bei passenden Anwendungsfällen. – Ermöglicht neuartige kreative Ausdrucksformen, z.B. surreale oder fantastische Szenen in Bewegung, die real nur schwer filmbar wären. – Schnelle Iteration von Ideen: ähnlich wie bei Bildern können in kurzer Zeit verschiedene Videovarianten ausprobiert werden (wenn auch mit mehr Rechenaufwand). Nachteile: – Technisch anspruchsvoll und ressourcenintensiv: Die Generierung von Videos erfordert deutlich mehr Rechenleistung als Einzelbilder (viele Frames). – Bisher begrenzte Qualität und Länge: Aktuelle Modelle erzeugen meist nur sehr kurze Clips (einige Sekunden bis max. ~1 Minute) in moderater Auflösung. Längere oder hochauflösende Videos sind (noch) außer Reichweite. – Bildkonsistenz zwischen Frames eine Herausforderung – Objekte können flackern oder ihr Aussehen leicht ändern. – Nur wenige Tools verfügbar; oft proprietär und mit eingeschränktem Zugang (Forschung oder Beta-Programme).
ControlNet
Definition: Eine Erweiterung für Diffusionsmodelle (insb. Stable Diffusion), die erlaubt, zusätzliche Steuerungsinformationen neben dem Prompt zu nutzen. Ein ControlNet erhält als Input z.B. eine Kantenzeichnung, Posen-Skelett, Tiefenkarte oder Segmentierungsmaske des gewünschten Bildaufbaus und zwingt das Modell, die generierten Inhalte daran auszurichten. Einsatzbereich: Wann immer eine präzise Bildkomposition oder Nachbildung einer Vorlage gefordert ist. Beispiele: konsistentes Character Design (immer gleiche Haltung/Umriss eines Charakters), Szenen nachstellen (eine Skizze wird fotorealistisch ausgemalt) oder Layout-Vorgaben (Produkt freistellen und vor definiertem Hintergrund platzieren). Vorteile: – Bietet feingranulare Kontrolle über die Anordnung von Bildelementen, was rein mit Text nicht möglich wäre. – Ermöglicht es, kreative Freiheiten der KI mit festen Vorgaben zu kombinieren – das Beste aus beiden Welten. – Nützlich, um Varianten desselben Motivs zu generieren, die sich in Details unterscheiden, aber die Kernstruktur gleichbleibt (z.B. gleicher Umriss, unterschiedliche Stile). Nachteile: – Aufwändiger in der Anwendung: benötigt zusätzliche Eingangsdaten (Zeichnungen, Masken etc.), die erstellt oder aus einem bestehenden Bild gewonnen werden müssen. – Jedes ControlNet-Modul ist meist auf einen Input-Typ spezialisiert (z.B. es gibt separate Modelle für Tiefenkarten, Posen etc.), man muss also das richtige Modell parat haben. – Nicht alle KI-Plattformen unterstützen ControlNet; meist eher in offenen Tools (wie Automatic1111 oder ComfyUI) nutzbar als in geschlossenen Cloud-Services.
LoRA (Low-Rank Adaptation)
Definition: Ein Verfahren, um ein bestehendes KI-Bildmodell gezielt mit neuen Konzepten zu erweitern, ohne das ganze Modell neu zu trainieren. LoRA lädt kleine Zusatzmatrizen in das Neurale Netz, die während des Trainings auf einen spezifischen Datensatz (oft nur 20–30 Bilder) angepasst wurden. Dadurch „lernt“ das Modell neue Stile, Personen oder Objekte, ohne seine ursprünglichen Gewichte dauerhaft zu verändern. LoRA-Dateien sind klein (häufig 10–200 MB) und lassen sich bei Bedarf an- und abschalten. Einsatzbereich: Wenn ein spezieller Stil oder eine bestimmte Person/Produkt im Bild erscheinen soll, die das Grundmodell nicht kennt. Unternehmen nutzen LoRAs z.B., um ihren Markencharakter oder reale Produkte im KI-Bildgenerator verfügbar zu machen. Community-Künstler erstellen LoRAs zu prominenten Kunststilen oder berühmten Figuren, die man dann in Prompts verwenden kann. Vorteile: – Effizient: Benötigt deutlich weniger Rechenaufwand und Daten als ein volles Fine-Tuning. Ein LoRA kann in Stunden oder weniger trainiert werden. – Flexibel: Mehrere LoRAs können kombiniert werden; man kann z.B. einen Stil-LoRA und einen Charakter-LoRA zugleich nutzen. – Schonend für das Basismodell: Die Original-Modellgewichte bleiben unverändert, das Grundmodell geht nicht kaputt. LoRAs wirken nur, wenn sie geladen sind. Nachteile: – Erfordert initial etwas technischen Aufwand, um die LoRA zu trainieren (Bilddatensatz sammeln, Trainingsskript ausführen). – Bei unsauberem Training kann eine LoRA zu Überanpassung führen oder unerwünschte Effekte haben (z.B. das Modell verlernt andere Motive, solange die LoRA aktiv ist). – Abhängig von der Plattform: Cloud-Dienste wie Midjourney/DALL-E erlauben keine eigenen LoRAs; diese Methode steht primär in offenen Umgebungen (lokal) zur Verfügung.
Fine-Tuning (Modellnachtraining, z.B. DreamBooth)
Definition: Die gezielte Nachtrainierung eines KI-Modells auf neue Daten, um dessen Wissensumfang zu erweitern oder einen bestimmten Bildstil besser umzusetzen. Anders als LoRA greift Fine-Tuning tiefer ein: Das Modell selbst wird in seinen Gewichten angepasst. Ein bekanntes Verfahren ist DreamBooth, bei dem z.B. ~30 Fotos einer Person verwendet werden, um das Modell so nachzutrainieren, dass es diese Person in beliebigen Situationen erzeugen kann. Fine-Tuning kann sich auf einen neuen Charakter, einen neuen visuellen Stil oder einen ganzen Bilddatensatz beziehen. Einsatzbereich: Wenn höchstmögliche Originaltreue benötigt wird oder sehr spezifische Anforderungen, die mit kleinen Anpassungen (LoRA/Embedding) nicht erreicht werden. Beispielsweise kann ein Unternehmen ein Modell auf tausende eigener Produktbilder finetunen, sodass künftig Werbebilder genau diese Produkte in allen Perspektiven zeigen. DreamBooth wird oft genutzt, um Prominente oder Mitarbeiter realistisch in KI-Bilder zu integrieren (z.B. für personalisierte Werbekampagnen), sofern rechtlich zulässig. Vorteile: – Liefert sehr präzise Ergebnisse, da das Modell die neuen Bilder direkt eingebaut hat (kein “Vergessen” dieser Details). – Ein feinjustiertes Modell kann eigenständig genutzt werden, ohne zusätzliche Dateien (im Unterschied zu LoRA, das immer das Basismodell voraussetzt). – Ermöglicht Anpassungen nicht nur an Motiven, sondern auch an generellem Bildstil oder Qualität (z.B. Modell gezielt schärfer, detailreicher machen durch Training auf passenden Daten). Nachteile: – Rechen- und zeitintensiv: Fine-Tuning erfordert GPUs und teils stunden- bis tagelanges Training, insbesondere wenn viele Parameter angepasst werden. – Risiko der Modellverschlechterung: Wenn falsch ausgeführt, kann das Modell andere Fähigkeiten einbüßen (z.B. overfitten auf den neuen Stil). Es entstehen Forks des Modells, die gepflegt werden müssen. – Großer Speicherbedarf: Jeder finetunete Modell-Checkpoint kann mehrere GB umfassen; bei vielen Varianten wird das unhandlich. – Rechtliche Grenze: Feintuning auf urheberrechtlich geschützten oder personenbeziehbaren Daten kann problematisch sein (siehe Compliance).
Embeddings (Textuelle Inversion)
Definition: Ein Embedding in diesem Kontext meint einen gelernten Text-Vektor, der einem neuen Konzept entspricht. Beim Verfahren der Textuellen Inversion wird dem Modell ein künstliches “Wort” beigebracht (z.B. “[StilX]”), das es nach kurzem Training mit einem bestimmten Bildkonzept assoziiert. Technisch trainiert man nur die Embedding-Vektoren des Textencoders, nicht das ganze Modell. Das Resultat ist eine kleine Datei (meist <1 MB) mit einem neuen Token, das in Prompts genutzt werden kann, um genau das gelernte Konzept zu erzeugen. Einsatzbereich: Wenn ein Nutzer einen sehr spezifischen Begriff oder Stil häufig verwenden möchte, den das Modell nicht kennt. Beispiele: Ein Unternehmen kann den firmeneigenen Grafikstil als Embedding hinterlegen, oder ein Künstler seinen charakteristischen Look. Auch Charaktere oder Logos lassen sich via Textual Inversion einbinden, wobei letztere wieder rechtliche Fragen aufwerfen. Vorteile: – Einfaches Prinzip: Man braucht nur ein paar Beispielbilder und kann in wenigen Minuten bis Stunden ein neues Token anlernen. – Embeddings sind winzig und lassen sich unkompliziert teilen oder speichern. – Das Basismodell bleibt unverändert; es wird lediglich um neue “Wortbedeutungen” erweitert. Nachteile: – Ein einzelnes Embedding repräsentiert immer nur eine einzige Sache (einen Stil, eine Person). Will man mehrere neue Konzepte, muss man mehrere Embeddings trainieren. – Die erzielbare Bildqualität ist etwas begrenzt – komplexe Änderungen schafft ein reines Embedding evtl. nicht so gut wie ein LoRA/Fine-Tune. – Wie bei LoRA nicht in allen Umgebungen nutzbar (hauptsächlich in offenen UIs wie Stable Diffusion WebUI). Bei geschlossenen Systemen kann man oft keine eigenen Embeddings laden.
FaceSwap & Identitätsverfahren
FaceSwap (Deepfakes): Unter FaceSwap versteht man die KI-gestützte Technik, das Gesicht einer Person in einem Bild oder Video durch das Gesicht einer anderen Person zu ersetzen. Mit genügend Trainingsmaterial (z.B. vielen Fotos einer Zielperson) können heutige Deepfake-Modelle äußerst realistisch wirkende Videos erzeugen, in denen Personen Dinge sagen oder tun, die sie nie gesagt oder getan haben. Technisch kommen oft Autoencoder oder Diffusionsmodelle zum Einsatz, die das Quellgesicht extrahieren und auf den Zielkörper projizieren, inklusive Anpassung von Mimik und Beleuchtung. Auch mit Stable-Diffusion-Technik lassen sich FaceSwaps durchführen, etwa indem man ein bestehendes Foto mittels Inpainting teilweise neu generiert (Maske auf Gesicht und Prompt „Foto von [Person B]“).
Risiken: FaceSwaps sind nicht nur Spielerei mit Face-App-Filtern, sondern bergen erhebliche Missbrauchsgefahren. Täuschend echte Deepfake-Videos können zur Verbreitung von Desinformationen (Fake News) genutzt werden oder Personen in kompromittierenden Situationen zeigen (Stichwort Deepfake-Pornografie). Für die betroffenen Personen besteht Risiko von Rufschädigung oder Verletzung der Privatsphäre. Unternehmen könnten durch gefälschte Videos von Führungskräften Opfer von Social-Engineering oder Betrug (z.B. manipulierte Anweisungen per Video) werden. Auch scheinbar harmlose Bild-Deepfakes (z.B. ein Produktfoto mit einer künstlich hinzugefügten Person) gelten als täuschend echt und fallen ab 2026 unter neue Kennzeichnungspflichten. Kurz: Wo die Echtheit von Bildmaterial erwartet wird, stellen ungekennzeichnete Deepfakes ein großes Vertrauensrisiko dar.
Technischer Ablauf: Um einen FaceSwap zu erstellen, benötigt man i.d.R. ausreichend Bildmaterial der Quell- und Zielperson. Ein gängiger Ansatz ist, ein Gesichtsautoencoder auf die Zielperson zu trainieren: Dieser lernt, Gesichtsbilder zu codieren und dekodieren. Beim Swap wird das Gesicht der Quellperson ins Latentformat codiert und durch den Decoder des Zielgesichts wieder ausgegeben – so „trägt“ die Quellperson das Gesicht der Zielperson. Moderne Diffusionsmodelle können auch direkt angewandt werden: Man gibt ein Foto vor und nutzt gezielte Prompts oder Kontrollmechanismen, um das Gesicht auszutauschen. In Videos müssen diese Techniken für jedes Frame angewandt und das Ergebnis stabilisiert werden (damit das Gesicht nicht zwischen Frames springt).
Rechtlicher Kontext: Die Verwendung realer Personen in KI-Bildern ohne Einwilligung ist in vielen Ländern unzulässig. In Deutschland greift das Recht am eigenen Bild (§22 KUG): Bildnisse dürfen grundsätzlich nur mit Einwilligung der abgebildeten Person verbreitet werden. Wer also z.B. das Foto eines Mitarbeiters in einen KI-Generator einspeist oder sein Gesicht per KI in einem Video verwendet, braucht eine Rechtsgrundlage (meist eine ausdrückliche Einwilligung). Auch das allgemeine Persönlichkeitsrecht und ggf. strafrechtliche Tatbestände (Verleumdung, Beleidigung) sind tangiert, wenn Deepfakes rufschädigend eingesetzt werden. Ab August 2026 verlangt die geplante EU-KI-Verordnung zudem eine Klare Kennzeichnung von KI-generierten Bildern/Videos, die echte Personen oder Szenen vortäuschen. Das heißt, wer Deepfakes erstellt, muss eindeutig kenntlich machen, dass es sich um künstlich erzeugte oder manipulierte Inhalte handelt. In der Unternehmenspraxis sollte es klare Richtlinien geben: Etwa ein Verbot, KI-generierte Realpersonenbilder in der externen Kommunikation ohne Hinweis zu nutzen (um Publikum nicht in die Irre zu führen). Insgesamt gilt: FaceSwap- und Identitätsgenerierung gehören zu den sensibelsten KI-Anwendungen – Zurückhaltung, Transparenz und Einwilligungen sind hier unabdingbar, um rechtliche und ethische Fallstricke zu vermeiden.
KI-generierte Identitäten: Neben dem Austausch realer Gesichter können KI-Modelle auch völlig neue Gesichter erschaffen, die keinem echten Menschen gehören. Solche virtuellen Identitäten („Personen, die es gar nicht gibt“) werden z.B. von Diensten wie ThisPersonDoesNotExist als fotorealistische Porträts generiert. Unternehmen können damit theoretisch Werbebilder erstellen, ohne Models engagieren zu müssen – die dargestellte Person ist ja fiktiv. Das reduziert Aufwand bei Modelrechten, wirft aber andere Fragen auf: Muss klar sein, dass die „Person“ auf dem Foto nicht real ist? In der Werbung könnte eine komplett synthetische Person Authentizität vermissen lassen, wenn es auffällt. Andererseits bieten synthetische Gesichter Datenschutzvorteile (keine echte Person wird exponiert) und es gibt bereits Stock-Foto-Anbieter, die KI-Models verkaufen. Identitätsprüfung: Im Kontext von Sicherheit kommen KI-generierte Gesichter teils als Test für Face-Recognition-Systeme zum Einsatz – oder negativ formuliert: als potentielle Angriffsvektoren (eine KI könnte z.B. ein Bild erzeugen, das den Gesichts-Scan eines Authentifizierungssystems täuscht). Solche Anwendungen liegen jedoch außerhalb des üblichen Unternehmens-Marketings. Wichtig ist: Auch wenn KI-Gesichter „niemandem gehören“, müssen Unternehmen verantwortlich handeln. Ein möglicher Guideline: KI-Personas in Kundenkommunikation nur verwenden, wenn es für den Zweck passt und keine Täuschungsgefahr besteht – und im Zweifel eher auf echte, aber einwilligende Menschen setzen.
Inpainting, Maskieren & verwandte Verfahren
Inpainting und Outpainting
Inpainting bezeichnet das gezielte Ausbessern oder Austauschen von Bildbereichen mittels KI. Der Nutzer maskiert einen Teil des Bildes (z.B. ein unerwünschtes Objekt oder einen Hintergrund), und das Modell generiert passend zu Umgebung und Prompt neue Inhalte in dieser Maskenregion. Außerhalb der Maske bleibt das Bild unverändert. Inpainting ist ideal, um Objekte zu entfernen oder zu ersetzen (z.B. ein störendes Schild in einer Landschaft wegretuschieren, oder einem Porträt nachträglich ein Lächeln verleihen).
Outpainting erweitert ein bestehendes Bild über seine ursprünglichen Grenzen hinaus. Die KI erhält das bekannte Bild als Kontext und generiert an den Rändern nahtlos weiter. So kann man z.B. aus einem Porträt im Hochformat ein Landschaftsbild machen oder bei Gemälden den „Rahmen“ erweitern.
Einsatz und Vorteile: Beide Techniken erlauben feinkörnige Bildmanipulation. Inpainting bietet eine intelligente Fotoshop-Funktion: anstatt mühsam zu retuschieren, beschreibt man per Prompt, was in der markierten Stelle erscheinen soll (z.B. „ersetze diese Person durch einen Baum“). Die KI füllt die Lücke meist verblüffend stimmig. Outpainting wiederum ermöglicht kreative Panorama-Effekte oder die Anpassung an andere Seitenverhältnisse, was im Design nützlich sein kann.
Nachteile: Die Ergebnisse hängen vom Kontext ab – die KI versucht, zum restlichen Bild zu passen, was mal besser, mal schlechter gelingt. Mehrfaches Probieren mit verschiedenen Prompts oder Seeds ist üblich. Zudem erfordert Inpainting/Outpainting ein präzises Maskieren: unerfahrene Nutzer müssen etwas üben, welche Bereiche abzudecken sind, um optimale Resultate zu erzielen.
Maskieren & Freistellen
Maskieren bedeutet allgemein, bestimmte Bildteile auszuwählen (zu maskieren), um sie getrennt bearbeiten zu können – sei es durch KI-Generierung (Inpainting, siehe oben) oder klassische Bildbearbeitung. Bei KI-Workflows ist Maskieren ein zentrales Werkzeug: Der Nutzer definiert, wo die KI aktiv werden soll und wo nicht. Das erhöht die Kontrolle erheblich (z.B. nur den Hintergrund austauschen, während das Hauptobjekt unverändert bleibt). Viele Tools bieten komfortable Maskierungsfunktionen, teils auch automatisiert (Erkennung von Personen, Objekten etc.).
Freistellen ist ein Spezialfall des Maskierens: Das Hauptmotiv wird vom Hintergrund isoliert, meist um es vor transparentem Hintergrund oder in einer neuen Szene zu verwenden. KI kann das Freistellen automatisieren, indem sie Personen oder Objekte erkennt und pixelgenau vom Hintergrund trennt. Dienste wie remove.bg oder Photoshop (mit KI-Unterstützung) können z.B. Porträts in Sekunden freistellen.
Nutzen und Grenzen: Maskieren & Freistellen sind oft vorbereitende Schritte, um dann mit KI weiterzumachen (z.B. freigestelltes Produkt vor AI-generierten Szenenhintergrund setzen). Sie reduzieren das Risiko, dass die KI unbeabsichtigt Teile verändert, die so bleiben sollen. Allerdings ist die Maskenerstellung manchmal aufwendig oder fehleranfällig – eine ungenaue Maske führt zu sichtbaren Artefakten an den Rändern. Dennoch sparen KI-gestützte Maskiermethoden viel Zeit gegenüber rein manueller Auswahl.
Super-Resolution (KI-Hochskalierung)
Super-Resolution-Techniken steigern die Auflösung und Detailschärfe eines Bildes mittels KI. Anstatt ein Bild klassisch zu interpolieren (was zu Unschärfe führt), lernen Super-Resolution-Modelle, wie hochaufgelöste Details aussehen sollten und fügen diese plausibel ein. Bei KI-Bildgeneratoren wird Super-Resolution oft als nachgelagerter Schritt eingesetzt: Erst wird ein Bild z.B. in 512×512 px generiert, dann durch einen Upscaler auf z.B. 2048×2048 px hochgerechnet. Tools wie ESRGAN oder neuere Diffusions-basierte Upscaler fügen dabei feine Texturen (Hautporen, Fell, Schriftzüge etc.) hinzu, die im Originalpixelbrei fehlten.
Vorteile: So lassen sich KI-Bilder druckfähig machen oder an höher auflösende Anforderungen anpassen. Selbst ältere Fotos oder kleine Webbilder können per KI erstaunlich detailreich vergrößert werden. Adobe Photoshop bietet etwa eine „Super-Auflösung“ Funktion, die auf maschinellem Lernen basiert. Für Unternehmen bedeutet das, aus einem generierten Entwurf in Web-Auflösung schnell ein Großflächenplakat gewinnen zu können – die KI erfindet Details, die dem Auge dennoch stimmig erscheinen.
Nachteile: Die hinzugefügten Details sind halluziniert – sie entsprechen nicht dem echten verlorenen Detail des Originals. Für künstlerische oder viele praktische Zwecke ist das egal, aber z.B. in forensischen Anwendungen dürfte ein KI-vergrößertes Bild nicht als Beweismittel taugen. Zudem können Upscaler manchmal auch Fehler „vergrößern“ (etwa verzerrte KI-Details werden zu deutlich sichtbaren, unnatürlichen Mustern). Eine manuelle Qualitätskontrolle der upgescalten Bilder ist daher ratsam.
Prompt-Editing (Prompt-Optimierung)
Unter Prompt-Editing versteht man das gezielte Verändern oder Verfeinern des Texteingabe-Befehls (Prompts), um Einfluss auf das Ergebnis zu nehmen. Da Generative-KI-Ergebnisse stark vom Wortlaut des Prompts abhängen, ist das iterative Anpassen des Prompts der Schlüssel zu besseren Resultaten. In der Praxis bedeutet das: Man startet mit einem groben Prompt, schaut sich das generierte Bild an und justiert die Beschreibung anschließend. Beispiel: Der Prompt „eine Person am Strand“ liefert vielleicht ein generisches Bild; ergänzt man „bei Sonnenuntergang, Fotorealismus, 4K-Detail“ erhält man ein stimmungsvolleres, detailreicheres Bild. Diese iterative Prompt-Optimierung ist essenziell, weil man selten auf Anhieb genau das Wunschbild bekommt. Auch sogenannte Negative Prompts gehören dazu – also Begriffe, die man explizit ausschließt (z.B. „ohne Text, ohne Verzerrungen“), um Fehler zu minimieren. Fortgeschrittene Tools erlauben sogar, den Prompt während des Bildgenerierungsprozesses in bestimmten Schritten zu ändern, um Details nachträglich einzufügen oder zu entfernen. Ein Forschungsansatz namens Prompt-to-Prompt ermöglicht es etwa, Teile eines bereits erzeugten Bildes durch nachträgliche Promptänderung neu zu rendern, während der Rest fixiert bleibt. In der Praxis nutzen die meisten Anwender Prompt-Editing aber eher simpel: in kleinen Schritten am Wortlaut drehen, ggf. Synonyme probieren, bis das Bild passt. Wichtig ist dabei, immer nur wenige Änderungen auf einmal vorzunehmen, um nachvollziehen zu können, welche Wortwahl welche Wirkung hatte. Prompt-Engineering ist mehr Kunst als Wissenschaft – aber mit systematischem Prompt-Editing lässt sich die KI quasi steuern, ohne direkt in den Modellprozess eingreifen zu müssen.
Cloud vs. lokale Generierung
Cloud-Dienste für KI-Bildgenerierung (z.B. Adobe Firefly, Midjourney, DALL·E) unterscheiden sich grundlegend von lokalen Lösungen (z.B. Stable Diffusion auf eigener Hardware mit ComfyUI oder Automatic1111). Die folgende Tabelle fasst die wichtigsten Unterschiede aus Unternehmenssicht zusammen:
|
Aspekt |
Cloud-Service <br>(z.B. Midjourney, DALL·E, Firefly) |
Lokaler Betrieb <br>(z.B. Stable Diffusion mit ComfyUI/Auto1111) |
|
Inbetriebnahme |
Sofort nutzbar über Web/Cloud – keine eigene Hardware nötig |
Erfordert eigene Hardware (leistungsfähige GPU-Server oder Workstations) und Setup |
|
Leistung |
Sehr schnelle Generation dank Hochleistungs-Servern des Anbieters |
Abhängig von verfügbarer GPU-Leistung; bei starker GPU vergleichbar schnell, sonst langsamer |
|
Datenschutz |
Prompts und Bilder werden extern verarbeitet – Vertraulichkeit unsicher |
Daten verbleiben im Unternehmen – keine Herausgabe sensibler Informationen |
|
Reproduzierbarkeit |
Ergebnisse schwer exakt reproduzierbar (Modell-Updates, unbekannte Seeds) |
Volle Kontrolle über Modelle/Versionen; Seeds erlauben identische Wiederholung |
|
Anpassbarkeit |
Modell- und Funktionsumfang vorgegeben (One-size-fits-all) – keine eigenen LoRAs/Fine-Tunes möglich |
Modelle frei wählbar/wechselbar; eigene LoRAs, ControlNets, Fine-Tuning nach Bedarf einbindbar |
|
Abhängigkeit |
Volle Abhängigkeit vom Anbieter: Preis, AGB, Verfügbarkeit werden diktiert |
Unabhängig von Dritten: Betrieb in eigener Hoheit; allerdings Eigenverantwortung für Wartung |
|
Integration |
Limitierte Integrationsmöglichkeiten – meist nur Web-UI oder API, isoliert vom internen Workflow |
Kann in bestehende Prozesse/Software integriert werden (z.B. automatisierte Pipeline, DAM-System) |
|
Kosten |
Laufende Kosten pro Nutzung oder Abo; kein Kapitaleinsatz für Hardware |
Einmalige Investition in Hardware; dann im Wesentlichen Strom/Abschreibung – rentabel bei Vielnutzung |
Beispiele Cloud-Services: Midjourney erzeugt besonders ästhetische, künstlerische Bilder und ist für seinen cineastischen Stil bekannt. Die Nutzung erfolgt über eine Discord-Chat-Oberfläche; Individualisierung (eigene Modelle) ist nicht möglich, man ist auf die stilistischen Vorgaben angewiesen. DALL·E 3 von OpenAI glänzt durch tiefe Sprachverarbeitung – es erweitert einfache Benutzereingaben mittels GPT-4 automatisch zu detaillierten Prompts und kann als eines der wenigen Modelle auch lesbaren Text im Bild erzeugen. Dafür hat man weniger direkten Einfluss auf jedes Detail, da viel automatisch interpretiert wird. Adobe Firefly wiederum punktet bei Unternehmen durch seine Ursprungsdaten: Es wurde ausschließlich mit Adobe Stock, frei lizenzierten und gemeinfreien Bildern trainiert, wodurch alle generierten Inhalte bedenkenlos kommerziell nutzbar sind. Firefly ist in Adobe-Tools wie Photoshop/Illustrator integriert und filtert „problematische“ Inhalte strikt heraus (kein politisch brisanter oder anstößiger Output). Neben diesen gibt es diverse spezialisierte Dienste – z.B. Stable Diffusion als Cloud via DreamStudio oder Angebote auf Marktplätzen. Ihnen allen ist gemein, dass kein eigenes KI-Know-how nötig ist und die Ergebnisse schnell vorliegen. Einschränkungen zeigen sich erst, wenn speziellerer Bedarf besteht (eigene Trainings, strenge Datenschutzvorgaben, Integration ins Intranet etc.).
Beispiele lokale Lösungen: Das Open-Source-Modell Stable Diffusion (seit 2022 verfügbar) hat eine ganze Ökosystem-Lawine losgetreten. Lokale Installationen setzen meist darauf auf – entweder die Standardmodelle (1.5, 2.1, SDXL) oder angepasste Varianten. Als Benutzeroberfläche hat sich Automatic1111 WebUI etabliert, die eine Webbrowser-gesteuerte Oberfläche mit unzähligen Plugins bietet. Für Profis bietet ComfyUI ein Baukasten-System, in dem man den Bildentstehungsprozess als Graph aus Modulen zusammenklickt (ideal für komplexe Pipelines und Automatisierung). Der lokale Weg verlangt initial etwas mehr Aufwand: Installation von Python, Modellen (~4GB Downloads) und Grafikkarten-Treibern. Doch inzwischen sind viele Schritt-für-Schritt-Anleitungen verfügbar, und die Community macht es Einsteigern leicht. Der Lohn ist volle Datenhoheit und Flexibilität. So können Unternehmen z.B. vertrauliche Produktbilder ins Modell einfließen lassen, ohne dass diese jemals das Firmennetz verlassen. Auch sind der Kreativität kaum Grenzen gesetzt: Beliebige Inhalte können generiert werden, da man nicht an die Nutzungsbedingungen Dritter gebunden ist – natürlich im Rahmen dessen, was rechtlich intern erlaubt ist. Die Qualität der lokal erzeugten Bilder erreicht inzwischen teils das Niveau der besten Cloud-Modelle. Ein Beispiel ist das deutsche Modell FLUX von 2024, das speziell für Hände und komplexe Details entwickelt wurde und auf Augenhöhe mit Midjourney & Co. agiert. Lokale Generierung ist somit keine Spielerei mehr, sondern kann strategisch eine sinnvolle Alternative sein, wenn Kontrolle, Integration und Compliance im Vordergrund stehen.
Lokale Bildmaschine – Konzept, Bausteine, Zielsetzung
Statt wild drauflos einzelne Bilder per KI zu zaubern, setzen fortgeschrittene Anwender auf eine Bild-Maschine: Ein ganzheitliches System aus Hardware, Software und Prozessregeln, das KI-Bildgenerierung in einen standardisierten Produktionsablauf überführt. Während ein einfacher Bildgenerator eine Black Box ist, die auf Knopfdruck ein Bild ausspuckt, gleicht die Bild-Maschine einer Fertigungsstraße mit Fließband: Es gibt klar definierte Schritte, Qualitätssicherungen und Abnahmepunkte, bevor ein Bild als fertiges Asset das Band verlässt. Ziel ist es, wiederholbar und kontrolliert Bilder in Serie zu produzieren, anstatt Einzelglückstreffer zu landen.
Technische Bausteine: Typischerweise umfasst eine Bild-Maschine: – Hardware: Mindestens einen leistungsfähigen Rechner mit GPU(s), auf dem die KI-Modelle laufen (alternativ eine private Cloud-Instanz). – Modelle: Die KI-Bildmodelle selbst (z.B. Stable-Diffusion-Checkpoints wie SDXL, oder spezialisierte Modelle wie FLUX). Oft sind mehrere Modelle im Einsatz für unterschiedliche Aufgaben (Realismus, Kunststil, verschiedene Auflösungen). – Orchestrierungs-Software: Ein zentrales Tool wie ComfyUI dient als Workflow-Engine. Hier werden die Schritte der Bildgenerierung als visuelles Diagramm (Nodes für Modell laden, Bild generieren, upscalen etc.) zusammengestellt. Alternativ kann eine Skript- oder Pipeline-Lösung diese Orchestrierung übernehmen. – Workflow-Vorlagen: Vordefinierte Abläufe für gängige Anwendungsfälle. Beispielsweise ein Workflow „Produktfoto generieren“: lädt automatisch das richtige Modell, wendet Standard-Prompts an (für Firmenstil), generiert Variationen, führt einen Upscale durch und legt Ergebnisse im richtigen Ordner ab. Diese Workflows können versioniert und teamweit geteilt werden. – Datenhaltung & Schnittstellen: Anbindung an Dateisysteme oder Datenbanken, um Eingabebilder, generierte Bilder und zugehörige Metadaten (Prompts, Seeds, verwendete Modelle) zu speichern. Idealerweise fließen die Ergebnisse direkt ins Asset Management des Unternehmens. APIs oder Integrationen (z.B. zu SharePoint, Teams-Benachrichtigungen) binden die Maschine in bestehende Prozesse ein. – Kontrollmechanismen: Eingebaute Qualitätschecks und Freigabeprozesse. Beispielsweise könnte nach Generierung automatisch geprüft werden, ob verbotene Inhalte vorliegen (Logos, reale Gesichter), oder ein Compliance-Mitarbeiter muss bestimmte KI-Bilder absegnen, bevor sie verwendet werden.
Zielsetzung & Nutzen: Eine gut implementierte Bild-Maschine liefert einen handfesten Mehrwert: – Skalierbarkeit: Ob ein Bild oder hundert – mit entsprechender Rechenpower lassen sich große Bildmengen in kurzer Zeit produzieren, ähnlich einer skalierbaren Fabrik. – Reproduzierbarkeit: Jeder Schritt ist dokumentiert. Gelungene Ergebnisse kann man dank festgehaltener Seeds und Workflows jederzeit exakt wiederholen. – Konsistenz: Anstelle von Zufallsoutput entsteht konsistent markenkonformes Bildmaterial. Vorgaben zu Bildstil, Auflösung, Farbprofil etc. sind im Prozess verankert, sodass die Ergebnisse einen einheitlichen Look & Feel haben. – Zusammenarbeit: Teams können an gemeinsamen Workflows arbeiten; das Wissen steckt nicht mehr nur „im Kopf eines Prompt-Flüsterers“. Workflows und Einstellungen sind transparent und teilbar. – Integration: Die Bild-Maschine lässt sich in bestehende Systeme integrieren, sodass z.B. Bilder direkt ins Medien-Asset-Management wandern oder per API abgerufen werden können. KI-Bilder entstehen nicht mehr isoliert, sondern nahtlos im Unternehmenskontext. – Compliance by Design: Regeln und Protokolle sind eingebaut (Seeds und Prompts werden geloggt, freigegebene Modelle sind voreingestellt, keine persönlichen Daten gelangen ungeprüft hinein etc.). Das System erzwingt quasi die Einhaltung der Leitplanken, was Skalierung erst ermöglicht.
Kurz gesagt, die lokale Bild-Maschine verwandelt KI-Kreativität in einen kontrollierten, effizienten Prozess. Sie nimmt den Teams Routinearbeit ab (z.B. 100 Varianten generieren) und lässt ihnen mehr Zeit fürs Finetuning der Ideen. So wird KI vom experimentellen Tool zur verlässlichen Produktionsinfrastruktur für visuelle Inhalte.
Compliance & Governance
Die Einführung von KI-Bildgenerierung im Unternehmen erfordert klare Leitplanken, um rechtliche Risiken zu vermeiden und verantwortungsvoll zu handeln. Wichtige Handlungsfelder sind:
Datenklassifizierung & Datenschutz (DSGVO)
KI-Bildgeneratoren lernen aus Daten – und sie verarbeiten eventuell personenbezogene oder vertrauliche Informationen, die man ihnen gibt. Es muss daher eindeutig geregelt sein, welche Daten in Prompts oder Trainings verwendet werden dürfen. Faustregel: Keine persönlichen oder sensiblen Daten ungeprüft eingeben. Beispielsweise sollte niemand Bilder von Mitarbeitern oder Kunden durch die KI schicken, ohne Einwilligung oder Anonymisierung. Ebenso dürfen interne Geheimnisse (z.B. unveröffentlichte Produktdesigns) nicht über einen öffentlichen Cloud-Dienst generiert werden, da man nicht weiß, was der Anbieter damit macht (Stichwort Schrems II bei US-Services). Eine Datenklassifizierung kann helfen: “Grüne” Daten (unbedenklich, dürfen in KI-Prompts), “Gelbe” Daten (nur intern auf eigener Instanz) und “Rote” Daten (nie in eine KI). Datenminimierung ist geboten: Nur so viel Input wie nötig, kein Oversharing im Prompt. Zudem verlangen DSGVO und kommende KI-Regeln Transparenz: Wenn KI-Bilder in Kontexten genutzt werden, wo es relevant ist (z.B. in der Öffentlichkeitsarbeit, in Publikationen), sollte gekennzeichnet werden, dass es sich um AI-generiert handelt. Ab 2026 wird dies in vielen Fällen sogar Pflicht (siehe Kennzeichnungspflicht für Deepfakes in der EU KI-Verordnung).
Urheberrechte & Modell-Lizenzen
Rechtlich tricky: Wem gehört ein KI-generiertes Bild? In vielen Ländern (USA, etc.) gilt: Solche Bilder sind mangels menschlichem Schöpfer nicht urheberrechtlich geschützt. In Europa ist die Lage noch ungeklärt, aber es deutet sich an, dass rein KI-erzeugte Werke ebenfalls keinen klassischen Urheber haben. Für die Praxis heißt das: Ein Unternehmen kann KI-Bilder frei nutzen, hat aber auch keine Exklusivrechte daran. Theoretisch könnte jemand anderes mit dem gleichen Prompt/Seed ein identisches Bild erzeugen. Um ggf. doch Rechte abzuleiten, wird diskutiert, ob ein menschlicher Beitrag (z.B. Nachbearbeitung oder spezifische kreative Prompt-Leistung) einen Miturheberanteil begründen kann. Hier sollte die Rechtsabteilung eine Policy vorgeben, wie KI-Werke behandelt werden (z.B. interner Hinweis „KI-Bild – gemeinfrei, keine Urheberrechte“). Lizenzfragen betreffen auch die KI-Modelle selbst: Nicht jedes Modell darf für jeden Zweck eingesetzt werden. Einige Community-Modelle stehen unter Non-Commercial-Lizenz – nutzt man sie trotzdem kommerziell, verletzt man die Lizenz. Governance muss sicherstellen, dass in der unternehmenseigenen Bild-Maschine nur freigegebene Modelle verwendet werden. Bestenfalls führt man eine Positivliste („diese Modelle/Versionen sind genehmigt“) und pflegt sie aktuell. Bei Open-Source-Modellen wie Stable Diffusion ist die Lizenz meist liberal (Creative ML OpenRAIL-M), während z.B. das erwähnte FLUX Dev nur privat genutzt werden darf. Fazit: Urheberrechtlich bieten KI-Bilder Chancen (freie Nutzbarkeit), aber auch Unsicherheiten. Und die Nutzung der KI-Tools selbst erfordert Lizenz-Compliance.
Marken, Persönlichkeitsrechte & ungewollte Inhalte
KI-Modelle wurden mit Milliarden Bildern trainiert – darunter befinden sich auch Firmenlogos, geschützte Charaktere und ähnliche Elemente. Zwar spuckt die KI selten ein exaktes Logo aus, doch Zufallstreffer kommen vor (z.B. generiert man „Mann trinkt Limonade“ und auf der Flasche erscheint verschwommen ein Coca-Cola-Schriftzug). Solche Fälle sind heikel: Markenlogos und fiktive Figuren unterliegen rechtlichem Schutz. Daher sollte jeder KI-Output vor Verwendung geprüft werden: Finden sich irgendwo Marken, reale Namen, identifizierbare Personen oder urheberrechtlich problematische Elemente? Falls ja, Bild verwerfen oder nachbearbeiten. Diese Prüfung gehört als fester Schritt in die Freigabe-Checkliste. Gleiches gilt für anstößige oder diskriminierende Inhalte: Jedes Unternehmen hat kommunikative Leitplanken (kein Sexismus, keine Extremismen etc.). Die KI ist zwar unbefangen, könnte aber z.B. aufgrund von Training Bias unerwünschte Stereotype zeigen. Interne Richtlinie: Bestimmte Themen gar nicht generieren lassen (z.B. keine politischen Statements) und Output zumindest stichprobenartig auf Ethik-Verstöße prüfen. Bei besonders sensiblen Anwendungen (etwa fotorealistische News-Bilder) sollte vorab eine ethische Freigabe erfolgen, da hier Deepfake-Gefahr besteht.
Transparenz & Kennzeichnung
Sowohl aus rechtlichen Gründen (kommende Vorschriften) als auch für die öffentliche Wahrnehmung ist Transparenz zentral. Wenn KI-generierte Medien in der Werbung, auf Websites oder in Social Media eingesetzt werden, lohnt es sich zu überlegen: Muss/sollte ich kenntlich machen, dass dies ein KI-Bild ist? In manchen Kontexten mag das Publikum es erwarten (Authentizität bei „echten“ Fotos vs. augenzwinkernde KI-Kunst). Ab August 2026 wird es teils Pflicht: KI-Bilder, die realistische Szenen oder Personen zeigen (Deepfakes), müssen laut EU-Verordnung eindeutig als künstlich markiert werden. Für weniger kritische KI-Inhalte (z.B. Illustrationen) ist zwar keine Kennzeichnung vorgeschrieben, aber Transparenz schafft Vertrauen. Intern sollte ohnehin stets dokumentiert sein, welche Assets KI-generiert sind. Zum einen um oben genannte Urheber-/Lizenzthemen im Blick zu haben, zum anderen um im Nachhinein Auskunft geben zu können. Beispiel: Presse fragt „Ist das Foto echt oder KI?“ – dann sollte das Unternehmen die Antwort parat haben.
Schulung, Zuständigkeit & Audit
Technologie allein genügt nicht – Mitarbeiter müssen geschult werden, KI-Generatoren richtig einzusetzen. Dazu zählt Awareness für all die genannten Punkte: Was darf ich eingeben? Welche Bilder darf ich verwenden? Wo liegen die rechtlichen Grenzen? Am besten erstellt man einen leicht verständlichen Leitfaden oder Policy (ähnlich einer Social-Media-Guideline) für KI-Nutzung im Unternehmen. Weiterhin sollte klar festgelegt sein, wer die Verantwortung trägt: z.B. ein KI-Governance-Board oder ein Verantwortlicher in der Fachabteilung, der Freigaben erteilt und Fragen klärt. Auditierbarkeit ist schließlich der Schlüssel zur Governance: Alle relevanten Aktionen sollen protokolliert sein. Dazu gehört, Prompts, Seeds, verwendete Modelle und erzeugte Bilder zu loggen – so kann im Zweifelsfall nachvollzogen werden, wie ein bestimmtes Bild entstanden ist. Regelmäßige Überprüfungen (z.B. vierteljährlicher Compliance-Review der KI-Nutzung) helfen, Fehlentwicklungen früh zu erkennen. Findet man im Log etwa Versuche, verbotene Inhalte zu generieren (z.B. jemand hat doch heimlich eine reale Person im Prompt verwendet), kann man einschreiten und nachschulen. Insgesamt gilt: Mit klaren Regeln, transparenter Kennzeichnung und aktivem Monitoring wird KI-Bildgenerierung vom Risiko zum kalkulierbaren Vorteil.
Beratungsleistungen von Ulrich B. Boddenberg IT-Consultancy
Als unabhängiger Berater begleite ich Ihr Unternehmen dabei, KI-Bildgenerierung sicher und effektiv einzuführen – persönlich und ohne fremde Teams. Mein Ansatz ist pragmatisch und auf Ihre Bedürfnisse zugeschnitten. Aus Erfahrung weiß ich, dass es nicht damit getan ist, irgendwo ein Modell laufen zu lassen. Entscheidend ist, aus dem anfänglichen „Mal eben ein Bild generieren“ einen sauberen, wiederholbaren Produktionsprozess zu formen. Genau dabei unterstütze ich Sie.
Was ich konkret biete: Zunächst verschaffe ich mir mit Ihnen zusammen einen Überblick über Ihre Ziele und den Status quo. Dann helfe ich, passende Tools und Modelle auszuwählen – sei es eine Cloud-Lösung oder eine lokale Installation. Wichtig ist mir, dass die Lösung praxistauglich ist und nicht nur in der Demo glänzt. Ich konzipiere mit Ihnen Workflows, definiere Qualitätsstandards und erstelle Prompt-Vorlagen, damit Ihre KI-Bilder wirklich markenkonform ausfallen. Auch die Integration in bestehende Prozesse (z.B. Bildfreigabe, Ablage) plane ich von Anfang an mit ein. Ein Schwerpunkt meiner Beratung ist das Thema Compliance: Von Fragen der Bildrechte und Lizenzen bis zur nachvollziehbaren Dokumentation – ich sorge dafür, dass am Ende keiner „Schnappatmung“ bekommt, weil etwas übersehen wurde.
Aufbau einer lokalen Bild-Maschine: Falls Sie sich für eine In-house-Lösung entscheiden, kann ich den kompletten Aufbau einer unternehmensinternen Bild-Maschine begleiten – von Hardware-Empfehlung über Installation von ComfyUI/Automatic1111 bis hin zur Feinjustierung der Modelle für Ihren Anwendungsfall. Dabei arbeite ich eng mit Ihrem Team zusammen und gebe mein Know-how weiter, sodass Sie schnell selbstständig werden. Sie erhalten am Ende kein Black-Box-System, sondern verstehen die Abläufe. Gerade das Zusammenspiel von Technik und Prozess-Know-how ist meine Stärke: Ich komme nicht nur als Technik-Nerd, sondern mit dem Blick für praktikable Lösungen im Unternehmensalltag.
Warum mit mir: Sie sprechen direkt mit mir als erfahrenem Berater und Autor in diesem Fachgebiet, nicht mit einem anonymen Beraterteam. Ich lege Wert darauf, unabhängig zu beraten – ich verkaufe keine Fremdsoftware und habe kein Interesse daran, Ihnen mehr aufzuschwatzen als nötig. Mir geht es darum, dass Sie am Ende sicher und produktiv mit KI-Bildgeneratoren arbeiten können. Ob Sie Fragen zur Rechtslage haben, einen Fahrplan für die Einführung benötigen oder gleich eine schlüsselfertige Bild-Maschine aufbauen wollen – ich stehe Ihnen mit Rat und Tat zur Seite. Lassen Sie uns gemeinsam die kreativen Möglichkeiten der KI erschließen, ohne die Bodenhaftung zu verlieren. Ich freue mich darauf, Sie dabei zu unterstützen!
FAQ (Häufige Fragen)
Frage: Was kostet die Implementierung von KI-Bildgenerierung?
Antwort: Das hängt vom Weg ab. Cloud-Dienste kosten meist eine monatliche Gebühr oder Credits pro Bild, oft im zweistelligen Eurocent-Bereich pro Bild. Eine eigene Lösung erfordert einmalige Investitionen in Hardware (eine gute Grafikkarte ab ca. 1.000 € aufwärts) und etwas Zeit für Einrichtung. Dafür entfallen laufende Gebühren. Langfristig kann sich eine In-house-Lösung lohnen, wenn viele Bilder benötigt werden, während für gelegentliche Nutzung ein Cloud-Abo günstiger ist.
Frage: Braucht man eine teure Spezial-Hardware?
Antwort: Für erste Experimente nicht unbedingt – viele Cloud-Anbieter erlauben den Einstieg ohne eigene Hardware. Will man KI-Bildgenerierung lokal betreiben, ist jedoch eine leistungsfähige GPU nötig. Eine aktuelle NVIDIA-Grafikkarte mit 8–16 GB Videospeicher reicht für Standardmodelle (z.B. RTX 3080 oder RTX 4080). Für höhere Auflösungen oder schnellere Generierung sind entsprechend stärkere Karten oder mehrere GPUs sinnvoll. Viele Unternehmen nutzen vorhandene Workstations oder Server und rüsten diese mit einer geeigneten Grafikkarte aus.
Frage: Wie lange dauert es, bis ein KI-Bild fertig ist?
Antwort: Erstaunlich kurz – je nach Modell und Hardware oft nur wenige Sekunden. Cloud-Services generieren ein 512×512 Bild typischerweise in 5–15 Sekunden. Auf einer guten lokalen GPU dauert es ähnlich lang (10–20 Sekunden), bei älterer Hardware kann es auch 1–2 Minuten dauern. Größere Auflösungen oder viele Iterationen verlängern die Zeit. Insgesamt sind KI-Bilder aber um Größenordnungen schneller erzeugt als klassische Rendering- oder Designprozesse.
Frage: Kann die KI unsere Grafiker ersetzen?
Antwort: KI-Tools automatisieren bestimmte Routinearbeiten, aber sie ersetzen keine kreative menschliche Gestaltung. Vielmehr dienen sie als Assistenz: Grafiker können schneller Varianten ausprobieren, Hintergründe generieren oder Ideen visualisieren. Der Mensch bleibt wichtig, um Konzept, Feinabstimmung und vor allem die Qualität/Kreativität zu steuern. In vielen Unternehmen arbeiten Designer und KI zusammen – die KI liefert den Rohentwurf, der Designer veredelt ihn. Routineaufgaben (z.B. 100 Produktbilder in verschiedenen Farben erzeugen) kann die KI übernehmen, während Grafiker sich auf anspruchsvollere Projekte konzentrieren. Kurz: Die KI ist ein zusätzliches Werkzeug, kein Ersatz für menschliche Kreativität.
Frage: Woran erkennt man, ob ein Bild KI-generiert ist?
Antwort: Das wird zunehmend schwieriger. Manche KI-Bilder verraten sich durch kleine Fehler oder surreale Details (z.B. unklare Schriftzüge, unnatürliche Finger). Es gibt technische Detektoren, die versuchen, Muster im Rauschen zu erkennen – aber die sind nicht 100% zuverlässig. Einige KI-Anbieter fügen unsichtbare Marker hinzu. Zukünftig wird wohl eine Kennzeichnungspflicht kommen, sodass KI-Bilder explizit markiert werden müssen. Heute gilt: Im Zweifel kann meist nur der Ersteller sicher sagen, ob ein Bild KI-generiert ist. Unternehmen sollten daher intern festhalten, welche Bilder KI-Ursprung haben, um Auskunft geben zu können.
Frage: Darf man KI-Bilder frei verwenden, z.B. für Marketing?
Antwort: Grundsätzlich ja, aber mit Vorsicht. Zum einen muss man die Nutzungsbedingungen des jeweiligen Dienstes oder Modells beachten – die meisten erlauben kommerzielle Nutzung der generierten Bilder, einige Modell-Lizenzen aber nicht. Zum anderen dürfen KI-Bilder keine geschützten Inhalte enthalten (z.B. Firmenlogos, geschützte Figuren), sonst kann ihre Verwendung rechtliche Probleme bringen. Wenn das KI-Bild jedoch originär etwas Neues darstellt, kann man es meist wie ein Stock-Foto behandeln. Sicher ist: Das KI-Bild selbst genießt kein Urheberrecht, aber man sollte prüfen, ob durch die Verwendung Rechte Dritter tangiert werden. Im Zweifel lieber Rechtsberatung einholen oder das Bild anpassen.
Frage: Wem gehören die Rechte an einem KI-Bild?
Antwort: In den meisten Ländern gilt: Niemandem exklusiv, da kein menschlicher Urheber. Das Bild ist faktisch gemeinfrei. Wer es erstellt hat, darf es nutzen, aber hat kein Monopol darauf. Allerdings gewähren viele Plattformen dem Ersteller faktisch die Nutzungsrechte. Bei Midjourney z.B. gehören die erstellten Bilder dem User (unter gewissen Lizenzbedingungen). Trotzdem kann theoretisch jeder ein sehr ähnliches KI-Bild generieren. Unternehmen sollten daher bei wichtigen Motiven überlegen, ob sie durch Nachbearbeitung oder Kombination mit eigenem Material einen Schutz erreichen können (etwa Miturheberrecht durch kreative menschliche Beiträge).
Frage: Kann ich ein KI-generiertes Bild als eigenes Werk ausgeben?
Antwort: Rein rechtlich ist das schwierig, weil das Bild kein Urheberrecht hat. Man kann es natürlich nutzen (und auch z.B. auf der Website ohne Nennung einer Quelle veröffentlichen). Aber wenn die Frage darauf abzielt “Kann ich sagen, ich habe dieses Bild gemacht?”, ist Vorsicht geboten. Ehrlichkeit und Transparenz sind besser – in PR-Materialien oder auf Nachfrage sollte man lieber offenlegen, dass KI beteiligt war, um kein falsches Bild (im doppelten Sinne) zu vermitteln. Im Geschäftsverkehr kommt es nicht gut an, wenn herauskommt, dass angeblich selbst erstellte Illustrationen aus der KI stammen, ohne Kennzeichnung.
Frage: Welche KI-Bildgenerator-Software ist die beste?
Antwort: Das hängt vom Anwendungsfall ab. Midjourney liefert aktuell oft die beeindruckendsten, künstlerisch wertvollen Bilder out-of-the-box – ideal für Stimmungsbilder, Artwork und wenn man nicht viel selbst einstellen will. DALL·E 3 (OpenAI) ist sehr gut integriert in ChatGPT und versteht komplexe Anweisungen, zudem kann es als eines der wenigen Modelle Text in Bildern korrekt darstellen – praktisch für z.B. Werbegrafiken mit Schrift. Stable Diffusion wiederum ist die flexibelste Lösung: Mit etwas Aufwand kann man es trainieren, tunen und lokal betreiben; es eignet sich, wenn man volle Kontrolle und Datenschutz möchte. Adobe Firefly ist top, wenn es um rechtlich unbedenkliche Assets geht, da Adobe das Training lizenziert hat – und es integriert sich nahtlos in Photoshop & Co. Kurz: “Die beste” gibt es nicht, aber es gibt einen passenden Kandidaten je nach Anforderungen (Qualität vs. Kontrolle vs. rechtliche Sicherheit etc.).
Frage: Gibt es Inhalte, die eine KI nicht generieren darf?
Antwort: Ja, praktisch alle öffentlichen KI-Dienste haben Nutzungsrichtlinien, die bestimmte Inhalte verbieten. Dazu zählen meist pornographische oder extrem gewalthaltige Darstellungen, Aufruf zu Hass, extreme politische Propaganda und natürlich alles Illegale (z.B. Anleitungen zu Straftaten, Missbrauch von Personenbildern etc.). Die Modelle selbst wurden auch darauf trainiert, bestimmte Begriffe zu blockieren. Auch das Generieren realer Personen (z.B. Prominente) ist oft untersagt. In einer internen, lokalen Lösung kann man technisch zwar alles generieren, sollte aber aus ethischen und rechtlichen Gründen ebenfalls solche Grenzen ziehen. Zudem: Nur weil die KI es könnte, heißt es nicht, dass man es darf – z.B. reale Kinder in heiklen Situationen zu zeigen, wäre absolut tabu.
Frage: Kann die KI auch Videos oder 3D-Inhalte erstellen?
Antwort: Es gibt erste Text-zu-Video-Modelle und auch Ansätze, 3D-Modelle mit KI zu generieren (sogenannte Generative 3D oder NeRFs). Aktuell (2025/2026) sind diese aber noch deutlich limitiert. KI-Videos dauern lange in der Erstellung, sind meist kurz und teils flackernd. 3D-Generierung steckt in den Kinderschuhen – man kann einfache Objekte aus Text erzeugen, aber komplexe, saubere 3D-Modelle sind noch selten. Für Spezialfälle gibt es Tools (z.B. Point-E von OpenAI für Punktwolken, oder NeRF-Techniken für 3D-Szenen aus vielen Bildern). Aber für den Alltagsgebrauch im Unternehmen spielt KI-generiertes Video/3D noch kaum eine Rolle. Das wird sich in den nächsten Jahren sicher verbessern.
Frage: Wie fangen wir an, KI-Bildgenerierung im Unternehmen zu nutzen?
Antwort: Am besten schrittweise. Zuerst sollte man intern Know-how aufbauen – etwa in einem Pilotprojekt ein kleines Team verschiedene Tools testen lassen (z.B. einmal Midjourney ausprobieren, einmal Stable Diffusion lokal installieren). Parallel sollten die Rahmenbedingungen geklärt werden (wer darf es nutzen, wofür, welche Daten dürfen rein, gibt es Freigabeschritte?). Dann kann man anhand eines konkreten Anwendungsfalls (z.B. Erstellung von Social-Media-Bildern) eine KI-Lösung implementieren. Dabei ruhig externen Rat einholen, wenn Unsicherheiten bestehen (Technik oder Recht). Wichtig ist, früh auch die kreativen und die Compliance-Verantwortlichen einzubeziehen, damit alle an einem Strang ziehen. Und dann: klein anfangen, Ergebnisse evaluieren, aus Fehlern lernen. So kann man die Nutzung nach und nach ausweiten.
Frage: Lernen die KI-Modelle aus den Bildern, die wir generieren?
Antwort: Bei den meisten aktuellen Systemen: nein, jedenfalls nicht unmittelbar. Die Modelle sind in sich abgeschlossen – wenn Sie einen Prompt eingeben und ein Bild erhalten, wird dieses Bild nicht automatisch ins Modell zurückgespeist. Allerdings könnten Anbieter Ihre Prompt-Daten und Bilder für zukünftige Trainings nutzen, sofern man dem nicht widerspricht (OpenAI etwa behält sich in der Standardeinstellung vor, Daten zur Verbesserung zu nutzen). Bei lokalen Installationen passiert nichts dergleichen, da bleibt alles intern. Wenn Sie also vertrauliche Motive generieren, sollten Sie entweder einen Opt-out nutzen (falls angeboten) oder gleich eine eigene Instanz betreiben, um sicherzugehen, dass daraus kein Fremdtraining erfolgt.
Frage: Was, wenn die KI etwas völlig Unpassendes generiert?
Antwort: Trotz aller Filter kann es vorkommen, dass ein KI-Bild unerwünschte Inhalte zeigt – z.B. Verzerrungen, Nacktheit, seltsame Artefakte. Wichtig ist, solche Fälle auszuwerten: Lag es am Prompt (etwas unglücklich formuliert)? Ist das Modell eventuell ungeeignet (manche Community-Modelle sind weniger “brav” als andere)? In einem Unternehmensprozess sollte so ein Bild natürlich nicht verwendet werden. Man wirft es weg und justiert die Parameter: eventuell einen Negativ-Prompt hinzufügen („ohne Nacktheit“, „ohne Text“), oder ein anderes Modell/anderen Prompt wählen. Wenn es um geschmackliche Fragen geht (z.B. das Bild ist stilistisch unpassend), hilft es, klare Vorgaben zu Stil und Tonalität zu definieren. Generell lernt man mit der Zeit, die KI gezielt zu steuern – und sollte immer eine Manuell-Kontrolle vor Veröffentlichung einplanen.
Glossar
- KI (Künstliche Intelligenz): Teilgebiet der Informatik, das sich mit der Nachbildung “intelligenten” Verhaltens durch Computer befasst. Unter KI fallen viele Methoden, u.a. maschinelles Lernen und Deep Learning.
- Maschinelles Lernen: Sammelbegriff für Verfahren, bei denen Computer aus Beispieldaten Muster lernen, anstatt explizit programmiert zu werden. Das System verbessert seine Leistung durch Erfahrung (Daten).
- Deep Learning (Tiefes Lernen): Eine Unterart des maschinellen Lernens, die neuronale Netzwerke mit vielen Schichten (“deep” = tief) nutzt. Deep-Learning-Modelle können sehr komplexe Zusammenhänge lernen (z.B. Bilder erkennen oder Sprache verstehen).
- Neuronales Netzwerk: Mathematisches Modell, inspiriert vom Gehirn, bestehend aus miteinander verbundenen “Neuronen” (Gewichtsfunktionen). Neuronale Netze sind das Grundgerüst der meisten KI-Systeme im Deep Learning.
- Generative KI: KI-Modelle, die eigenständig Inhalte erzeugen können (anstatt nur zu analysieren). Beispiele: Textgeneratoren wie GPT-4 oder Bildgeneratoren wie Stable Diffusion. Generative KI “denkt sich” neue Daten aus, basierend auf gelerntem Musterwissen.
- Diffusionsmodell: Ein generatives Modell, das schrittweise Rauschen in ein verwertbares Signal zurückverwandelt. Bei Bildern: Das Modell lernt, ein zufällig verrauschtes Bild in vielen Iterationen in ein klares Bild zu überführen (siehe Stable Diffusion).
- Latenter Raum: Ein mathematischer “Zwischenraum”, in dem komplexe Daten vereinfacht dargestellt werden. Diffusionsmodelle arbeiten oft im latenten Raum eines Bildes – d.h. nicht direkt auf den Pixeln, sondern auf einer komprimierten Repräsentation dieser Pixel.
- Prompt: Die Texteingabe, mit der ein KI-Generator gesteuert wird. Ein Prompt beschreibt das gewünschte Ergebnis möglichst präzise (“Ein grünes Auto im Cartoon-Stil vor einer Stadt bei Nacht”). Die KI interpretiert den Prompt und erzeugt entsprechend ein Bild.
- Negativer Prompt: Eine zusätzliche Texteingabe, die unerwünschte Aspekte beschreibt. Z.B. kann man eingeben: Negativer Prompt: “ohne Menschen, unscharfer Hintergrund”, um diese Elemente im generierten Bild zu vermeiden. Wird vor allem bei Stable Diffusion genutzt.
- Sampler: In Diffusionsmodellen der Algorithmus, der die schrittweise Bildgenerierung durchführt. Verschiedene Sampler (Euler, DDIM, DPM etc.) können unterschiedliche Bildcharakteristika und Geschwindigkeiten ergeben. Der Sampler beeinflusst, wie die KI das Bild entrauscht.
- Schritt (Step): Eine Iteration im Bildgenerierungsprozess. Ein Diffusionsmodell durchläuft z.B. 20 oder 50 Schritte, in denen es nach und nach das Rauschen reduziert. Mehr Schritte können feinere Details liefern, dauern aber länger.
- Seed: Die Start-Zufallszahl für die Generierung. Sie bestimmt das initiale Rauschmuster und damit wesentlich das Ergebnis. Bei gleichem Prompt und Einstellungen führt derselbe Seed immer wieder zum identischen Bild. Ein anderer Seed erzeugt Variation.
- CFG-Scale (Classifier-Free Guidance Scale): Ein Steuerungsparameter (oft 1–15) bei Stable Diffusion und ähnlichen Modellen. Er bestimmt, wie streng das Modell dem Prompt folgen soll. Niedrige Werte = mehr künstlerische Freiheit, hohe Werte = strengere Prompt-Treue (aber Risiko von Artefakten).
- CLIP (Contrastive Language-Image Pre-Training): Ein neuronales Netzwerk-Modell von OpenAI, das Text- und Bildinformationen in einen gemeinsamen Raum (Embeddings) bringt. Stable Diffusion nutzt CLIP (bzw. OpenCLIP) als Textencoder, um Prompts in Zahlenvektoren umzuwandeln.
- VAE (Variational Autoencoder): Ein Modell, das Daten in einen latenten Raum codiert und wieder decodiert. In Stable Diffusion dient der VAE dazu, Bilder in kompakte latente Codes zu verwandeln und am Ende des Diffusionsprozesses den Latent-Code zurück ins finale Bild zu decodieren.
- Stable Diffusion: Ein populäres Open-Source-Bildgenerierungsmodell (Diffusionsmodell), veröffentlicht 2022. Es kann aus Textbeschreibungen in wenigen Sekunden hochqualitative Bilder erzeugen. Stable Diffusion ist frei verfügbar und hat eine große Community, die zahlreiche Varianten und Add-ons entwickelt hat.
- Midjourney: Ein kommerzieller KI-Bildgenerator, bekannt für sehr ästhetische, malerische Bilder. Midjourney wird über eine Discord-Chat-Oberfläche bedient; man gibt Prompts als Chatnachricht ein und erhält Bilder. Das Modell ist Closed Source (nicht öffentlich einsehbar) und hat eigene stilistische “Vorlieben”.
- DALL·E: KI-Bildgenerator von OpenAI. Version 3 (aktuell) ist in ChatGPT integriert und besticht durch gutes Verständnis komplexer Prompts – es erweitert Eingaben automatisch. DALL·E kann als eines der wenigen Modelle Text in Bildern korrekt darstellen. Nutzung erfolgt über OpenAI-Plattform (API oder ChatGPT).
- Adobe Firefly: Adobes generative KI für Bilder (und andere Medien). Firefly wurde mit lizenziertem/Adobe-eigenem Material trainiert und ist daher für kommerzielle Nutzung unbedenklich. Es produziert Bilder in verschiedenen Stilen und ist in Adobe Creative Cloud Anwendungen (Photoshop, Illustrator) integriert. Starkes Augenmerk auf inhaltliche Kontrolle (keine verbotenen Motive).
- ControlNet: Ein Erweiterungsmodell für Diffusions-Bildgeneratoren wie Stable Diffusion. ControlNet ermöglicht die Konditionierung auf zusätzliche Inputs wie Linienzeichnungen, Posen oder Tiefenkarten. So kann man die grobe Struktur des zu generierenden Bildes vorgeben (z.B. Pose einer Person), während die KI die Details ausfüllt.
- LoRA (Low-Rank Adaptation): Ein Verfahren, um ein KI-Modell mit geringem Aufwand auf neue Muster zu trainieren. LoRA fügt dem Modell kleine Zusatzschichten hinzu, anstatt alle Gewichte zu ändern. Damit kann man z.B. Stable Diffusion neue Stile oder konkrete Personen beibringen, ohne das gesamte Modell neu zu trainieren. LoRA-Dateien sind klein und können bei Bedarf zugeladen werden.
- Fine-Tuning: Allgemein die Anpassung eines bereits vortrainierten Modells auf einen neuen Datensatz. Beim Fine-Tuning von Bild-KIs wird das Modell mit spezifischen Bildern nachtrainiert, um z.B. einen bestimmten Charakter oder einen unternehmensspezifischen Stil zu erlernen. Fine-Tuning erfordert mehr Rechenaufwand als LoRA und erzeugt oft einen neuen Modell-Checkpoint.
- DreamBooth: Ein spezielles Fine-Tuning-Verfahren von Google, um eine Bild-KI auf eine bestimmte Person oder ein Objekt zu trainieren. Mit ca. 20–30 Fotos einer Person kann man das Modell so anreichern, dass diese Person in verschiedenen Szenen generiert werden kann. DreamBooth wurde populär, um individuelle Avatare oder Produktfotos via Stable Diffusion zu erstellen.
- Embedding (Textuelle Inversion): Eine Technik, um einem Modell ein neues Konzept über einen speziellen “Token” beizubringen, ohne das ganze Modell zu verändern. Man trainiert einen Vektor (Embedding) für ein Kunstwort (z.B. “<FirmaX-Stil>”), der dann diesem Konzept entspricht. Wird dieser Token im Prompt verwendet, erzeugt das Modell Bilder im gelernten Stil oder mit dem neuen Objekt. Embeddings sind klein und lassen sich ähnlich wie LoRAs teilen.
- Inpainting: Das “Übermalen” oder Ausbessern von Bereichen in einem Bild mittels KI. Der Nutzer maskiert einen Bereich und beschreibt, was dort hinein soll, und die KI füllt die Lücke passend aus (z.B. entfernt ein Objekt und ersetzt es durch passendem Hintergrund).
- Outpainting: Die Erweiterung eines Bildes über seine ursprünglichen Grenzen hinaus. Die KI generiert zusätzliche Inhalte am Bildrand, die stilistisch und inhaltlich zum vorhandenen Teil passen. Bekanntes Beispiel: das Vergrößern von berühmten Gemälden über ihren Rand hinaus (was liegt wohl links und rechts außerhalb der Mona Lisa?).
- Freistellen: Entfernung des Hintergrunds um ein Motiv, sodass dieses isoliert (vor transparentem oder einfarbigem Hintergrund) vorliegt. KI-Modelle können beim Freistellen helfen, indem sie Objekte/Personen automatisch segmentieren. In Generierungskontext oft als Vorstufe, um ein Motiv dann in ein KI-generiertes Umfeld einzufügen.
- Super-Resolution: KI-gestütztes Hochskalieren von Bildern, um die Auflösung und Details zu erhöhen. Anders als simples Vergrößern fügt eine Super-Resolution-KI neue, plausibel erscheinende Details hinzu (z.B. schärfere Kanten, Texturen). Wird genutzt, um KI-Bilder in Druckauflösung zu bringen oder alte niedrigauflösende Bilder zu verbessern.
- GAN (Generative Adversarial Network): Eine ältere Klasse generativer Modelle (vor Diffusion populär), bei der zwei Netze im Wettbewerb stehen – ein Generator und ein Diskriminator. GANs haben beeindruckende Bilder erzeugt (z.B. StyleGAN-Portraits), sind aber schwieriger zu kontrollieren und zu trainieren als Diffusionsmodelle. Heute werden sie zunehmend von Diffusionsmethoden abgelöst.
- GPU (Graphics Processing Unit): Prozessor auf Grafikkarten, der hochgradig parallele Berechnungen durchführen kann. KI-Bildgenerierung erfordert GPUs, weil neuronale Netz-Operationen sich damit massiv beschleunigen lassen. Eine leistungsfähige GPU ist oft der entscheidende Faktor für schnelle KI-Inferenz (Bildgenerierung in Sekunden statt Minuten).