Inhaltsverzeichnis
- AI-Technologie in der Modebranche
- Die Testbasis
- AI-Tools: Bild und Video
- AI-Tools im Test: Welcher AI-Bildgenerator erstellt die besten PDP-Bilder für Mode?
- Vergleich von Nano Banana
- Bewertung
- Vergleich von Flux Kontext [PRO]
- Evaluation
- Vergleich von Seedream 4.0
- Evaluation
- Vergleich von ChatGPT
- Evaluation
- AI-Tools im Test: Ist es möglich, realitätsgetreue Videos für Modekampagnen zu erstellen?
- Vergleich von Seedance 1.0 Pro - Bewertung
- Vergleich von Veo3
- Vergleich von Veo3 - Bewertung
- Vergleich von Kling
- Vergleich von Kling - Bewertung
- Kostenschätzung
- Zusammenfassung
- FAQ
AI-Technologie in der Modebranche
Die Technologie hat das Tempo des Modemarketings verändert und war noch nie so tief in den kreativen Prozess eingebettet. Marken verlassen sich mittlerweile auf AI nicht nur zur Unterstützung, sondern auch zur Generierung von Bildmaterial für Kampagnen-Assets und Produktdetailseiten (PDPs). Dieser Wandel verändert, wie Modevisuals konzipiert, produziert und monetarisiert werden.
Generative Bildmodelle und spezialisierte AI-Workflows werden zunehmend für Anwendungsfälle in der Modebranche maßgeschneidert. On-Model-Fotos, markenspezifische Assets und sogar automatisierte Anzeigenerstellung sind mittlerweile in wenigen Minuten möglich.
Was die „Model“-Seite betrifft, so generieren einige AIs, wie in The Interlines Artikel beschrieben, realistisch aussehende virtuelle Models und Lifestyle-Hintergründe, die es Marken ermöglichen, Kleidungsstücke an diversen Körpern, Hintergründen und Szenarien zu visualisieren, ohne ein physisches Studio buchen zu müssen. Ein Branchenbeispiel? Hier bitte. Der äußerst sichtbare Schritt von H&M, mit Models und Agenturen zusammenzuarbeiten, um „digitale Zwillinge“ zu erstellen, setzt einen neuen Maßstab in Bezug auf Rechte, Repräsentation und Wiederverwendung von Model-Abbildungen. Bei dieser Initiative behalten die Models das Eigentum an ihren digitalen Replikaten, werden vergütet und können ihren Zwilling sogar an andere Marken lizenzieren.
Wir wissen, dass Marken bereits mit generativer AI experimentieren, um Inhalte für verschiedenste Zwecke zu erstellen. Aber der Inhalt der Produktdetailseite (PDP) ist anders. Hier müssen die Visuals vertrauenswürdig, genau und hochwertig sein. Andernfalls besteht ein echtes Risiko, zu viel zu versprechen oder zu wenig zu liefern. Kunden könnten etwas erhalten, das weit von dem entfernt ist, was sie erwartet haben, was die Markenglaubwürdigkeit beschädigt und die Retourenquoten in die Höhe treiben kann (und wir wissen bereits, wie groß dieses Problem im E-Commerce ist). Mit anderen Worten: Ein Tool, das in einem Teil des Workflows Geld sparen soll, kann Unternehmen leicht schaden.
Deshalb haben wir beschlossen, die Fähigkeiten von AI in Bezug auf die Modebranche zu überprüfen und sie mit einer echten Fotoshooting-Session zu vergleichen.
💡Möchten Sie sehen, wie AI auf die Herausforderung reagiert, Lifestyle-Aufnahmen von Parfums zu erstellen? Lesen Sie unseren vorherigen Blogbeitrag: Stand der generativen AI-Technologie für Produktfotografie: Lifestyle-Parfumaufnahmen mit AI erstellen.
Die Testbasis
In unserem vorherigen Artikel über AI-Technologie in der Lifestyle-Parfumfotografie haben wir 5 verschiedene AI-Modelle/Tools verglichen und versucht, mit einem einfachen Prompt professionelle Ergebnisse zu erzielen. Diesmal allerdings ist der Prompt fortgeschrittener; wir haben zwei Orbitvu-Lösungen zur Content-Erstellung verwendet, und es gibt zwei Arten von Fotos: On-Model (erstellt im Fashion Studio als Referenzbilder/-videos) und Packshots (erstellt im Alphastudio XXL als Ausgangsbilder für generative AI).
Das Ziel ist es, die gleiche Qualität und Authentizität wie bei den Originalfotos aus dem Fashion Studio zu erreichen, jedoch im AI-Prozess.
Packshots & Model-Aufnahmen

Echte Geisterpuppen-Packshots erstellt im Alphastudio XXL - Vorderansicht

Echte Geisterpuppen-Packshots erstellt im Alphastudio XXL - Rückansicht

Realitätsgetreue Model-Aufnahmen erstellt im Fashion Studio - Vorderansicht

Realitätsgetreue Model-Aufnahmen erstellt im Fashion Studio - Rückansichthttp://aistudio.google.com/models/veo-3
AI-Tools: Bild und Video
Wir werden 4 beliebte AI-Bild-zu-Bild-Generatoren testen, um zwei On-Model-Bilder aus zwei Geisterpuppen-Ausgangsbildern (Vorder- und Rückseite) zu erstellen. Anschließend werden wir mit den besten beiden On-Model-Bildern und 3 hochmodernen Bild-zu-Video-Generatoren auf dem Markt versuchen, das Originalvideo nachzubilden.
Bild-zu-Bild AI-Modelle:
- Google Nano Banana PRO - Nano Banana ist die AI-Bildgenerator-/Bearbeitungsplattform der nächsten Generation (basierend auf Googles Gemini-3.0-Modell), mit der Sie Text in Bilder umwandeln, Fotos mit einfacher Sprache bearbeiten, die visuelle Identität über Bearbeitungen hinweg beibehalten und mehrere Bilder zusammenführen können – alles für Kreative konzipiert, die hochwertige und konsistente Visuals benötigen. Das neueste Update ermöglicht es Nutzern, Bilder in höheren Auflösungen zu generieren, einschließlich 2K und 4K, zusätzlich zur Standard-1K-Auflösung.
- Flux Kontext [PRO] - FLUX 1 Kontext ist ein AI-Bildmodell der nächsten Generation von Black Forest Labs, das Textprompts und Bildeingaben kombiniert, um Visuals mit starkem Kontextbewusstsein, Objekt-/Charakterkonsistenz und professioneller Ausgabe zu erstellen oder zu bearbeiten.
- Seedream 4.0 von ByteDance - Seedream ist das multimodale AI-Bildmodell der nächsten Generation. Es vereint Generierung und Bearbeitung, arbeitet mit Text und Bildern, unterstützt mehrere Referenzeingaben und liefert schnell ultrahochauflösende Visuals. Seine multimodalen „Reasoning"-Fähigkeiten machen es zu mehr als nur einem Kunstspielzeug – es ist für professionelle Workflows positioniert.
- ChatGPT - der ChatGPT AI-Bildgenerator ist eine in OpenAIs ChatGPT integrierte Funktion, die es Nutzern ermöglicht, Bilder mit natürlicher Sprache zu erstellen und zu bearbeiten. Basierend auf DALL-E 3 können Sie detaillierte Visuals direkt aus Textprompts generieren oder bestehende Bilder mit einfachen Anweisungen modifizieren. ChatGPT ist auch sehr nützlich für die Erstellung von Prompts und Aufgabenideen.
Bild-zu-Video AI-Generatoren:
- Veo3 - ein Text-zu-Video- und Bild-zu-Video-Tool der nächsten Generation von Google. Es ermöglicht Nutzern, einen Textprompt (oder optional Referenzbilder) einzugeben und automatisch kurze filmische Clips mit synchronisiertem Audio, realistischer Bewegung und hoher visueller Wiedergabetreue zu generieren.
- Kling AI - eine AI-Videogenerierungsplattform, entwickelt von Kuaishou Technology in China. Sie unterstützt die Umwandlung von Textprompts (und sogar statischen Bildern) in dynamische Videos mit realistischer Bewegung und filmischem Stil.
- Seedance 1.0 PRO - ein fortschrittliches AI-Videogenerierungsmodell, entwickelt von ByteDance (den Machern von TikTok). Es ist spezialisiert auf die Umwandlung von Textprompts und statischen Bildern in hochwertige, filmische Videos (bis zu 1080p).
AI-Tools im Test: Welcher AI-Bildgenerator erstellt die besten PDP-Bilder für Mode?
Ist es mit den heutigen Fortschritten in der AI-Technologie möglich, Inhalte zu erstellen, die nicht zu stark von der Realität abweichen? Sind die Unvollkommenheiten, die wir gerade eben in jedem von künstlicher Intelligenz generierten Bild gesehen haben, immer noch sichtbar? Schauen wir uns die beliebten AI-Tools auf dem Markt genauer an und prüfen, ob ein guter Packshot und ein guter Prompt ein komplettes Fotoshooting für den E-Commerce ersetzen können.
Die Kriterien, die wir bewerten werden, sind vor allem, ob die künstliche Intelligenz Bilder für uns generiert, die folgende Aspekte erfüllen:
- Konsistenz: Wie konsistent sind die beiden Bilder desselben Kleidungsstücks, sowohl Vorder- als auch Rückseite, in Bezug auf das Aussehen des Models, Accessoires und die gesamte Kleidungskonsistenz.
- Produkttreue: Ob das fotografierte Produkt, in diesem Fall ein Kleid, originalgetreu dargestellt wird, einschließlich Farben, Muster, Form und Größe. Wie realistisch sitzt es am Model?
- Kosten: Lohnt sich die Investition?
- Prompt-Befolgung: Werden alle Anweisungen befolgt?
Vergleich von Nano Banana

Nano Banana PRO virtuelle Anprobe

Realitätsgetreue Model-Aufnahmen aus dem Fashion Studio
Evaluation
Konsistenz und Abweichungen:
Obwohl das Model in beiden Bildern gleich zu sein scheint, gibt es einen deutlichen Unterschied im Gesamtton. Die Farbtöne der Rückansicht sind merklich kühler als die der Vorderansicht. Außerdem variiert die Kleidlänge erheblich – die Rückansicht zeigt ein deutlich kürzeres Kleidungsstück. Geringfügige, nicht offensichtliche Unterschiede in der Schuhform sind ebenfalls vorhanden. Die Kleidlänge stimmt zwischen den Bildern nicht überein.
Produkttreue:
Die generierten Bilder bewahren im Allgemeinen eine gute Produkttreue hinsichtlich des Kleidmusters, der Gesamtform und des Textils. Allerdings gibt es zwei wesentliche Ungenauigkeiten:
Ärmelform: Die Ärmelform ist fehlerhaft dargestellt und erscheint deutlich kleiner als beim realen Produkt.
Kleidgröße (Rückansicht): Das Kleid ist in der Rückansicht im Vergleich zum tatsächlichen Produkt etwas zu kurz dargestellt.
Farb- und Tonwiedergabe sind in der Vorderansicht genau, aber die Rückansicht leidet unter übermäßig warmen Tönen.
Prompt-Befolgung:
Die Bilder folgten weitgehend den Anweisungen des Prompts. Die einzige Abweichung ist die Hintergrundfarbe, die hellgrau statt des gewünschten Weiß ist.
Kosten für die Nano Banana Pro Bildgenerierung:
Die Kosten für die Bildgenerierung hängen von der gewünschten Ausgabeauflösung ab:
- ~1K-Auflösung: $0,24 pro Bild
- 2K-Auflösung: $0,24 pro Bild
- 4K-Auflösung: bis zu $0,47 pro Bild

Tabelle mit Ergebnissen für das generierte Produkt am Model von Nano Banana Pro
Comparison of Flux Kontext [PRO]

Flux Kontext Pro Ergebnisse der virtuellen Anprobe

Realitätsgetreue Model-Aufnahmen aus dem Fashion Studio
Evaluation
Konsistenz:
Der weiße Hintergrund ist sauber und über alle Ansichten hinweg konsistent. Die gesamte Farbpalette und das florale Motiv werden durchgehend beibehalten. Allerdings ist das rechte Bild leicht unterbelichtet, mit sichtbarer Schattierung in der Mitte des Rückens, was die visuelle Konsistenz beeinträchtigt. Zusätzlich sind die Schuhe zwischen den Ansichten deutlich unterschiedlich, was die visuelle Konsistenz stört.
Produkttreue:
Flux Kontext PRO bewahrt erfolgreich die allgemeine Silhouette, die korrekte Kleidlänge, die gesamte Farbpalette und das florale Motiv des Kleides. Die erkennbare Kombination aus tiefrotem Hintergrund und leuchtendem rosa Blumendruck wird beibehalten, und keine deutlichen Unterschiede im Muster selbst sind erkennbar. Auf dem Bildschirm sind keine offensichtlichen Farbinkonsistenzen sichtbar, obwohl sehr subtile Variationen vorhanden sein können.
Allerdings gehören zu den wichtigen Abweichungen: Der Ärmel ist zu klein. Die Länge des Oberteils in der Rückansicht erscheint etwas zu kurz.
Prompt-Befolgung:
Der weiße Hintergrund wurde wie gewünscht korrekt umgesetzt, was eine gute Gesamtpräsentation unterstützt. Das allgemeine Anprobekonzept wurde erfolgreich ausgeführt. Allerdings wirkt das Model etwas künstlich und plastikähnlich, was den Realismus mindert – dies deutet auf Einschränkungen bei der Erreichung der angestrebten fotorealistischen Qualität hin, die für Produktfotografie-Standards typisch ist.
Kosten für die Flux Kontext PRO Bildgenerierung:
- ~1K-Auflösung: $0,12 pro Bild
- 2K-Auflösung: $0,18 pro Bild
- 4K-Auflösung: nicht verfügbar

Comparison of Seedream 4.0

Seedream 4.0 virtuelle Anprobe

Realitätsgetreue Model-Aufnahmen aus dem Fashion Studio
Evaluation
Konsistenz:
In beiden Bildern werden unterschiedliche Schuhe verwendet, was die Konsistenz stört. Es ist auch visuell offensichtlich, dass sich die Gesichter der Models zwischen den Bildern unterscheiden, was auf einen Mangel an Kontinuität zwischen den Ansichten hinweist. Die Farbtöne sind ebenfalls in beiden Ansichten unterschiedlich, wobei die Rückansicht dem Originalbild näher kommt.
Produkttreue:
Seedream erfasst den erkennbaren Blumendruck und die gesamte Farbpalette des Originalkleides und bewahrt seine visuelle Identität auf den ersten Blick. Bemerkenswert ist, dass nur dieses AI-Modell es schaffte, die langen Ärmel des Kleides wiederzugeben.
Allerdings verringern mehrere Ungenauigkeiten die Treue: Das Kleid ist merklich zu kurz, und seine Proportionen weichen vom Original ab, am deutlichsten bei der Ausschnittform, die nicht dem authentischen Design entspricht. Der Fall und die Struktur des Stoffes sind nicht vollständig überzeugend, da die wahre Form des Materials und sein natürlicher Fluss am Model nicht genau wiedergegeben werden. Das System erreicht keine Eins-zu-eins-Reproduktion, insbesondere bei der Längengenauigkeit, Ausschnittform und dem Stoffverhalten. Insgesamt scheinen beide Bilder einen zu hohen Kontrast aufzuweisen, und das Kleid wirkt unterbelichtet.
Prompt-Befolgung:
Die Bilder erscheinen zu dunkel und unzureichend beleuchtet, insbesondere in der Vorderansicht, was Kleidungsdetails verdeckt. Dies deutet darauf hin, dass die Beleuchtungsspezifikationen im Prompt nicht korrekt befolgt wurden. Insgesamt liefert SeeDream eine visuell ansprechende AI-Anprobe, die das allgemeine Konzept widerspiegelt, aber die Beleuchtungsausführung bleibt hinter typischen Studio-Packshot-Standards zurück.
Kosten für die Seedream-Bildgenerierung:
- ~1K-Auflösung: nicht verfügbar
- 2K-Auflösung: $0,09 pro Bild
- 4K-Auflösung: $0,09 pro Bild

Comparison of ChatGPT

ChatGPT Ergebnisse der virtuellen Anprobe

Realitätsgetreue Model-Aufnahmen aus dem Fashion Studio
Evaluation
Konsistenz:
Die Farbwiedergabe hat sich verändert und variiert zwischen den Bildern, was zu auffälligen Unterschieden statt einer konsistenten Palette über die Ansichten hinweg führt. Das Model sieht in beiden Ansichten deutlich unterschiedlich aus, einschließlich Gesicht, Haar und Größe.
Produkttreue:
Die AI-generierten Bilder bewahren die allgemeine Silhouette und das Blumenmuster des Originalkleides. Allerdings verringern mehrere Inkonsistenzen die Gesamttreue: Das Kleid ist sichtbar zu kurz im Vergleich zum Original, und der Ärmel erscheint zu schmal, was die Proportionen und Passformgenauigkeit beeinträchtigt. Der Stoff wirkt unnatürlich in Form und Verhalten, insbesondere in der Vorderansicht, wo Fall und Struktur nicht widerspiegeln, wie das Material realistisch am Körper fällt. Die Farbtöne weichen sichtbar vom Original ab. Während die AI-Ausgabe die allgemeine Designidee erfasst, repliziert sie nicht vollständig das authentische Aussehen und die Konstruktion des Kleidungsstücks in Bezug auf Länge, Ärmelgröße, Stoffrealismus und andere strukturelle Details.
Prompt-Befolgung:
Das allgemeine Konzept wurde erfasst, aber die Ausführung deutet auf Einschränkungen bei der Erreichung der beabsichtigten fotorealistischen Qualität und genauen Kleidungsdarstellung hin, die für Produktfotografie-Standards typisch ist.
Kosten für die ChatGPT-Bildgenerierung:
- ~1K-Auflösung: $0,14 pro Bild
- 2K-Auflösung: $0,47 pro Bild
- 4K-Auflösung: nicht verfügbar

Ergebniszusammenfassung
Unsere Wahl: Flux Kontext
Basierend auf Bildqualität, kontextuellem Verständnis und Produktionsreife hat Flux Kontext die anderen getesteten Modelle deutlich übertroffen. Seine Stärken in der realistischen Kleidungsdarstellung und konsistenten Szenengenerierung machen es besonders geeignet für Mode-Content in großem Maßstab.
Infolgedessen wird Flux Kontext als Grundlage für die AI-gesteuerte Videoproduktion dienen, wo Konsistenz und Realismus unverzichtbar sind.
AI-Tools im Test: Ist es möglich, realitätsgetreue Videos für Modekampagnen zu erstellen?
Nachdem wir nun wissen, wie AI-Bildgeneratoren abschneiden, sehen wir uns die Fähigkeiten der Video-AI-Tools an. Wir haben die besten Fotos – lassen Sie uns sie zum Leben erwecken.
Das Ziel unseres Vergleichs ist es zu prüfen, wie Videogenerierungstools mit der Bild-zu-Video-Aufgabe umgehen. Wir werden sie nach folgenden Kriterien bewerten:
1. Konsistenz mit dem Prompt: Übereinstimmung mit Bewegung und Timing des Models – und den Bewegungen, die es ausführt.
2. Treue: Ob unser generiertes Model und das fotografierte Kleid in keiner Weise verändert wurden, hinsichtlich Textur, Farben oder Form.
3. Physik: Die Anordnung des Materials am Körper, die Bewegung des Models, die allgemeine Natürlichkeit der Aufnahme
4. Kosten: Lohnt sich der Hype? Die Kosten?
Vergleich von Seedance 1.0 Pro
Vergleich von Seedance 1.0 Pro - Bewertung
Konsistenz mit dem Prompt:
Seedance folgte dem Prompt gut und machte keine auffälligen Fehler hinsichtlich der Übereinstimmung von Bewegung und Timing des Models sowie der ausgeführten Bewegungen.
Treue:
Das Kleid scheint ohne Veränderungen an Textur, Farben oder Form bewahrt worden zu sein. Allerdings bleibt der Realismus hinter den Erwartungen zurück – wenn sich das Model dreht, wird ein kurzer Beschleunigungsfehler sichtbar, der den gleichmäßigen Fluss des Videos unterbricht.
Physik:
Es fehlt eine natürliche Körperbewegung, was das Verhalten des Stoffes im Video beeinflusst. Die Haare während der Drehung wirken ebenfalls unecht – statt natürlich nach hinten geworfen zu werden, sehen sie aus, als wären sie über die Schulter gezogen worden.
Kosten für die Seedance 1.0 Pro Videogenerierung:
Kosten Full HD: $1,81 pro 8-Sekunden-Video

Comparison of Veo3
Vergleich von Veo3 - Bewertung
Konsistenz mit dem Prompt:
Die Bewegung des Models ist recht gut und natürlich, was darauf hindeutet, dass Timing und Bewegungen gut mit dem Angeforderten übereinstimmen.
Treue:
Das Programm erfasst den Stoff perfekt – man kann die Seidenqualität des Kleides in jeder Aufnahme deutlich spüren, was darauf hinweist, dass die Textur und Materialeigenschaften des Kleidungsstücks genau bewahrt wurden.
Physik:
Die Physik des Stofffalles, der Faltenbildung und des Flatterns der herabhängenden Schärpe ist ausgezeichnet und zeigt ein starkes natürliches Stoffverhalten. Allerdings werden in einer Aufnahme die Haare schön vom Model zurückgeworfen, aber in den übrigen Aufnahmen unrealistisch über die Schulter gezogen, was die Gesamtnatürlichkeit leicht beeinträchtigt.
Kosten für die Veo3-Videogenerierung:
Kosten Full HD: $3,03 pro 8-Sekunden-Video

Comparison of Kling
Vergleich von Kling - Bewertung
Authentizität:
Kling zeigt viel Potenzial – es hat die lebendigsten und lebensechtesten Model-Bewegungen und erzeugt eine hochrealistische visuelle Gesamtwahrnehmung. Allerdings gibt es an einer Stelle einen Übergang, bei dem die Vorderseite auf höchst unrealistische Weise in den „Endframe" wechselt, was die Authentizität stört.
Konsistenz mit dem Prompt:
Die Model-Bewegungen sind lebendig und lebensecht, was auf eine starke Übereinstimmung mit dem angeforderten Timing und den Aktionen hindeutet.
Treue:
Das Kleid und das Model scheinen im gesamten Video genau bewahrt zu sein, ohne erkennbare Veränderungen am Erscheinungsbild des Kleidungsstücks.
Physik:
Die Stoffphysik ist sehr gut erhalten, wobei das Kleid wunderschön fällt und sich auch die Haare natürlich bewegen – dies demonstriert ein ausgezeichnetes natürliches Verhalten sowohl des Materials als auch des Models.
Kosten für die Kling-Videogenerierung:
Kosten Full HD: $2,65 pro 10-Sekunden-Video

Kostenschätzung
Kostenschätzung: Traditionelle Fotografie vs. automatisiertes Fotostudio vs. generative AI
Um die Kosten generativer AI mit traditionellen und automatisierten Fotostudios zu vergleichen, haben wir folgende Annahmen getroffen:
- Für ein traditionelles Fotostudio nahmen wir ein gut optimiertes hauseigenes Fotostudio an. Der Fotograf erstellt zwei Packshots (Geisterpuppe Vorderseite und ein Detailbild), vier On-Model-Bilder und optional einen Videoclip. Insgesamt sechs PDP-Bilder und ein optionaler Videoclip. Personalkosten umfassen außerdem ein Model, eine Maskenbildnerin (Kosten sind niedriger, da wir annehmen, dass sie gleichzeitig mit mehreren Models arbeitet) und einen Stylisten. Produktionskapazität: 15 (mit Videoclip) bis 25 (nur Bilder) Outfits pro Tag.
- Für ein automatisiertes Fotostudio nahmen wir das Orbitvu Fashion Studio an, das von einem Stylisten bedient wird, der zwei Packshots (Geisterpuppe Vorderseite und ein Detailbild), vier On-Model-Bilder und optional einen Videoclip erstellt. Insgesamt sechs PDP-Bilder und ein optionaler Videoclip. Personalkosten umfassen außerdem das Model und die Maskenbildnerin. Die Produktionskapazität beträgt 30-40 Produkte pro Tag. Da das Fashion Studio Bilder und Videos gleichzeitig aufnehmen und bearbeiten kann, fallen keine zusätzlichen Nachbearbeitungskosten an.
- Für generative AI-Bilder nehmen wir an, dass ein hauseigener Fotograf 3 Schaufensterpuppen-Packshots aufnimmt: Vorderseite, Rückseite und Detail. Vorder-/Rückansicht werden zur Generierung von vier On-Model-Bildern und optional eines Videoclips verwendet. Ein Prompt-Ingenieur/Qualitätssicherer überprüft jedes Bild auf Treue und erstellt bei Bedarf neue Bilder. Wir nehmen an, dass 50 % der Bilder und Videos eine zusätzliche Neugenerierung benötigen. Bilder werden mit Flux und Videos mit Veo 3 generiert. Der Engpass ist in diesem Fall nicht die Technologie zur Bildgenerierung, sondern die Kapazität des QA-/Prompt-Ingenieurs. Wir nahmen 60-80 Outfits pro Tag an.
- Durchschnittliche westeuropäische Arbeitskosten

Ergebnisse
Traditionelle Fotografie: erstklassige Qualität, einzigartiger Content
Alles hängt davon ab, wie das Studio arbeitet, ob es gleichzeitig Fotos und Videos aufnehmen kann und wie seine Prozesse optimiert sind. In unserer Berechnung werden die Kosten pro Outfit auf $81 für Fotos und $143 einschließlich Video geschätzt. Der Vorteil eines traditionellen Fotostudios ist, dass die Bilder wirklich einzigartig, von höchster Qualität und natürlich realitätsgetreu sein können.
Automatisiertes Fotostudio (z. B. Orbitvu Fashion Studio): hohes Produktionsvolumen, realitätsgetreuer konsistenter Content
Das Orbitvu Fashion Studio optimiert die Bild- und Videoaufnahme, Nachbearbeitung und Veröffentlichung in einem einzigen Prozess und maximiert die Produktionskapazität. Gleichzeitig kann es von einem Stylisten bedient werden. Es gewährleistet hohe Bildqualität, Konsistenz und Realitätstreue. Wir schätzen die Kosten pro Outfit auf $36 (nur Fotos) bis $60 (Fotos und Video).
Generative AI: schnell, aber riskant
Generative AI-Bilder benötigen Eingangsbilder – flach liegend oder auf Schaufensterpuppe. Wir nahmen Schaufensterpuppen-Bilder an, da sie Bekleidungseigenschaften besser darstellen und besser als Eingabe für generative AI geeignet sind. Wie erwartet sind die Kosten am niedrigsten und liegen zwischen $9,21 (nur Fotos) und $15,89 (Fotos und Video). Der Nachteil, oder vielmehr das zusätzliche Risiko, ist, dass generative Bilder die Realität nur simulieren. Wenn die Bilder zu weit vom Produkt entfernt sind, können zusätzliche Kosten durch Produktretouren und Markenimageschäden entstehen.
Zusammenfassung
Generative AI verändert die Art und Weise, wie Mode-Content erstellt wird, und bietet schnellere und kostengünstigere Alternativen zu traditionellen Fotoshootings. Unsere Tests bestätigen, dass AI bereits visuell überzeugende On-Model-Fotos und Modevideos erstellen kann, wobei Packshots als einzige Eingabe dienen.
Allerdings wurde keines der Ergebnisse beim ersten Versuch erzielt. Bevor wir ein zuverlässiges Setup erreichten, durchliefen wir mehrere Iterationen, um einen effektiven Prompt für die Generierung von Bildern und Videos eines Models zu entwickeln. Der Prompt musste so gestaltet werden, dass er zu diesem spezifischen Kleid und dem Schal passt. Jedes Kleidungsstück mit sehr spezifischen Details muss individuell angepasst werden, was die Skalierbarkeit einschränkt und die Automatisierung reduziert. Wichtig ist, dass man den Prompt erst dann richtig gestalten kann, wenn man das Kleid gesehen hat. Erst nach Verfeinerung des Prompts konnten wir eine strukturierte Testreihe über die ausgewählten AI-Modelle durchführen. Obwohl der Workflow einfach erscheinen mag, erfordert er in der Praxis Zeit, Erfahrung und den Verbrauch einer erheblichen Anzahl von Credits, bevor zufriedenstellende Ergebnisse erzielt werden können.
Unter den getesteten Tools schnitt Flux Kontext am besten bei der Bewahrung der gesamten Kleidungssilhouette, Farben und des Musters ab. Die Haupteinschränkungen bleiben bei Feinheiten wie Stofffall, präzisen Proportionen und Form (der Ärmel), Farbkonsistenz und visueller Kontinuität zwischen Vorder- und Rückansicht bestehen. Es war auch das einzige Modell, das die Farbtöne intakt hielt, was für den E-Commerce entscheidend ist.
Sobald gute Eingangsbilder vorliegen, erwies sich die Videogenerierung als besonders vielversprechend. Die Verwendung AI-generierter Vorder- und Rückseitenbilder von Flux Kontext als Start- und Endframes ermöglichte die Erstellung flüssiger, realistischer Mode-Rotationsvideos, die traditionellem Studiomaterial sehr nahekommen. Diese kurzen Videos können ein Gamechanger für den Mode-E-Commerce sein und Anprobeerlebnisse bieten, die Kunden helfen, sichere Kaufentscheidungen zu treffen.
Wichtige Erkenntnisse
- Hochwertiger Input-Content für generative AI ist entscheidend. Details und Farben werden von der AI verarbeitet, und die generierten Ergebnisse können nur so gut sein wie das Originalbild.
- Die Skalierbarkeit von AI hat ihre Grenzen. Wenn die AI die Informationen nicht aus den Eingangsbildern gewinnen kann, erfindet sie diese. Das Ergebnis kann ein Bild eines mehr oder weniger anderen Produkts sein. Um die Kontrolle zu behalten, sind Menschen sowohl in der Qualitätssicherung als auch für Prompt-Interventionen vor Ort erforderlich. Es ist entscheidend, dass der Prompt-Ingenieur das echte Kleidungsstück sehen kann, da Bilder nur so korrekt angepasst werden können.
- AI spart Kosten und Zeit bei Mode-Fotoshootings. Generative AI kann viele Kosten eines Fotoshootings einsparen (Model, Stylist, Fotograf), dennoch müssen Sie das Produktbild selbst aufnehmen und Budget für QA- und AI-Spezialisten einplanen, die den Prozess überwachen und dessen Qualität und Authentizität sicherstellen müssen.
- AI birgt Risiken. Generative AI wird naturgemäß Halluzinationen in das Bild einführen. Hochwertige Eingangsbilder und ordnungsgemäße Qualitätssicherung können diese Risiken begrenzen, aber nicht vollständig eliminieren. Untreue Produktbilder können zu unzufriedenen Kunden, Markenimageschäden und erhöhten Retourenkosten führen. Weitere Risiken betreffen AI-generierte Model-Bilder – in Wirklichkeit sind diese Bilder mehr oder weniger eine Mischung aus Bildern realer Personen, wie sie während des maschinellen Lernprozesses erfasst wurden. Um rechtliche Probleme zu vermeiden, sollte man die Beauftragung eines virtuellen Models (sogenannter digitaler Zwilling) in Betracht ziehen und entsprechende Kosten pro Bild einkalkulieren.
FAQ
Was ist Mode-PDP-Fotografie?
Mode-PDP-Fotografie (Product Detail Page) konzentriert sich darauf, Kleidung, Accessoires und den Gesamtstil visuell ansprechend auf einer E-Commerce-Produktseite zu präsentieren. Sie überbrückt die Lücke zwischen Kunst und Handel, hebt Designdetails hervor und inspiriert gleichzeitig Emotionen, Geschichten und Lebensstile, die Marken mit ihrem Publikum verbinden.
Traditionell findet Modefotografie in Studios oder an Drehorten statt, wo Models, Stylisten und Kreativdirektoren zusammenarbeiten, um die Vision eines Designers zum Leben zu erwecken. Heute erstreckt sie sich auch auf E-Commerce und soziale Medien, wo hochwertige Visuals der Schlüssel für Engagement und Umsatz sind. Ob es sich um eine redaktionelle Strecke, ein Lookbook oder ein automatisiertes Produktfoto in einem Online-Shop handelt – Modefotografie spielt eine entscheidende Rolle bei der Gestaltung der Markenidentität und der Beeinflussung der Verbraucherwahrnehmung.
Welche sind die besten AI-Generierungstools für Modefotografie?
Es gibt kein einzelnes „bestes" AI-Tool – die richtige Wahl hängt von Ihrem Anwendungsfall ab.
Für AI-Modebilder in unserem Test lieferte Flux Kontext PRO die konsistentesten und ausgewogensten Ergebnisse, was es zu einer starken Option für saubere Studiovisuals und die Generierung AI-generierter Modemodels über verschiedene Körpertypen hinweg macht. Seedream 4.0 zeichnet sich durch die Erfassung bestimmter Kleidungsdetails aus, während Nano Banana PRO und ChatGPT gut für schnelle Konzepterstellung und kreative Vorschauen geeignet sind.
Bei AI-Modevideos beeindruckte Veo3 mit hochrealistischen Stoffbewegungen, Kling AI lieferte die natürlichsten Model-Bewegungen, und Seedance 1.0 Pro bot zuverlässige, promptgesteuerte Ergebnisse.
In Kombination mit echter Fotografie eröffnen diese AI-Tools neue Möglichkeiten für schnellere Produktion, kreative Flexibilität und skalierbaren Mode-Content. Viele Plattformen bieten einen kostenlosen Plan zum Testen der Funktionen, bevor man sich für einen kostenpflichtigen Plan entscheidet, und einige umfassen API-Preise für die Integration in bestehende Workflows. Ob Sie vier Bilder für eine Produktseite erstellen oder Hintergründe für ein Flat-Lay entfernen müssen – das Erkunden verschiedener AI-Lösungen kann Ihnen helfen, die beste Lösung für Ihre Bedürfnisse zu finden.
Kann generative AI traditionelle Mode-PDP-Fotoshootings ersetzen?
Es kommt darauf an… Sie wird die Dinge beschleunigen und die Kosten des Fotoshootings selbst senken, führt aber gleichzeitig Risiken auf der anderen Seite ein. Im schlimmsten Fall kann das Einsparen von Kosten bei einem Fotoshooting die Gesamtkosten des Unternehmens durch höhere Retouren und den Verlust der Markenglaubwürdigkeit erhöhen, was das Geschäft langfristig erheblich schädigen kann.
Es liegt an Ihnen, diese Risiken zu bewerten und einige Fragen zu beantworten: Werden Ihre Kunden voraussichtlich Waren zurücksenden, die leicht vom Original abweichen? Hängt Ihr Markenimage von hochwertigen, realitätsgetreuen Bildern ab oder nicht? Schätzen Ihre Kunden den echten menschlichen Touch oder können sie mit AI-Bildern leben? Die Beantwortung dieser Fragen hilft Ihnen, Ihre AI-Prozesse entsprechend den Bedürfnissen Ihrer Kunden und Ihrem Markenimage zu gestalten und die Auswirkungen zu messen. Dann können Sie die Frage beantworten, ob für Ihr Unternehmen die generativen AI-PDP-Bilder besser sind als traditionelle Fotoshootings.
Über den Prompt
Der in diesem Artikel geteilte JSON-Prompt wird als offene Referenz bereitgestellt, die jeder Nutzer wiederverwenden und anpassen kann, indem die enthaltenen Parameter an die eigenen Bedürfnisse und Workflows angepasst werden.
Der Prompt wurde auf Basis authentischer Bilder eines Models entwickelt, das im Orbitvu Fashion Studio fotografiert wurde. Diese echten Studioaufnahmen dienten als visueller Benchmark und ermöglichten es uns, eine konsistente Referenz für die Generierung ähnlicher Aufnahmen, Posen und Stylings durch AI zu definieren. Das Ziel war nicht, ein bestimmtes Model oder einen bestimmten Look zu replizieren, sondern ein wiederverwendbares Framework für die Erstellung vergleichbarer Kompositionen und Modeästhetik mit größerer Effizienz zu schaffen.
Durch Anpassung von Elementen wie Styling, Beleuchtung, Kameraperspektive oder Model-Attributen können Nutzer den Prompt an ihre eigenen Markenstandards anpassen und gleichzeitig visuelle Konsistenz über den generierten Content hinweg beibehalten.
Front view - JSON prompt
{
"scene_description": {
"setting": "studio photo shoot with a plain weißer Hintergrund and bright, even lighting",
"subject": {
"type": "person",
"gender": "female",
"age_range": "adult",
"pose": "standing with one hand on hip and the other arm relaxed",
"expression": "smiling, facing the camera",
"hair": {
"color": "dark brown",
"length": "medium-long",
"style": "loose and natural"
}
},
"outfit": {
"type": "long patterned dress",
"colors": "warm tones with floral print",
"footwear": {
"type": "open-toe heeled mules",
"color": "black",
"material": "smooth leather or leather-like finish",
"heel_height": "medium (approximately 5–7 cm)",
"design_details": "minimalist slip-on style with open back and narrow band across the toes",
"overall_style": "elegant and modern, complementing the dress without drawing attention away from it"
}
},
"composition": {
"framing": "full-body shot",
"camera_angle": "eye-level, straight-on",
"background": "plain white seamless backdrop",
"lighting": "soft, diffused, evenly distributed"
},
"overall_style": {
"theme": "fashion catalog or lookbook",
"mood": "confident, cheerful, elegant"
},
"additional_information": {
"note": "The sash or fabric piece that hangs down from the dress should be wrapped around the model's neck like a choker or scarf for the intended styling."
}
}
}
Backview - JSON prompt
{
"scene_description": {
"setting": "studio photo shoot with a plain weißer Hintergrund and bright, even lighting",
"subject": {
"type": "person",
"gender": "female",
"age_range": "adult",
"pose": "standing with back to the camera, head slightly turned to the side",
"expression": "neutral, calm",
"hair": {
"color": "dark brown",
"length": "medium-long",
"style": "loose and natural"
}
},
"outfit": {
"type": "long patterned dress",
"colors": "warm tones with floral print",
"footwear": {
"type": "open-toe heeled mules",
"color": "black",
"material": "smooth leather or leather-like finish",
"heel_height": "medium (approximately 5–7 cm)",
"design_details": "slip-on style with open back, single wide strap across the front, and thin stiletto-style heel",
"overall_style": "minimalist and elegant, complementing the outfit while keeping the focus on the dress"
}
},
"composition": {
"framing": "full-body shot from the back",
"camera_angle": "eye-level, straight-on",
"background": "plain white seamless backdrop",
"lighting": "soft and evenly distributed with minimal shadows"
},
"overall_style": {
"theme": "fashion catalog or lookbook",
"mood": "elegant, composed, confident"
},
"additional_information": {
"note": "The sash or belt seen hanging at the back of the dress should be styled by wrapping it around the model's neck, creating a cohesive look that matches the front view."
}
}
}
Video prompt
"Generate a 7-second fashion showcase video using the provided Packshot image as the outfit reference.
The subject is a young woman standing naturally in front of a plain, neutral studio backdrop with soft, even lighting.
The camera remains static in a medium-to-full-body shot, keeping the focus entirely on the person and the outfit.
Movements should be smooth and natural, highlighting the outfit without distractions.
Timeline of actions:
- Seconds 0–2: The subject stands in a neutral pose with minimal movement.
- Seconds 2–4: She makes a small, natural motion, such as a subtle body turn or shifting her weight slightly.
- Seconds 4–6: The model rotates smoothly around her own axis to show the **back of the outfit**, turning naturally and gracefully.
- Seconds 6–7: She finishes in a clean ending pose, holding still before the video ends.
Style:
- Fashion showcase style
- Smooth tempo, no rapid cuts or transitions
- Clean studio look with emphasis on outfit clarity
- Outfit design and details must strictly follow the provided Packshot image"
----------------------------------------------------------------------------------------------------------------------
This research article was done by the Orbitvu team:
Packshots - Julia Banduch
Prompts, generative images & descriptions - Marek Herceliński
Copywriting - Elżbieta Binkowska
Guidance & support - Tomasz Bochenek