Midjourney 5 verbessert fast jeden Aspekt von KI-generierten Bildern
Besser werden: Bei all den aktuellen Nachrichten rund um ChatGPT und andere große Sprachmodelle vergisst man leicht, dass ihre Cousins – KI-Bildgeneratoren – immer noch an Verbesserungen arbeiten. Man hat vielleicht herausgefunden, wie man Augen und Hände wiedergibt, ohne dass das Motiv wie etwas aus einem Albtraum aussieht. Allerdings schrecken die Ergebnisse einige Leute immer noch ab.
Anfang dieser Woche veröffentlichte das Forschungslabor Midjourney eine Betaversion für Version 5 seiner selbsternannten KI-Bildgebungssoftware. Laut Ankündigung über Twitter bietet die neueste Version eine höhere Bildqualität, „vielfältigere“ Ergebnisse, eine größere Auswahl an Stilen, nahtlose Texturen und vieles mehr.
Ab heute kann unsere Community Midjourney V5 testen. Es verfügt über eine viel höhere Bildqualität, vielfältigere Ausgaben, einen größeren Stilbereich, Unterstützung für nahtlose Texturen, breitere Seitenverhältnisse, bessere Bildanforderung, einen größeren Dynamikbereich und mehr. Lass uns erforschen!
Benutzer haben bereits Hunderte beeindruckende Ergebnisse gepostet und die Meinung über die Verbesserungen ist gemischt. Die meisten sind beeindruckt, weil die bildgebende KI Schwierigkeiten hatte, Aspekte wie Schatten, Reflexionen, Augen und Hände zu erzeugen. Unten sehen Sie ein Bild, das wir mit Dall-E von OpenAI erstellt haben, als Beispiel dafür, wo die Maschine Probleme hat.
Die Komposition ist etwas abwegig und der Gesamteindruck erinnert an Cartoons. Die Beleuchtung ist völlig falsch. Augen und Hände sind stark deformiert. Die Beine sind mit Artefakten verunreinigt, ebenso der Popcornbehälter und der Sitz neben dem Motiv. Dieses Ergebnis ist eines von vier mit ähnlichen Problemen in unterschiedlichem Ausmaß.
Version 5 von Midjourney scheint sich in dieser Hinsicht verbessert zu haben, zumindest anhand der Beispiele, die andere geteilt haben. Die Ergebnisse einfacher Eingabeaufforderungen grenzen an das Unheimliche – realistisch genug, um in vielen Fällen als professionelle Fotos durchzugehen, aber dennoch mit dieser seltsamen Qualität, die man nicht ganz einordnen kann. Obwohl sie unglaublich realistisch sind, haben viele die Bilder als gruselig beschrieben.
Midjourney v5 ist da! (Diesmal wirklich, lol) Hier sind einige meiner Aufforderungen nebeneinander, v4 vs. v5, sowie einige neue Aufforderungen und Crowd-Shots. Ich werde dem, während ich experimentiere, noch mehr hinzufügen.𧵠pic.twitter.com/qSEZWQBXou
Unser eigener Kishalaya Kundu sagte: „Um ehrlich zu sein, bin ich eher ängstlich als beeindruckt“, nachdem er sich eine Reihe nahezu makelloser Midjourney-V5-Fotos angesehen hatte. Die Angst besteht darin, dass man ziemlich leicht ein gefälschtes Bild erstellen und es als echt ausgeben könnte.
Abgesehen vom Kriechfaktor weist Midjourney V5 im Vergleich zu V4 eine deutlich verbesserte Qualität auf. Die Grafikdesignerin Julie Wieland verwendet Midjourney V4 (veröffentlicht im letzten November) seit einiger Zeit und sagt, dass Version 5 „unglaublich realistische“ Hauttexturen aufweist. Auch die Lichteffekte sind viel besser, inklusive Reflexionen, Blendungen und Schatten. Am wichtigsten ist vielleicht, dass die KI Hände und Augen erzeugt, die die meiste Zeit natürlich aussehen.
�"� MJ-Tipp: Mit V5 sind endlich Aufnahmen durch ein Fenster möglich! Ich habe mich nach der „My Blueberry Nights“-Ästhetik gesehnt, seit ich Dalle2 zum ersten Mal ausprobiert habe (und es hat einigermaßen gut funktioniert), aber v5 ist umwerfend! Sie finden die Eingabeaufforderung im ALT-Text der Bilder #synthography #midjourneyv5 pic.twitter.com/kAOagopucG
„Die Augen sind fast perfekt und nicht mehr wackelig“, sagte Wieland gegenüber Ars Technica. „Die Hände sind die meiste Zeit korrekt, mit fünf Fingern statt 7–10 an einer Hand. MJ v5 fühlt sich für mich derzeit so an, als würde ich endlich eine Brille bekommen, nachdem ich die schlechte Sehkraft etwas zu lange ignoriert habe. Plötzlich sieht man alles in 4k; es fühlt sich seltsam überwältigend, aber auch erstaunlich an.“
Streetstyle-Foto einer jungen Frau aus den 1960er Jahren, sitzend, Segelboot, grünes Dior-Kleid, grünes Seidenkleid, grünes Kleid, Seide, Perlenkette, Tiffany-Perlen, Tiffany-Perlenkette, Sonnenuntergang, Meer, aufgenommen mit Agfa Vista 200, 4k – AR 16:9v4 (links) v5 (rechts) pic.twitter.com/wz7GbI3fvA
Midjourney verbesserte außerdem die native Auflösung von 512 x 512 Pixel auf 1024 x 1024 Pixel. Durch die Erhöhung wird es mit Dall-E in Einklang gebracht. Allerdings könnte Version 4 ein Supersampling durchführen, um die native Auflösung zu verdoppeln. Es ist durchaus zu erwarten, dass V5 die gleiche Technik zur Erstellung von 2048x2048-Bildern verwendet, aber das ist ein späteres Update.
Unterm Strich ist MidJourney erst vor einem Jahr in die KI-Szene eingestiegen. Viele (nicht alle) dieser Bilder, die diese Woche die Twitter-Feeds überschwemmen, sind unberührt. Zuvor verwendete Weiland eine Kombination von Techniken, um die visuelle Qualität von Midjourney 4 zu verbessern, darunter „Outpainting“ mit Dall-E und Nachbesserungen in Photoshop. Version 5 verspricht weniger Nachbearbeitung und möglicherweise schneller fotoperfekte Bilder, als wir es uns vorstellen können. Diese Aussicht ist in der Tat sowohl aufregend als auch beängstigend.
Besser werden: