Benutzeroberfläche trifft auf KI: Lehren aus der Implementierung von Bildern

Tatiana Mironova, 2D-Künstlerin von Playkot, hat detailliert beschrieben, wie das Studio bildgenerierende Tools in seine Pipeline implementiert hat, um UI-Elemente für Spring Valley zu erstellen. Hier erfahren Sie, was das Team während dieses Prozesses gelernt hat und welche klaren Vorteile und Fallstricke das Training eigener Modelle mit sich bringt.

Tatiana Mironova

Alles begann mit einer unternehmensweiten Frage: Wie können wir weniger Zeit mit aktuellen Aufgaben verbringen, ohne Kompromisse bei der Qualität einzugehen?

Viele von uns hatten sich zuvor aus reiner Begeisterung mit Deep-Learning-Modellen und GenAI-Tools beschäftigt, aber um zu verstehen, ob wir KI in unsere Prozesse integrieren können, war ein systematischerer Ansatz erforderlich. Mittlerweile experimentieren fast alle Teams bei Playkot für ihre Aufgaben mit neuronalen Netzen. Wir tauschen Erfahrungen in Chats zum Thema KI auf Slack aus, und wenn jemand einen kleinen Durchbruch hat, übernehmen wir seine Lösungen.

Sprechen wir also darüber, was wir in unserem UI-Team bei der Arbeit an Spring Valley versucht haben.

Ich habe Anfang dieses Jahres begonnen, mich aktiv mit neuronalen Netzen zu beschäftigen. Ich habe drei bis vier Tage damit verbracht, mich mit den Tools vertraut zu machen: die Technologien und Ansätze zu verstehen und die technische Seite der Dinge herauszufinden.

Ich habe zuerst Midjourney ausprobiert, da es die zugänglichste Option zu sein schien – wir hatten bereits ein Unternehmenskonto für Experimente. Schnell wurde mir klar, dass es uns nicht helfen würde, beim Erstellen von Symbolen Zeit zu sparen: In der vierten Version, die ich testete, ließ die Bildqualität zu wünschen übrig. In der frischen fünften Version verbesserte sich die Qualität erheblich, für unsere Aufgaben erforderten die Ergebnisse jedoch noch erhebliche Überarbeitungen.

Der größte Stolperstein war, dass Midjourney nicht unserem gewünschten Stil entsprechen konnte. Kurz gesagt: Das gesamte Internet ist in ihm gespeichert, sodass sehr unvorhersehbare Ergebnisse entstehen und Sie ihn nicht so trainieren können, dass er Ihrem Stil entspricht.

Dennoch hat sich herausgestellt, dass Midjourney ein gutes Hilfsmittel für Konzepte oder die Generierung einzelner Elemente ist. Wenn Sie eine Idee kommunizieren oder eine Form dafür finden müssen, ist das problemlos möglich.

Ich musste zum Beispiel ein Cameo-Ornament erstellen. Ich habe einige Zeit mit der Generierung verbracht und festgestellt, dass keines der Ergebnisse zu mir passte – es wäre einfacher, alles in 3D zu erstellen. Aber die Cameo-Porträts selbst sahen anständig aus: Sie fielen nicht vom Stil ab, hatten keine zwei Nasen oder schiefen Münder, warum also nicht sie verwenden?

In 3D-Programmen gibt es ein Werkzeug namens Displacement Map: Es erhöht die Höhe der hellen Bereiche eines Objekts und rückt die dunklen Bereiche ein. Ich habe das Cameo von Midjourney schnell in Photoshop ausgeschnitten, mein eigenes Material darauf aufgetragen und musste das Porträt nicht von Hand zeichnen. Ich habe genauso viel Zeit mit dem Symbol verbracht wie ursprünglich geplant, aber das Cameo-Bild war am Ende interessanter und natürlicher.

Und hier ist ein weiteres Beispiel: Ich musste einen Zweig mit Kristallen herstellen. Es dauert eine ganze Weile, darüber nachzudenken, wie jeder von ihnen aussehen wird. Ich gab Midjourney ein Beispiel und es erzeugte eine Fülle dieser Kristalle. Danach wählte ich die Generation aus, die am besten zu mir passte, fügte den erforderlichen Startwert (dh die Variable dieser Generation) zur Eingabeaufforderung hinzu und erhielt schnell genügend grafisches Material, das ich schließlich im Symbol verwendete.

Dann begann ich mit Stable Diffusion zu experimentieren. Sie können ein bereits erstelltes Modell als Grundlage nehmen, Ihre Bilder hinzufügen und es anhand dieses Datensatzes trainieren. Zu diesem Zeitpunkt hatte unser Projekt viele gute Symbole im benötigten Stil gesammelt, die für Datensätze verwendet werden konnten.

Stable Diffusion verfügt über mehrere Trainingsmethoden: Dreambooth-Erweiterung, Hypernetwork, LoRA. Die Idee bestand darin, jeden von ihnen zu testen und zu sehen, was funktionieren würde. Wir haben LoRA sofort verworfen, weil es besser für Gesichter und Porträts geeignet ist. Die Dreambooth-Erweiterung hat jedoch gut funktioniert.

Ein Model auszubilden ist ein riskantes Unterfangen. Zunächst könnte man das trügerische Gefühl haben, dass man es einmal erfolgreich trainiert und dann die Vorteile erntet. Aber wenn Ihnen klar wird, wie viele Details berücksichtigt werden müssen … Wenn Sie feststellen, dass die Ergebnisse nicht großartig sind, müssen Sie von vorne beginnen. Fast alle KI-Modelle stellen hohe Anforderungen an Grafikkarten, und wenn Ihr Computer nur über begrenzten Videospeicher verfügt, dauert die Umschulung weitere drei Stunden. Daher verlängert jeder geringfügige Fehler den Prozess und es gibt keine Garantie dafür, dass das Ergebnis für die Verwendung gut genug ist.

Einmal habe ich das Modell zum Training eingestellt und bin schlafen gegangen. Mein Plan war, einen Wecker zu stellen, aufzustehen und die Ergebnisse zu überprüfen. Ich bin um 3 Uhr morgens aufgewacht und es entstand ein ziemlich anständiger Tulpenstrauß. Ich dachte: „Oh, endlich ein Ergebnis!“

Diese drei Bilder von Tulpen bewiesen, dass sich das Spiel gelohnt hat:

Als ich erkannte, dass Stable Diffusion Potenzial hatte, musste das Problem mit der technischen Seite des Prozesses angegangen werden. Die Computerleistung ist das Haupthindernis, und nicht jeder in unserem Team hat in dieser Hinsicht die gleichen Chancen. Aus den Erfahrungen von Kollegen aus anderen Unternehmen haben wir gelernt, dass eine praktikable Methode darin besteht, einen separaten Computer als Server bereitzustellen, über den alle Generationen laufen.

Gleichzeitig haben wir verschiedene Life-Hacks von anderen KI-Enthusiasten ausprobiert: Wir haben eine große Anzahl von Tutorials durchgesehen, nach anderen geeigneten Modellen gesucht, aber schließlich eine andere Lösung gefunden – Scenario.gg, einen auf stabiler Diffusion basierenden Dienst, der auf Spielressourcen spezialisiert ist.

Server mit höheren technischen Fähigkeiten lösten unser Problem mit der Stromversorgung, und es gab auch einen netten Bonus: Während Stable Diffusion einem Anfänger, der sich noch nie mit maschinellem Lernen beschäftigt hat, möglicherweise die Augen aus dem Kopf reißt, ist die Benutzeroberfläche von Scenario.gg intuitiv verständlich und bereits auf unsere Wünsche zugeschnitten. Sie können wählen, ob Sie das Modell für Konzeptkunst, Illustration oder Asset-Generierung trainieren möchten.

Auf externen Servern verlief der Prozess schneller und wir erzielten endlich konsistentere Ergebnisse. Am besten funktionierte die Bild-zu-Bild-Methode, bei der Sie das Originalbild hochladen und das Ergebnis in dem Stil erhalten, für den das Modell trainiert wurde. Ich erzähle Ihnen von konkreten Aufgaben, bei denen uns diese Methode geholfen hat.

Seltsamerweise ist die Produktion von Symbolen aller Art am schwierigsten: Pflanzen, Obst und Gemüse, Lebensmittel, Blumen. Sie denken vielleicht: Na ja, es sind nur Blumen, ist es so schwierig, sie zu zeichnen? Aber die Konstruktion organischer Formen nimmt viel Zeit in Anspruch. Und hier hat sich das KI-Modell hervorgetan.

Für eine meiner Aufgaben musste ich einen Hochzeitsstrauß zeichnen. Zuvor hatte ich bereits einen Datensatz unserer Blumensymbole gesammelt:

Mithilfe der img2img-Methode habe ich dem Modell einen Referenzstrauß zur Analyse, Verarbeitung und Zusammenführung mit unserem Stil zugeführt.

Ich habe die maximale Anzahl der Generationen auf jeweils 16 festgelegt. Während ich an einer anderen Aufgabe arbeitete, ergab sich für mich eine Vielzahl von Optionen. Einige davon erwiesen sich als ziemlich gut: zufriedenstellend in Bezug auf Form und Masse, Farbe und Wiedergabe. Dies sind die besten Ergebnisse, die ich ausgewählt habe:

Wie Sie sehen, erweisen sich die Bänder an den Sträußen als ziemlich einzigartig, aber genau das lässt sich schnell von Hand korrigieren. Nach den Überarbeitungen sah der Blumenstrauß also so aus, als wir ihn dem Spiel hinzugefügt haben:

Das Ziel wurde erreicht und ich habe bei dieser Aufgabe fast 50 % der Zeit gespart. Manuell hätte ich einen solchen Blumenstrauß acht bis zehn Stunden lang gezeichnet, aber mithilfe von Deep-Learning-Modellen können Sie in 30 bis 40 Minuten Symbole generieren, die besten auswählen, minimale Korrekturen vornehmen und die Aufgabe in vier Stunden erledigen (nicht). es wird eine weitere Stunde für die Zusammenstellung eines Datensatzes gezählt).

Oder hier ist eine Blumenkrone, eine sehr dringende Aufgabe, die ich in vier Stunden erledigt habe – indem ich verschiedene Optionen generierte, während ich mich mit einer anderen Aufgabe beschäftigte.

Haftungsausschluss: Dies funktioniert nicht bei allen Objekten so gut. Erstens besteht ein großer Vorteil darin, dass wir einen guten Datensatz aus unseren eigenen Symbolen mit Blumen gesammelt haben – vielfältig, mit guter Darstellung und Formen und in einem einheitlichen Stil. Und zweitens enthält das Grundmodell der stabilen Diffusion höchstwahrscheinlich bereits eine große Anzahl von Blumen. Grob gesagt haben wir in diesem Strauß das Beste vereint.

Lebensmittel sind eine weitere großartige Kategorie für Stable Diffusion. Nehmen wir an, wir müssen ein Burger-Symbol erstellen: Zuerst habe ich die Parameter per Eingabeaufforderung eingestellt, und die Ergebnisse waren so seltsam wie möglich – schauen Sie sich die Teller mit Mais im Screenshot an.

Aber die img2img-Methode funktionierte gut: Ich fand ein passendes Foto, verarbeitete es schnell und Stable Diffusion kombinierte die Referenz mit dem benötigten Stil:

Ich habe die erfolgreichsten Ergebnisse der Generation ausgewählt. Es ist natürlich klar, dass die Patties hier sehr seltsam sind und zu viele Sesamkörner enthalten sind. Und der Wunsch der Spieleautoren war nach einem vegetarischen Burger: In Spring Valley haben wir so ein Konzept, dass wir keine Tiere töten, keinen Fisch fangen und kein Fleisch essen.

Ich habe das alles korrigiert und das Symbol manuell weniger „rauschend“ gemacht, aber trotzdem etwa anderthalb bis zwei Stunden Zeit gespart. Dies war die endgültige Version, die ins Spiel kam:

Ein weiteres gelungenes Beispiel ist ein Orangenkuchen. Hier ist der Datensatz, den ich basierend auf unseren Gebäcksymbolen erstellt habe:

Dies sind die Ergebnisse, die ich mit dem Modell erhalten habe:

Und so sieht der Kuchen nach ein paar Korrekturen aus – er wurde bereits ins Spiel integriert:

Die Kombination aus „Stabile Diffusion + einem praktischen Dienst mit leistungsstarken Servern + der img2img-Methode“ kann für UI-Teams von entscheidender Bedeutung sein, solange sie einige Hausaufgaben machen: Datensätze sorgfältig kuratieren und etwas Zeit in die Schulung investieren.

Nehmen wir zum Beispiel an, ich wurde beauftragt, ein Symbol mit einem Bündel Bananen zu erstellen. Wir haben bereits einen anständigen Datensatz – es gibt viele Fruchtsymbole in unserem Spiel. Bei richtiger Referenz liefert das Modell eine hervorragende Vorskizze: gute Farbgenauigkeit, Textur, Unebenheiten, sogar die Oberseite der Banane ist grün. Natürlich müssen noch Anpassungen vorgenommen werden, aber diese werden nicht allzu viel Zeit in Anspruch nehmen.

Der einzige Haken hier ist das Urheberrecht. Wenn eine erkennbare Bildzusammensetzung als Referenz verwendet wird, ist es notwendig, sorgfältig zu prüfen, ob die Lizenz die Verwendung dieses Bildes zulässt, und nach Alternativen mit einer Creative Commons-Lizenz zu suchen.

Diese Kirschen oben passen zum Beispiel gut in unsere Ästhetik und die notwendigen Änderungen wären hier minimal. Aber es ist leicht zu erkennen, dass sie aus einem Stockfotos stammen – fast eine direkte Übereinstimmung. Was sollte ein Künstler in diesem Fall tun? Collagen, modifizieren, überlegen, welche Elemente entfernt werden können, transformieren, um ein anderes Ergebnis zu erzielen. Auch das nimmt zusätzliche Zeit in Anspruch.

Die rechtliche Seite des Themas ist im Prinzip ein großes und wenig erforschtes Gebiet. So unterliegen beispielsweise alle durch neuronale Netze generierten Werke, insbesondere auf der völlig frei zugänglichen Plattform Midjourney, nicht dem Urheberrecht. Rechtlich gesehen kann ich jetzt zu Midjourney gehen, jede Generation auf T-Shirts zum Verkauf drucken oder sie in ein Spiel einbinden. Und wenn jemand erkennt, wo dies generiert wurde, es anhand von Schlüsselwörtern findet und dieselbe Illustration in seinem Spiel verwendet, wer hätte dann Recht? Die weitere Entwicklung in diesem Bereich lässt sich nur schwer vorhersagen und stellt ein weiteres potenzielles Risiko dar.

Je weiter wir von organischen Formen abweichen, desto schlechter sind die Ergebnisse. „Stabile Diffusion“ hat Schwierigkeiten, gerade Formen und Linien korrekt zu konstruieren, daher habe ich bei allen Objekten, die eine präzise Formation erfordern, noch keine anständigen Ergebnisse erzielt.

Jeder von uns hat eine Flasche tausende Male gesehen und das menschliche Auge erkennt jede Verzerrung sofort. Besonders bei einem Symbol, bei dem ein einzelnes Objekt auf ein Quadrat beschränkt ist – wenn die Flasche schief aussieht, fällt es jedem auf.

Im Screenshot unten habe ich die Elemente, die ich möglicherweise in meiner Arbeit verwenden könnte, mit lila Häkchen markiert. Allerdings sind das nur drei Bilder der gesamten Generationenanzahl. Die Wahrscheinlichkeit steigt, dass Sie Ihre Zeit verschwenden und am Ende nichts haben, da Sie das Ergebnis immer noch mit Formen in Photoshop korrigieren müssen. Es wäre einfacher, diese Flasche mit denselben Formen zu zeichnen oder sie gemäß einer bekannten Pipeline in 3D zu modellieren.

Deep-Learning-Modelle zeichnen sich durch Wiederholung aus. Sie verwenden wiederholt die Elemente, mit denen Sie sie gefüttert haben, und wenn sie einmal auf eine Flasche mit einer bestimmten Form stoßen, werden sie diese Form weiterhin erzeugen und nichts grundlegend Neues hervorbringen.

Eine weitere Herausforderung besteht darin, dem Modell genau zu erklären, was es sieht und wie es funktioniert. Es gibt verschiedene Trainingsmethoden, aber die praktischste Methode besteht darin, die hochgeladenen Bilder zu analysieren und jeweils eine Textbeschreibung zu erstellen. Die Person, die das Modell trainiert, kann in diese Textdatei eintauchen und die Beschreibung überprüfen.

Manchmal macht die KI Fehler oder versteht nicht, was sie sieht. Ein Text könnte beispielsweise lauten: „Eine grüne Flasche mit einem Holzkorken und einer Flüssigkeit darin“, obwohl die Flasche eigentlich durchsichtig ist. Wenn Sie dies zulassen, werden Sie jedes Mal, wenn Sie nach einer grünen Flasche fragen, weiterhin durchsichtige Flaschen servieren, egal was passiert. Sie könnten jede Beschreibung manuell überprüfen, aber was wäre, wenn Sie Hunderte solcher Bilder hätten? Der Aufwand für die Feinabstimmung ist hoch.

Ich zeige ein weiteres Beispiel einer erfolglosen Generierung eines großen Datensatzes: Hier können Sie feststellen, dass das Ergebnis manchmal mit der Ästhetik übereinstimmt, Sie jedoch nicht herausfinden können, was dargestellt wird. Auch wenn ich erkennen kann, woher die KI einzelne Elemente hat.

Hier sind die Lektionen, die wir beim Experimentieren mit generativen Modellen gelernt haben:

Zusammenfassend lässt sich sagen, dass wir noch weit von dem Punkt entfernt sind, an dem generative Modelle unsere Arbeit für uns erledigen können, wir sie aber als weiteres Werkzeug nutzen können. Zusätzlich zu organischen Symbolen, in denen wir schon ziemlich gut sind, können wir Hilfsmaterialien, Muster, Poster, Hintergründe und Teile von Hintergründen generieren – all diese Steine, Bäume und Blumen nehmen normalerweise viel Zeit in Anspruch, das ist akribisch arbeiten. Sie lassen sich viel schneller im gewünschten Stil generieren und collagieren.

Wir haben diese Ansätze noch nicht auf das gesamte Team skaliert und sind daher nicht zu 100 % in unsere Prozesse integriert. Wir sind der Meinung, dass es noch zu früh ist, dieses Problem in Angriff zu nehmen, solange wir nicht alle Möglichkeiten ausgelotet haben. Aber ich glaube, dass KI-Modelle es Künstlern ermöglichen werden, in gewisser Weise komplexere Dinge zu schaffen.

Wenn ich eine Aufgabe plane, schätze ich ab, was ich innerhalb des vorgegebenen Zeitrahmens erledigen kann. Es ist wie das Meme mit zwei Cowboys, bei dem einer der Manager und der andere der Designer ist. „Wie viel Zeit werden Sie für diese Aufgabe aufwenden?“ vs. „Wie viel Zeit muss ich für diese Aufgabe aufwenden?“ In der gleichen Zeit werden wir in der Lage sein, komplexere Dinge zu erschaffen. Und das ist ein riesiger Vorteil.

Haben Sie eine Geschichte, die Sie gerne teilen möchten? Erreichen Sie uns unter[email protected]

[email protected]