Generative AI: Was ist das eigentlich?

Diese Abbildung basiert auf Bildern, die mit Stable Diffusion Web erstellt wurden
Was macht Generative KI?
Generative Künstliche Intelligenz (GenKI) verwendet Modelle basierend auf maschinellem Lernen, die Inhalte generieren können. Beliebte Modalitäten von GenKI-Inhalten sind:
- Text: Zusammenfassungen, Antworten, Romane, Gedichte, Computercode
- Bilder: Gemälde, Grafiken, Sequenzen von Bildern (genannt Videos), 3D-Modelle
- Audio: Sprache, Musik
- Moleküle: Proteine, Medikamente
Okay, aber wie funktioniert das?
Bis in die frühen 2020er Jahre verwendete fast jede praktische KI-Anwendung ein sogenanntes diskriminatives Modell: Es wurde darauf trainiert, eine Kategorie (z.B. Katze) für einen Input (z.B. ein bestimmtes Bild) zu bestimmen. Genauer gesagt darauf, die Wahrscheinlichkeit $\mathbf{p}$ abzuschätzen, dass ein bestimmter Input $x$ zur Kategorie $y$ gehört: $\mathbf{p}(y|x)$. Diskriminative Modelle wurden hauptsächlich deshalb verwendet, weil das zugehörige generative Problem in der Regel viel schwieriger zu lösen ist (und weil sie für die meisten Anwendungen ausreichend waren).
Generative KI modelliert das Gegenteil: $\mathbf{p}(x|y)$, also zum Beispiel die Wahrscheinlichkeit, bestimmte Pixelwerte in einem Bild zu beobachten, vorausgesetzt, es enthält eine Katze. Während diskriminative Modelle jedem Input eine bestimmte Kategorie zuweisen, lernen generative Modelle, wie der Input selbst im Allgemeinen aussieht (seine sogenannte Verteilung). Dies erfordert (typischerweise sehr viele) Beispiele - in unserem Fall Bilder von Katzen - und setzt voraus, dass diese Beispiele gemäß einer unbekannten Verteilung $\mathbf{p}_{\mathrm{data}}$ erstellt wurden. Das Ziel besteht darin, ein generatives Modell $\mathbf{p}_{\mathrm{model}}$ zu erstellen, das $\mathbf{p}_{\mathrm{data}}$ nachahmt.
Wie erstellt man ein gutes generatives Modell und generiert Inhalte?
In den letzten Jahrzehnten wurden verschiedene Algorithmen entwickelt um ein generatives Modell $\mathbf{p}_{\mathrm{model}}$ unter Verwendung von Trainingsdaten (den Beobachtungen) zu erstellen. Ich werde Details für einen späteren Beitrag aufheben; aber derzeit sind autoregressive Modelle unter Verwendung von Transformern für Text und diffusionsbasierte Modelle für Bilder und Sprache der Stand der Technik (nach der Dominanz der Generativen Adversarialen Netzwerke GANs bis etwa 2020). Aber wie weiß man, ob ein Modell gut ist?
Die kurze Antwort: Wenn man damit gute Inhalte generieren kann. Dies geschieht durch sogenanntes Sampling: Die Werte $x$ sind unsere Inhalte - sie codieren ja den Input, z.B. ein Bild. Sobald wir ein Modell $\mathbf{p}_{\mathrm{model}}(x)$ haben, können wir zufällige Stichproben von $x$ ziehen: Das bedeutet, Werte von $x$ auszuwählen, die häufiger höheren Werten von $\mathbf{p}_{\mathrm{model}}$ entsprechen als niedrigeren Werten. Damit dies gut funktioniert, sollte unser $\mathbf{p}_{\mathrm{model}}(x)$ eine gute Näherung an $\mathbf{p}_{\mathrm{data}}(x)$ sein und es sollte ein effizientes Sampling ermöglichen - ein Prozess, der kompliziert und langsam sein kann.
Der Aufstieg der Generativen KI
Warum ist Generative KI gerade jetzt so erfolgreich geworden? Die Antwort hat zwei Teile:
- Warum jetzt: Erst jetzt sind a) die notwendigen Hardware-Ressourcen (z.B. leistungsstarke GPUs mit viel Arbeitsspeicher) verfügbar geworden und b) die schweren Probleme der Generativen KI wurden in vielen wichtigen Fällen gelöst, zusammen mit allgemeinen Verbesserungen im maschinellen Lernen wie bei Optimierungsalgorithmen und Regularisierungstechniken.
- Warum überhaupt: Generative KI ist einfach eine anspruchsvollere und leistungsfähigere Form von KI, die ein umfassenderes Verständnis von Daten ermöglicht. Für die meisten Forscher ist offensichtlich, dass für jede Intelligenz, die mit der menschlichen vergleichbar ist, generatives Modellieren Teil der Lösung sein muss.
Tatsächlich legen neurowissenschaftliche Theorien nahe, dass unsere Wahrnehmung der Realität nicht ein komplexes diskriminatives Modell ist, das unsere sinnlichen Eindrücke (wie Sehen und Hören) verwendet, um vorherzusagen (zu kategorisieren), was wir erleben. Stattdessen handelt es sich um ein generatives Modell, das unsere Umwelt simuliert und versucht, den zukünftigen Zustand dieser Umwelt genau vorherzusagen. Tatsächlich behaupten einige Theorien sogar, dass das, was wir als Realität wahrnehmen, eigentlich ein Produkt unseres internen generativen Modells ist.