Die Zukunft von Großen Sprachmodellen

Sieben Vorhersagen für zukünftige LLMs
Große Sprachmodelle (LLMs) scheinen aus der Zukunft zu stammen - tatsächlich sind sie in vielerlei Hinsicht aber immer noch sehr grob und verdanken einen Teil ihrer erstaunlichen Leistung Brute-Force: mehr Rechenleistung, mehr Trainingsdaten, größere Modelle. LLMs der Zukunft werden ganz anders aussehen, und im Folgenden werde ich sieben Vorhersagen über deren Entwicklung treffen. Alle sieben Aspekte werden bereits intensiv erforscht und tauchen teilweise bereits in aktuellen LLMs auf und könnten früher eintreffen, als du denkst - die Mehrheit vielleicht bereits 2024.
1. Kleinere LLMs
Ja, das ist richtig. Der aktuelle Trend geht in Richtung größerer LLMs: GPT-4 soll angeblich etwa eine Billion Parameter haben, während im Jahr 2018 ein Modell mit 100 Millionen Parametern als riesig galt! Dieser Trend kann jedoch nicht fortgesetzt werden: Das Training und die Verwendung solcher Modelle sind sehr teuer: OpenAI verliert Geld, wenn Kunden ihre Dienste nutzen (im Austausch für Reputation und Marktanteile). Noch größere Modelle sind wirtschaftlich einfach nicht sinnvoll. Und selbst wenn jemand bereit wäre, den Preis zu zahlen: Das Training von GPT-4 erforderte etwa 7,5 MWh Energie, der monatliche Verbrauch von 10 000 US-Haushalten. Es stünde schlichtweg nicht genügend Energie zur Verfügung, um das um den Faktor 1000 zu steigern.
Aktuelle Modelle wie Llama2-7B oder Mistral-7B, die mehr als 100-mal kleiner sind als GPT-4, zeigen bemerkenswerte Leistung, schlagen bei einigen Anwendungen sogar GPT-4 und hinken selten weit hinterher. Dieser Trend wird sich fortsetzen, insbesondere da LLMs zunehmend externe Wissensquellen wie Websuche, Taschenrechner oder Datenbanken nutzen: Es ist nicht mehr notwendig, das gesamte Wissen direkt in einem LLM zu speichern, sondern nur die Fähigkeit, es bei Bedarf zu finden. Dies wird LLMs kleiner, billiger und schneller machen, ohne die Leistung zu beeinträchtigen.
2. Spezialisierte LLMs
Das “G” in GPT steht für “General”, und tatsächlich ist dies der Hauptunterschied zu seinen Vorgängern: Es ist nicht darauf ausgelegt, nur eine einzige bestimmte Aufgabe gut zu erfüllen. Während dies wissenschaftlich faszinierend ist und von vielen als ein Schritt in Richtung einer allgemeinen KI angesehen wird, macht es wirtschaftlich selten Sinn: Unternehmen, die LLMs in ihre Produkte integrieren, benötigen in der Regel nur eine gute Leistung bei wenigen Aufgaben: z.B. Fragen zu ihrem Produkt beantworten oder Sprachen übersetzen. Dies kann oft erreicht werden, indem man diese Fähigkeiten aus einem LLM extrahiert und in ein Modell überträgt, das um den Faktor 1000 kleiner ist - und daher (fast) 1000-mal schneller und billiger ist. Und ein solches kleineres Modell kann sogar auf deinem Handy laufen und braucht keinen Serverpark. Die Spezialisierung wird also ebenfalls LLMs kleiner machen: indem sie bei Aufgaben schlechter werden, für die man sie sowieso nicht verwendet. Dies ist ein Trend, den wir bereits bei einigen kleinen LLMs sehen: diese übertreffen bei speziellen Aufgaben GPT-4, während sie bei anderen Aufgaben sehr schlecht abschneiden.
3. Omni-modale LLMs
In letzter Zeit sind LLMs multimodal geworden: Sie akzeptieren verschiedene Modalitäten als Eingabe: GPT-4 kann sowohl Text als auch Bilder verarbeiten. Zukünftige LLMs werden auch Sprache und Videos als Eingabe akzeptieren - tatsächlich tun dies einige bereits. Vielleicht werden LLMs eines Tages auch riechen und fühlen können, wer weiß… aber noch wichtiger ist: Zukünftige LLMs werden in der Lage sein, all diese Eingaben nahtlos zu integrieren, genauso wie Menschen es tun: Um ein Objekt in der realen Welt zu erkunden, nutzen wir alle unsere Sinne und kombinieren die Informationen. Oder könntest du dir vorstellen, nur durch eine Beschreibung zu verstehen, was ein “Auto” ist? Oder die Absichten einer Person nur durch Beobachtung zu beurteilen?
4. Der Niedergang der Black-Box LLMs
Derzeit findet ein Kampf zwischen “Black-Box” LLMs wie ChatGPT und Bard und offeneren Modellen wie Llama2 oder Falcon statt. Niemand weiß, mit welchen Daten ChatGPT trainiert wurde oder wie es intern funktioniert. Um es zu verwenden, schickst du deine Anfrage an eine OpenAI- oder Microsoft-Black-Box und erhältst eine Antwort, ohne zu wissen, wie die Antwort zustande kam. Modelle wie Llama2 können von jedem Benutzer heruntergeladen, inspiziert und verbessert werden und dann wieder mit der Community geteilt werden - und viele leistungsstarke LLMs dürfen sogar für kommerzielle Anwendungen verwendet werden. Schon jetzt stehen Hunderte von Varianten von Llama2 zur Verfügung: Innovationen schreiten rasant voran. Während es Millionen von Dollar und viele Monate kostet, ein Modell von Grund auf zu trainieren, dauert es nur wenige Stunden und wenige Dollar, ein neues Modell auf der Grundlage bestehender offener Modelle zu erstellen. Dies ist etwas, worüber sich Google-Mitarbeiter auch im Klaren sind. Ich glaube, langfristig wird die Agilität offener Modelle die Black-Boxes überflüssig machen.
5. Transformer-Nachfolger
Im Herzen jedes aktuellen LLMs befinden sich sogenannte Transformer-Blöcke. Ohne hier ins Detail zu gehen, ermöglichen sie schnelles Training und leistungsfähige Modelle. Es gibt jedoch Nachteile - nein, sie sind nicht dumm, wie Yann LeCun, Chief Scientist von Meta AI, behauptet. Aber sie sind bei der Verwendung selbst langsam und sie können nicht mit langen Eingaben umgehen. Das ist wichtig, denn eine lange Eingabe ist erforderlich, damit ein LLM sich an eine längere Diskussion erinnern kann oder ihm ein ganzes Buch oder eine Datenbank als Eingabe dienen kann. Die Nachfolge von Transformern durch andere Architekturen ist ein sehr aktives Forschungsgebiet: Kürzlich hat Microsoft Retentive Network: A Successor to Transformer for LLMs veröffentlicht, während andere glauben, dass Diffusionsmodelle die Zukunft sind. Diffusionsmodelle dominieren heute die Bildgenerierung (Stable Diffusion, Midjourney) und die Audioerzeugung, und obwohl es schwieriger ist, sie auf die Textgenerierung anzuwenden, ist dies ein sehr vielversprechendes Forschungsgebiet.
6. Bald gehen uns die Trainingsdaten aus
Aktuelle Studien zeigen, dass uns bald die Daten ausgehen werden, um LLMs zu trainieren. Derzeit verwenden wir bereits bis zu 10% aller verfügbaren hochwertigen Trainingsdaten. Da wir neue Daten viel langsamer erzeugen als sich die Größe unserer Trainingssätze erhöht, werden wir wahrscheinlich bereits bis 2024 alle Daten verwenden. Ist dies das Ende der aktuellen Praxis, Modelle in jeder Generation durch Hinzufügen von mehr Daten zu verbessern? Wahrscheinlich noch nicht: Wir werden kreativer im Umgang mit qualitativ schlechteren Daten sein, welche voraussichtlich erst etwa 2030-2050 erschöpft sein werden, schätzen Forscher.
Es gibt jedoch ein weiteres Problem: Nach Meinung einiger Experten wird bis 2025-2030 mehr als 99% des Inhalts im Internet von KI generiert. Das mag spekulativ sein, aber bereits heute wird ein großer Teil aller Inhalte von KI erstellt. Und das Web ist die Hauptquelle für Trainingsmaterial für LLMs. Das bedeutet, dass aktuelle LLMs möglicherweise die letzte Generation sind, die hauptsächlich mit menschlich generierten Inhalten trainiert wird - während zukünftige LLMs überwiegend mit Inhalten trainiert werden, die von aktuellen LLMs erstellt wurden! Und es ist nicht möglich, dies zu verhindern, da man Inhalte von Menschen und KI nicht zuverlässig unterscheiden kann. Forscher fürchten, dass dies zukünftige KI-Modelle vergiften wird. In jedem Fall wird die Qualität der Trainingsdaten in der Zukunft abnehmen, während die Menge nicht signifikant zunehmen wird. Die Datenqualität wird in naher Zukunft noch stärker in den Fokus rücken.
7. LLMs und Cybersecurity
Sicherheit ist ein Thema, das im Zusammenhang mit LLMs selten diskutiert wird - natürlich abgesehen von der Vorstellung, dass KIs die Menschheit versklaven werden. Das wird sich ändern. Eine kürzlich durchgeführte Studie zur Prompt-Injektion kommt zu dem Schluss, dass Varianten aller traditionellen Cybersecurity-Bedrohungen auch LLM-Systeme beeinflussen können. Dies liegt daran, dass LLMs heute keine isolierten Systeme mehr sind - sie können Input (z.B. aus der Websuche) verarbeiten und Output erzeugen (z.B. E-Mails im Namen des Benutzers schreiben und senden). Phishing, Betrügereien, Denial-of-Service-Angriffe, Datenlecks und vieles mehr sind möglich. Und während traditionelle Webanwendungen in der Regel gut geschützt sind, gibt es im Zusammenhang mit LLMs noch keine Cybersecurity. Das wird sich schnell ändern.