Die grenzenlose Welt der Large Language Models – wie grenzenlos sind sie wirklich?
Seit zwei Jahren sind sie das Hauptthema der digitalen Welt: Large Language Models (LLMs). Ob beim Beantworten von Fragen, dem Komponieren von Liedern, der Generierung von Code oder der automatisierten Textanalyse – ihre Einsatzmöglichkeiten scheinen nahezu unbegrenzt.
Doch wie grenzenlos sind LLMs wirklich? Und wo kommen sie eigentlich her?
Ein Buch mit 500 Seiten enthält etwa 250.000 Tokens
Zwei technologische Durchbrüche verhalfen in den letzten Jahren zum Erfolg. Large Language Models lesen Texte nicht wie Menschen. Damit die Technologie versteht, was wir wollen, wandelt sie die Texte in so genannte Tokens um. Tokens sind Zahlenfolgen, anhand derer das Sprachmodell Zusammenhänge erkennt und clustert. Diese Tokens können ganze Wörter, Silben oder häufige Zeichenfolgen sein.
Je nach Schriftgröße und -art enthält ein 500-seitiges Buch etwa 250.000 Tokens. Diese Umwandlungstechnik erhöht die Effizienz und macht die Verarbeitung großer Textmengen robuster – insbesondere bei unbekannten oder neuen Wörtern.
Next-Level-Sprachverarbeitung mit Transformer
Frühere Sprachmodelle waren langsam und hatten ein begrenztes Erinnerungsvermögen. Der Transformer-Ansatz, den es seit 2017 gibt, bringt zwei wesentliche Vorteile mit sich:
- Self-Attention: Der Transformer setzt jedes Wort in Beziehung zu allen anderen Wörtern im Text. Dadurch kann das Modell kontextabhängige Bedeutungen besser erfassen.
- Parallele Verarbeitung: Anstatt jedes Wort einzeln zu analysieren, verarbeitet der Transformer den gesamten Satz gleichzeitig. Das führt nicht nur zu einer schnelleren Verarbeitung langer Texte, sondern verbessert auch das Verständnis von Zusammenhängen über längere Passagen hinweg.
Woher weiß ein Large Language Modell so viel?
Ein LLM muss – ähnlich wie ein Mensch – erst „zur Schule“ gehen. Während des Pretrainings liest die KI Milliarden von Texte aus Wikipedia, Büchern, Nachrichtenseiten, Foren und Code-Datenbanken. Jede Information wird analysiert und in einen entsprechenden Kontext eingeordnet.
Über die Methode der Next-Token-Prediction gewinnt das Modell zunehmend Sicherheit in seinen Annahmen. Dabei erhält es unvollständige Sätze und soll das wahrscheinlichste nächste Wort vorhersagen. Beispielsweise wäre bei dem Satz „Die Sonne geht im Westen …“ die wahrscheinlichste Vorhersage „unter“. Je häufiger die KI diesen Prozess erfolgreich wiederholt, desto präziser werden ihre Wahrscheinlichkeitsannahmen.
Fehlannahmen werden durch einen Algorithmus namens Backpropagation korrigiert. Dieser schickt die Fehler eines LLMs rückwärts durch das Netzwerk und korrigiert die Gewichtung der Fehlaussage, um die Vorhersagequalität iterativ zu verbessen. So passt das neuronale Netz seine Vorhersagen kontinuierlich an.
Das abschließende Fine-Tuning ermöglicht es dem Modell, spezifische Anwendungsfälle abzudecken. Dadurch kann es beispielsweise unangemessene oder gefährliche Inhalte filtern, sich auf bestimmte Sprachstile einstellen oder Fachgebiete wie Medizin oder Recht professionell abdecken.
Eine weit verbreitete Methode ist das Reinforcement Learning from Human Feedback (RLHF). Hierbei bewerten Menschen verschiedene KI-Antworten und helfen dem Modell, bessere Ergebnisse zu liefern. Diese Technik wird auch genutzt, um unsere Skills während ihrer Laufzeit kontinuierlich zu verbessern.
So wächst das Wissen der LLM in kürzester Zeit exponentiell.
Die Grenzen und Herausforderungen von LLMs
Trotz ihres Fortschritts unterliegen LLMs einigen Herausforderungen und Limitierungen, die Nutzer kennen sollten:
- Halluzinationen: Da Large Language Modelle auf Wahrscheinlichkeiten und nicht auf echtem Wissen basieren, können sie falsche oder erfundene Inhalte generieren. Eine Lösung hierfür ist die Retrieval-Augmented Generation (RAG), bei der externe, verifizierte Datenquellen zur Faktenprüfung herangezogen werden.
- Vorurteile (Bias): LLMs spiegeln die gesellschaftlichen Vorurteile ihrer Trainingsdaten wider. Beispielsweise könnte ein Modell den Satz „Ein Arzt ist…“ eher mit „männlich“ als mit „kompetent“ vervollständigen. Um Bias zu reduzieren, nutzen Entwickler vielfältigere Trainingsdaten und setzen Methoden wie RLHF ein.
- Eingeschränktes Langzeitgedächtnis: Obwohl die Sprachmodelle den Kontext über lange Textpassagen erfassen können, besitzen sie kein echtes Langzeitgedächtnis. Alle Informationen einer Sitzung sind nach deren Ende verloren.
Zwei Entwicklungen wirken dieser Schwäche entgegen:- Erweiterung des Kontextfensters: Es bestimmt, wie viele Tokens das Modell gleichzeitig speichern und analysieren kann.
- Memory-Augmented LLMs: Diese speichern Nutzerdaten über mehrere Interaktionen hinweg.
- Hoher Energieverbrauch: Large Language Models sind extrem rechenintensiv. Allein die Anfragen für ChatGPT verbrauchen jährlich 226,82 Millionen kWh – das Doppelte des Energiebedarfs für Bitcoin-Mining. Forschende arbeiten bereits an effizienteren Hardware-Lösungen, um diesen Verbrauch zu senken.
Aktuelle Trends und Forschung: Die Zukunft der Large Language Modelle
Aktuell forscht man an kompakteren Modellen, die leistungsfähig und zugleich ressourcenschonend sind. Ein Beispiel ist Mistral 7B, das mit nur sieben Milliarden Parametern eine Leistung bietet, die mit GPT-3 (175 Milliarden Parameter) vergleichbar ist. Solche Entwicklungen ermöglichen das direkte Ausführen der Modelle direkt auf Smartphones oder Laptops.
Auch das Gedächtnis rückt zunehmend in den Fokus. Künftige Modelle sollen sich langfristig an Nutzer und frühere Konversationen erinnern können. Das ist ein bedeutender Schritt hin zu personalisierten KI-Assistenten.
Ein weiteres Forschungsfeld ist die Multimodalität. Neuere Modelle verarbeiten nicht nur Text, sondern auch Bilder, Videos und Audio, können diese verknüpfen und neu generieren.
Ansätze wie Tree-of-Thoughts und Chain-of-Thoughts verbessern das logische Denken der Modelle. Hierbei rückt die bloße Wahrscheinlichkeitsberechnung in den Hintergrund, während valide Informationen stärker gewichtet werden. Zudem ermöglichen Kombinationen mit Mathematik-Engines wie Wolfram Alpha präzisere Berechnungen in Wissenschaft und Technik.
Der Markt wird derzeit von Closed-Source-Modellen wie ChatGPT dominiert. Doch es zeichnet sich eine Verschiebung zu Open-Source-LLMs ab. Diese bieten mehr Transparenz und Anpassungsmöglichkeiten – bei gleichzeitig geringeren Kosten für Unternehmen und Forschende. Namen wie LLaMA 3, Mistral 7B und Falcon werden in Zukunft eine immer größere Rolle spielen.
Foto von Google DeepMind auf Unsplash