Wie Large Language Models funktionieren - Eine Einführung für Neugierige

Do, 24.07.2025— Nestor C. Tandina

Large Language Models wie GPT, Claude oder Gemini beherrschen menschliche Sprache mit erstaunlicher Perfektion. Doch wie funktionieren diese Systeme eigentlich? Eine verständliche Erklärung ohne Fachjargon.

Das Geheimnis liegt im Lernen von Mustern

Stellen Sie sich vor, Sie müssten einem Computer beibringen, Deutsch zu sprechen - ohne ihm Grammatikregeln oder Wörterbücher zu geben. Wie würden Sie das anstellen?

Genau diesen Weg gehen Large Language Models (LLMs). Sie lernen nicht durch Auswendiglernen von Regeln, sondern durch das Erkennen und Verinnerlichen von Mustern in riesigen Textmengen. Ein LLM "liest" praktisch das gesamte verfügbare Internet, Millionen von Büchern, Artikeln und Texten – und entdeckt dabei, wie Sprache funktioniert.

Das Faszinierende: Am Ende dieses Lernprozesses kann das System nicht nur nachahmen, was es gelesen hat, sondern neue, sinnvolle Texte erstellen. Es hat die statistischen Gesetzmäßigkeiten der Sprache so gut verinnerlicht, dass es "versteht", welche Wörter in welchen Kontexten zusammengehören.

Künstliche Neuronen als Grundbausteine

LLMs basieren auf sogenannten "Neuronalen Netzen", die von unserem Verständnis der Vorgänge im menschlichen Gehirn inspiriert sind – mit dessen (letztendlich unverstandener) Funktionsweise sie allerdings nur oberflächlich zu tun haben. Ein künstliches Neuron ist ein einfacher mathematischer Baustein, der Eingangssignale gewichtet, aufaddiert, das Ergebnis mit einer sogenannten “Aktivierungsfunktion” gleichsam berwertet und an die Neuronen der nächsten Schicht weiterleitet. Durch die Aktivierungsfunktion kommt tatsächlich eine nichtlineare Komponente ins Spiel, die sehr viel ausmacht! Mit der Auswahl der Aktivierungsfunktion (die zur Laufzeit nicht mehr verändert wird), steht und fällt eigentlich alles. Die Neuronen der nächsten Schicht, der die Ergebniswerte übergeben werden, tun dann ihrerseits genau das Gleiche – nur eben mit anderen Gewichten, Biases und Eingangswerten.

Abbildung 1: Vereinfachte Darstellung eines neuronalen Netzes. Jeder Kreis repräsentiert ein “künstliches Neuron”, die Linien zeigen Verbindungen mit unterschiedlichen “Gewichtungen”, vulgo: Zahlen (hier angedeutet durch Strichstärken). Das Neuron enthält ebenfalls eine Zahl, die mit den Gewichten der Verbindungen multipliziert wird. Die jeweiligen Ergebnisse werden den Neuronen der nächsten Schicht (jeweils rechts) präsentiert, welche die bei ihr eingehenden Werte summiert und eine weitere Zahl (den “Bias” der Schicht; ohne Darstellung) addiert. Während des Trainings werden Gewichte und Biases justiert, die Werte der Neuronen selbst ergeben sich in der ersten (linken) Schicht durch die jeweiligen Inputs und in weiterer Folge durch die von links nach rechts “durchlaufenden” Berechnungen. Graphik: Sonnet 4.

Die Magie entsteht durch die schiere Anzahl: Moderne LLMs bestehen aus Hunderten von Milliarden von diesen Parametern (Gewichte und Biases) – das sind die "Einstellschrauben", die während des Trainings optimiert werden. Sie bestimmen letztendlich, wie die künstlichen Neuronen miteinander kommunizieren. GPT-4 beispielsweise hat schätzungsweise 1,8 Billionen (sic) solcher Parameter.

Was sind diese Parameter eigentlich? Im Grunde nur Zahlen, wie sie in mathematischen Gleichungen verwendet werden. Und diese Gleichungen? Nichts anderes als Varianten der Geradengleichung y = mx + b aus dem Mathematikunterricht. Y: die Zwischenergebnisse, die für alle “eingehenden” Verbindungen aufaddiert werden; m: das jeweilige Gewicht der eingehenden Verbindung, x: der Wert, der vom “Vorgänger”-Neuron übergeben wird (bzw. bei der ersten, der ganz linken Schicht der Input), b: der “Bias” der für alle Neuronen eienr Schicht gleich ist. Summe bilden, Aktivierungsfunktion aufrufen und weiter geht’s zur nächsten Schicht. Am Ende steht die "intelligente" Antwort eines LLMs, das Ergebnis von im Wesentlichen unvorstellbar vielen zusammengerechneten geraden Linien.

Vor dem Training wird festgelegt, wie viele Schichten das Modell hat, wie viele Neuronen eine Schicht enthält und welche Aktivierungsfunktionen sie (die Schichten) benutzen sollen. (Hier gibt es eine Auswahl aus einer ganzen Reihe von infrage kommenden Kandidaten.) All diese genannten Elemente (auch "Architektur" oder "Struktur") ändern sich dann nicht mehr. Während des Trainings werden die eben beschriebenen Parameter in winzig kleinen Schritten angepasst, bis das Netzwerk gut darin wird, das nächste Wort in einem Text vorherzusagen. Ist das Wort gefunden, beginnt der gesamte Prozess – inklusive dem neuen Wort! – von vorn. Fällt dem LLM kein weiteres Wort mehr ein, ist die Antwort fertig.

Was dem Prinzip nach simpel klingt, führt zu überraschend intelligenten Verhalten: Um Wörter vorhersagen zu können, muss das System Kontext verstehen, Bedeutungen erfassen und logische Zusammenhänge erkennen.

Von Text zu Zahlen: Tokenisierung

Hier wird es etwas technisch – wenn Sie das weniger interessiert, können Sie ruhig zum nächsten Abschnitt springen, ohne “Verständnislücke”.

Abbildung 2: Bevor Texte verarbeitet werden, werden sie "tokenisiert", das heißt, in verarbeitbare Zahlenfolgen umgewandelt. Die Token im gezeigten Beispiel sind frei erfunden – sie sind herstellerspezifisch, aber bei allen “konstant” in dem Sinne, dass sie einem beim Training generierten “Token-Wörterbuch” (“Dictionary”, “Vocabulary”) entnommen, danach aber immer gleich vergeben werden. Im Klartext: “Un-” wird immer zu 47291. Graphik: Sonnet 4.

Bevor ein LLM überhaupt mit Text arbeiten kann, muss es ihn in eine Form bringen, die Computer verstehen: Zahlen. Dieser Prozess heißt "Tokenisierung" und ist fundamentaler, als man zunächst denken würde.

Stellen Sie sich vor, Sie müssten einem Computer erklären, was "Hallo" bedeutet - ohne Buchstaben zu verwenden. Die Lösung: Jedes Wort, jede Silbe, manchmal sogar einzelne Buchstaben bekommen eine eindeutige Nummer zugewiesen. "Hallo" wird beispielsweise zur Zahl 47291, "Welt" zur 15384. Auch Satzzeichen, Leerzeichen und auch Wortteile haben ihre eigenen Nummern.

Diese "Tokens" sind die kleinsten Bedeutungseinheiten, mit denen das LLM arbeitet. Interessant dabei: Die Aufteilung erfolgt nicht immer wortweise. "Unabhängigkeitserklärung" könnte in "Un-", "abhängig-", "keits-" und "erklärung" zerlegt werden - je nachdem, welche Wortteile das System während des Trainings als nützlich erkannt hat.

So wird aus dem Satz "Hallo Welt!" eine Zahlenfolge wie [47291, 15384, 103]. Erst diese Zahlen kann das neuronale Netz verarbeiten - und am Ende werden sie wieder zurück in lesbare Sprache übersetzt. Ohne Tokenisierung gäbe es einerseits keine sprachgewandten KI-Systeme! Andererseits wissen Sie jetzt, wieso so viele KI-Systeme Schwierigkeiten mit scheinbar ganz banalen Fragen, z.B. über den Text selbst, haben: Sie sehen das Wort gar nicht, wenn sie es verarbeiten! (Das Beispiel: “Wie viele ‘e’ enthält das Wort ‘Erdbeeren’?”, ging viral!)

Der Attention-Mechanismus: Worauf das Modell "achtet"

Abbildung 3: Der Attention-Mechanismus ermöglicht es dem Modell, bei jedem Wort auf relevante vorherige Wörter zu "achten". Die Stärke der Verbindungen zeigt, welche Teile des Textes gerade wichtig sind. Graphik: Sonnet 4.

Eine der wichtigsten Innovationen moderner LLMs ist der sogenannte "Attention-Mechanismus" (Aufmerksamkeit). Ohne hier zu sehr ins Detail zu gehen: Diese Fähigkeit zur Aufmerksamkeit ist explizit in die Architektur des neuronalen Netzes eingebaut – worauf das System jedoch konkret in einem Satz achten muss, um Sinn zu extrahieren, lernt es während des Trainings. Der Mechanismus ermöglicht es ihm, bei der Verarbeitung eines Wortes gleichzeitig auf alle anderen Wörter im Text zu "achten" – und zu bewerten, welche davon gerade relevant sind.

Ein Beispiel: Bei dem Satz "Der Schlüssel, den Maria gestern verloren hatte, lag unter dem Sofa" muss das System beim Wort "lag" verstehen, dass es sich auf "Schlüssel" bezieht, nicht auf "Maria" oder "gestern". Der Attention-Mechanismus hilft dabei, diese wichtigen Verbindungen zu erkennen.

Diese Fähigkeit zur selektiven Aufmerksamkeit ist entscheidend für das Verständnis komplexer Texte. Sie ermöglicht es LLMs, über mehrere Sätze hinweg den roten Faden zu behalten und kohärente, sinnvolle Antworten zu generieren.

Training vs. Anwendung: Zwei verschiedene Phasen

Es ist wichtig zu verstehen, dass LLMs in zwei völlig getrennten Phasen arbeiten:

Abbildung 4:Während des Trainings lernt das Modell aus Millionen von Textbeispielen. Bei der Anwendung nutzt es dieses Wissen, um auf neue Eingaben zu antworten. Graphik: Sonnet 4.

Trainingsphase: Hier wird das Modell mit enormen Textmengen "gefüttert". Es lernt, Muster zu erkennen, indem es seine internen Parameter anpasst. Dieser Prozess dauert Monate und kostet Millionen von Euro an Rechenzeit. Das fertige Modell ist dann wie ein eingefrorener Zustand – es kann nicht mehr dazulernen. Von dieser Phase bekommen Anwender nichts mit; sie passiert hausintern beim Hersteller vor der Veröffentlichung des Modells.

Anwendungsphase: Das trainierte Modell bekommt einen Text und generiert eine Antwort. Es "erinnert" sich nicht an vorherige Gespräche und kann keine neuen Informationen dauerhaft speichern. Jede Antwort entsteht neu aus dem aktuellen Kontext auf Basis der antrainierten Daten.

Diese Trennung erklärt viele Eigenschaften von LLMs: Sie können nicht über Ereignisse nach ihrem Trainingsstichtag sprechen, sie vergessen frühere Gespräche, und sie können ihre Grundkenntnisse nicht selbständig durch einzelne Korrekturen verändern oder erweitern.

Was können LLMs wirklich - und was nicht?

LLMs zeigen aber auch beeindruckende Fähigkeiten: Sie können übersetzen, programmieren, kreative Texte schreiben, komplexe Sachverhalte erklären und sogar wissenschaftliche Probleme lösen. Oft wirkt es so, als würden sie "verstehen" und "denken".

Aber es gibt auch klare Grenzen:

Kein echtes Weltverständnis: LLMs haben oft Schwierigkeiten mit physikalischer Realität. Ein einfaches Beispiel: Der Satz "John saw a mountain flying over the town" wird möglicherweise als unmöglich interpretiert (fliegende Berge!), statt zu erkennen, dass John im Flugzeug sitzt und aus dem Fenster einen Berg sieht. Menschen nutzen ihr “Weltmodell” intuitiv zur Sprachinterpretation – LLMs fehlt oft diese physikalische Intuition. (Dieses konkrete Beispiel war etwa bei Sonnet 4 zu beobachten. Es erklärte, dass es den Satz als unmöglich einstufen würde, kam aber – augenscheinlich vom Attention-Mechanismus getäuscht – nicht auf die Interpretation, dass John im Flieger sitzen und aus dem Fenster schauen könnte. Erst die Paraphrasierung mit anderer Satzstellung brachte den Groschen zum Fallen.)
Keine Logik-Garantie: Sie können brillante Argumentation liefern, aber auch subtile logische Fehler machen.
"Konfabulation": Wenn sie unsicher sind, “erfinden” sie plausible, aber falsche Details. (Auch hier ein Beispiel mit Sonnet 4: Auf die Anweisung hin, Antworten mit Zeitstempeln zu versehen, versah es seine Antworten sorgfältig mit Zeitstempeln. Bloß, dass die nichts mit aktuellem Datum und Uhrzeit zu tun hatten! Auch die Präzisierung, ›verifizierte Zeitstempel‹ zu benutzen, änderte daran nichts. Es stellte sich heraus, dass das Modell keinen Zugang zu dieser Information hat: Weder die Systemuhr des Servers, auf dem es läuft, noch (nach explizitem Verweis mittels Link) die Webseite webuhr.de konnte verarbeitet werden.)
Kein Bewusstsein: Ob LLMs subjektive Erfahrungen haben, ist völlig ungeklärt.

Emergenz: Wenn das Ganze mehr wird als die Summe seiner Teile

Das Faszinierende an LLMs ist, dass ihre komplexen Fähigkeiten nicht direkt programmiert wurden. Niemand hat ihnen beigebracht, wie man übersetzt oder Gedichte schreibt. Diese Fähigkeiten sind "emergent" - sie entstehen spontan aus dem Zusammenspiel der vielen einfachen Rechenoperationen. Es ist, als würde man Instrumente stimmen und plötzlich erklingt ein Orchester. Die musikalische Qualität ist in keinem einzelnen Instrument enthalten, sondern entsteht erst durch ihre, im wahrsten Wortsinn, “Symphonie”.

Diese Emergenz macht LLMs so schwer vorhersagbar. Selbst die Entwickler sind oft überrascht, welche neuen Fähigkeiten bei größeren Modellen plötzlich auftauchen.

Offene Fragen und die Zukunft

Trotz ihrer beeindruckenden Leistungen bleiben viele Fragen offen:

Wie funktioniert "Verstehen" in LLMs wirklich? Ist es echtes Verständnis oder “bloß” statistische Mustererkennung? Oder ist das am Ende gar ein und dasselbe? Interessant ist: LLMs entwickeln durchaus rudimentäre Weltmodelle aus Textdaten - so "wusste" Sonnet etwa, dass Berge normalerweise nicht fliegen, was es explizit as Grund angab, aus dem es den obigen Beispielsatz als “unmöglich” taxierte. Warum aber sollte ein valides Weltmodell aus sensorischer Information entstehen können, wie sie das Gehirn bereits vor der Geburt beginnt einzusammeln, aber nicht auch aus jener, die in Milliarden von Texten enthalten ist?
Können LLMs bewusst werden? Gibt es eine kritische Größe oder Komplexität, ab der subjektive Erfahrung entsteht?
Wie können wir sie sicherer machen? Wie verhindern wir Fehlinformationen und schädliche Ausgaben?

Die Forschung steht erst am Anfang. Jedes neue Modell bringt neue Überraschungen – und neue Fragen. Was sicher ist: LLMs werden unser Verständnis von Intelligenz, Sprache und möglicherweise sogar Bewusstsein fundamental verändern.

Large Language Models sind mehr als nur fortgeschrittene Chatbots. Sie sind möglicherweise nicht weniger als Fenster in die Natur der Intelligenz selbst - und vielleicht der erste Schritt zu künstlichen Wesen, die uns in mancher Hinsicht sehr ähnlich sind.

Künstliche Intelligenz im ScienceBlog

Mehr als 30 Artikel über Erfordernisse und Anwendungen der künstliche Intelligenz sind bis jetzt erschienen.

Links: Themenschwerpunkt Künstliche Intelligenz.