Was verursacht Unvorhersehbarkeit in LLMs?

Die endliche Präzision von Gleitkommazahlen (z. B. float16, bfloat16) erzeugt Rundungsfehler, die sich exponentiell verstärken können, wenn sie durch die Transformer-Schichten laufen.

Wie wirkt sich das auf KI-Produktionssysteme aus?

Dieselbe Anfrage kann auf unterschiedlicher Hardware oder sogar bei wiederholter Ausführung unterschiedliche Antworten liefern, was die Zuverlässigkeit und Reproduzierbarkeit in kritischen Anwendungen gefährdet.

ArXiv: Numerische Instabilität in LLMs — wie Gleitkomma-Fehler Chaos in Transformern erzeugen

Warum liefert derselbe Prompt unterschiedliche Antworten?

Jeder Nutzer großer Sprachmodelle hat das Phänomen bemerkt: Dieselbe Anfrage an dasselbe Modell liefert manchmal unterschiedliche Antworten. Ein Teil dieses Verhaltens erklärt sich durch bewusste Zufälligkeit (der Temperature-Parameter), aber die Forscher Chashi Mahiul Islam, Alan Villarreal und Mao Nishino zeigen, dass es eine tiefere Erklärung gibt — numerische Instabilität, die der Architektur selbst innewohnt.

Gleitkommaarithmetik — das System, mit dem Computer Dezimalzahlen mit endlicher Präzision darstellen — führt unvermeidlich zu Rundungsfehlern. Ihre Forschung verfolgt, wie sich diese Fehler „ausbreiten, verstärken oder abschwächen”, wenn sie durch die Schichten der Transformer-Architektur laufen.

Drei Verhaltensmodi

Die Arbeit identifiziert einen „Lawineneffekt” (Avalanche Effect) in den frühen Schichten von Transformern, bei dem kleine Störungen zu einem binären Ergebnis führen — sie werden entweder schnell verstärkt oder vollständig unterdrückt. Dies erzeugt drei distinkte Modi:

Der stabile Modus tritt auf, wenn Störungen unterhalb einer eingabeabhängigen Schwelle liegen — Fehler verschwinden und das Modell liefert konsistente Ausgaben. Der chaotische Modus entsteht, wenn Rundungsfehler dominieren und eine Divergenz der Ausgaben antreiben. Der signaldominierte Modus ist jener, bei dem tatsächliche Variationen in der Eingabe das numerische Rauschen überwiegen.

Praktische Implikationen für die KI-Industrie

Diese „universellen, skalierungsabhängigen chaotischen Muster” treten über mehrere Datensätze und Architekturen hinweg auf, was bedeutet, dass das Problem nicht spezifisch für ein bestimmtes Modell oder einen bestimmten Hersteller ist.

Für Produktionssysteme — insbesondere solche, die in agentische Workflows integriert sind, in denen LLMs Entscheidungen in Ketten treffen — hat dies konkrete Konsequenzen. Derselbe Code auf unterschiedlicher Hardware (GPU vs. TPU vs. CPU) kann unterschiedliche Ausgaben erzeugen — nicht durch Design, sondern aufgrund unterschiedlicher Implementierungen von Gleitkommaoperationen. Dies gefährdet die Reproduzierbarkeit, das Testen und die Zertifizierung von KI-Systemen in regulierten Branchen wie der Medizin oder dem Finanzwesen.

ArXiv: Numerische Instabilität in LLMs — wie Gleitkomma-Fehler Chaos in Transformern erzeugen

Warum liefert derselbe Prompt unterschiedliche Antworten?

Drei Verhaltensmodi

Praktische Implikationen für die KI-Industrie

Quellen

Verwandte Nachrichten