🤖 24 AI
🟢 🤖 Modelle Donnerstag, 16. April 2026 · 2 Min. Lesezeit

ArXiv: Numerische Instabilität in LLMs — wie Gleitkomma-Fehler Chaos in Transformern erzeugen

Warum es wichtig ist

Neue Forschungsarbeit analysiert rigoros, wie Rundungsfehler in der Gleitkommaarithmetik Chaos durch die Schichten der Transformer-Architektur propagieren. Die Arbeit identifiziert drei Verhaltensmodi — stabil, chaotisch und signaldominiert — und beweist, dass numerische Instabilität kein Fehler, sondern eine fundamentale Eigenschaft von LLMs ist, die die Reproduzierbarkeit in Produktionssystemen gefährdet.

Warum liefert derselbe Prompt unterschiedliche Antworten?

Jeder Nutzer großer Sprachmodelle hat das Phänomen bemerkt: Dieselbe Anfrage an dasselbe Modell liefert manchmal unterschiedliche Antworten. Ein Teil dieses Verhaltens erklärt sich durch bewusste Zufälligkeit (der Temperature-Parameter), aber die Forscher Chashi Mahiul Islam, Alan Villarreal und Mao Nishino zeigen, dass es eine tiefere Erklärung gibt — numerische Instabilität, die der Architektur selbst innewohnt.

Gleitkommaarithmetik — das System, mit dem Computer Dezimalzahlen mit endlicher Präzision darstellen — führt unvermeidlich zu Rundungsfehlern. Ihre Forschung verfolgt, wie sich diese Fehler „ausbreiten, verstärken oder abschwächen”, wenn sie durch die Schichten der Transformer-Architektur laufen.

Drei Verhaltensmodi

Die Arbeit identifiziert einen „Lawineneffekt” (Avalanche Effect) in den frühen Schichten von Transformern, bei dem kleine Störungen zu einem binären Ergebnis führen — sie werden entweder schnell verstärkt oder vollständig unterdrückt. Dies erzeugt drei distinkte Modi:

Der stabile Modus tritt auf, wenn Störungen unterhalb einer eingabeabhängigen Schwelle liegen — Fehler verschwinden und das Modell liefert konsistente Ausgaben. Der chaotische Modus entsteht, wenn Rundungsfehler dominieren und eine Divergenz der Ausgaben antreiben. Der signaldominierte Modus ist jener, bei dem tatsächliche Variationen in der Eingabe das numerische Rauschen überwiegen.

Praktische Implikationen für die KI-Industrie

Diese „universellen, skalierungsabhängigen chaotischen Muster” treten über mehrere Datensätze und Architekturen hinweg auf, was bedeutet, dass das Problem nicht spezifisch für ein bestimmtes Modell oder einen bestimmten Hersteller ist.

Für Produktionssysteme — insbesondere solche, die in agentische Workflows integriert sind, in denen LLMs Entscheidungen in Ketten treffen — hat dies konkrete Konsequenzen. Derselbe Code auf unterschiedlicher Hardware (GPU vs. TPU vs. CPU) kann unterschiedliche Ausgaben erzeugen — nicht durch Design, sondern aufgrund unterschiedlicher Implementierungen von Gleitkommaoperationen. Dies gefährdet die Reproduzierbarkeit, das Testen und die Zertifizierung von KI-Systemen in regulierten Branchen wie der Medizin oder dem Finanzwesen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.