🤖 24 AI
🟡 📦 Open Source Dienstag, 21. April 2026 · 3 Min. Lesezeit

AMD FLy: Training-freies spekulatives Decoding liefert 5,21-fache Beschleunigung auf Llama-3.3-405B mit über 99 % Genauigkeit

Redaktionelle Illustration des spekulativen Decodings — Draft-Modell schlägt Tokens vor, Target-Modell überprüft sie parallel

Warum es wichtig ist

AMD FLy ist eine neue training-freie Methode des spekulativen Decodings, die durch semantische Akzeptanz von Draft-Tokens eine 4,80- bis 5,21-fache Beschleunigung auf Llama-3.3-405B und 2,74-fach auf Llama-3.1-70B bei einer Genauigkeit von über 99 % erreicht, ohne zusätzliches Modelltraining.

Was ist AMD FLy?

AMD-Forscher stellten am 20. April 2026 FLy vor — eine neue Methode des spekulativen Decodings, die ohne zusätzliches Modelltraining funktioniert. Spekulatives Decoding ist eine Technik, bei der ein kleineres, schnelleres „Draft”-Modell die nächsten Token im Voraus vorhersagt, während ein größeres „Target”-Modell sie parallel überprüft — wenn korrekt, verläuft die Generierung schneller.

Bislang erforderten die besten Methoden wie EAGLE-3 eine dedizierte Trainingsphase für das Draft-Modell, was teuer und komplex ist. FLy überwindet diese Hürde: Es erzielt training-freie Ergebnisse, die trainingsbasierte Ansätze übertreffen.

Wie akzeptiert FLy „falsche” Tokens?

Die wesentliche Neuerung ist, dass FLy Draft-Tokens akzeptiert, die semantisch korrekt sind, auch wenn sie sich von den Vorhersagen des Target-Modells unterscheiden. Das klassische spekulative Decoding erfordert exakten Abgleich — ein Token muss identisch mit dem sein, was das Target-Modell selbst generieren würde. FLy lockert diese Regel durch eine zweistufige Verifikation:

  • Entropie-Gate — erkennt Ambiguitätsniveaus pro Token und entscheidet, wann Abweichungen ohne Qualitätsverlust akzeptiert werden können
  • Deferred-Window-Mechanismus — akzeptiert Abweichungen vorläufig und überwacht dann die nächsten 6 Tokens für eine retroaktive Prüfung; entwickelt sich der Kontext korrekt, bleibt der Token, andernfalls wird er zurückgesetzt

Diese Logik ermöglicht, dass mehr Draft-Vorhersagen die Prüfung bestehen, was direkt zu größerer Beschleunigung führt.

Welche tatsächlichen Ergebnisse gibt es auf Llama-Modellen?

Die von AMD präsentierten Benchmarks sind bedeutsam:

  • Llama-3.3-405B — Beschleunigung von 4,80× bis 5,21×
  • Llama-3.1-70B — Beschleunigung von 2,74×
  • Genauigkeit über 99 % gegenüber der Ausgabe ohne spekulatives Decoding

Im Llama-3.3-Instruct-Benchmark übertrifft FLy EAGLE-3, die derzeit führende trainingsbasierte Methode. Dies ist besonders bedeutsam, da es bedeutet, dass ein kleineres Team ohne Ressourcen für das Training eines Draft-Modells bessere Ergebnisse erzielen kann als Teams, die über diese Infrastruktur verfügen.

Warum ist das für das AMD-Ökosystem wichtig?

AMD liegt seit Jahren in der KI-Software-Stack gegenüber NVIDIA zurück, und ROCm-Optimierungen sind entscheidend für die Wettbewerbsfähigkeit. FLy zeigt, dass das AMD-Forschungsteam an hardware-spezifischen Techniken arbeitet — nicht nur an der Portierung von NVIDIA-Ideen.

In der Praxis kann jeder, der bereits Llama-Modelle auf AMD MI300X oder ähnlichen GPUs betreibt, eine 3–5-fache Beschleunigung erzielen — ohne Nachtraining, ohne Modellwechsel, ohne Kompromisse bei der Ausgabequalität. Für Produktionssysteme bedeutet das direkte Kosteneinsparungen.

Implikationen für Open-Source-Inference

FLy ist bedeutsam, weil es die Hürde für hochleistungsfähige Inference senkt — Sie benötigen kein speziell trainiertes Draft-Modell mehr, um modernste Geschwindigkeit zu erreichen. Für die Open-Source-Gemeinschaft, die Modelle wie Llama in eigener Infrastruktur hostet, bedeutet das:

  • Einfacheres Experimentieren mit großen Modellen (405B wird zugänglich)
  • Niedrigere Kosten pro Anfrage in selbst gehosteten Deployments
  • Eine Alternative für Teams ohne Ressourcen für EAGLE-artiges Training

Wenn die Methode als Open-Source-Implementierung im ROCm-Stack veröffentlicht wird, könnte sie 2026 zum Standard für AMD-Inference-Deployments werden.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.