AMD FLy: Training-freies spekulatives Decoding liefert 5,21-fache Beschleunigung auf Llama-3.3-405B mit über 99 % Genauigkeit
Warum es wichtig ist
AMD FLy ist eine neue training-freie Methode des spekulativen Decodings, die durch semantische Akzeptanz von Draft-Tokens eine 4,80- bis 5,21-fache Beschleunigung auf Llama-3.3-405B und 2,74-fach auf Llama-3.1-70B bei einer Genauigkeit von über 99 % erreicht, ohne zusätzliches Modelltraining.
Was ist AMD FLy?
AMD-Forscher stellten am 20. April 2026 FLy vor — eine neue Methode des spekulativen Decodings, die ohne zusätzliches Modelltraining funktioniert. Spekulatives Decoding ist eine Technik, bei der ein kleineres, schnelleres „Draft”-Modell die nächsten Token im Voraus vorhersagt, während ein größeres „Target”-Modell sie parallel überprüft — wenn korrekt, verläuft die Generierung schneller.
Bislang erforderten die besten Methoden wie EAGLE-3 eine dedizierte Trainingsphase für das Draft-Modell, was teuer und komplex ist. FLy überwindet diese Hürde: Es erzielt training-freie Ergebnisse, die trainingsbasierte Ansätze übertreffen.
Wie akzeptiert FLy „falsche” Tokens?
Die wesentliche Neuerung ist, dass FLy Draft-Tokens akzeptiert, die semantisch korrekt sind, auch wenn sie sich von den Vorhersagen des Target-Modells unterscheiden. Das klassische spekulative Decoding erfordert exakten Abgleich — ein Token muss identisch mit dem sein, was das Target-Modell selbst generieren würde. FLy lockert diese Regel durch eine zweistufige Verifikation:
- Entropie-Gate — erkennt Ambiguitätsniveaus pro Token und entscheidet, wann Abweichungen ohne Qualitätsverlust akzeptiert werden können
- Deferred-Window-Mechanismus — akzeptiert Abweichungen vorläufig und überwacht dann die nächsten 6 Tokens für eine retroaktive Prüfung; entwickelt sich der Kontext korrekt, bleibt der Token, andernfalls wird er zurückgesetzt
Diese Logik ermöglicht, dass mehr Draft-Vorhersagen die Prüfung bestehen, was direkt zu größerer Beschleunigung führt.
Welche tatsächlichen Ergebnisse gibt es auf Llama-Modellen?
Die von AMD präsentierten Benchmarks sind bedeutsam:
- Llama-3.3-405B — Beschleunigung von 4,80× bis 5,21×
- Llama-3.1-70B — Beschleunigung von 2,74×
- Genauigkeit über 99 % gegenüber der Ausgabe ohne spekulatives Decoding
Im Llama-3.3-Instruct-Benchmark übertrifft FLy EAGLE-3, die derzeit führende trainingsbasierte Methode. Dies ist besonders bedeutsam, da es bedeutet, dass ein kleineres Team ohne Ressourcen für das Training eines Draft-Modells bessere Ergebnisse erzielen kann als Teams, die über diese Infrastruktur verfügen.
Warum ist das für das AMD-Ökosystem wichtig?
AMD liegt seit Jahren in der KI-Software-Stack gegenüber NVIDIA zurück, und ROCm-Optimierungen sind entscheidend für die Wettbewerbsfähigkeit. FLy zeigt, dass das AMD-Forschungsteam an hardware-spezifischen Techniken arbeitet — nicht nur an der Portierung von NVIDIA-Ideen.
In der Praxis kann jeder, der bereits Llama-Modelle auf AMD MI300X oder ähnlichen GPUs betreibt, eine 3–5-fache Beschleunigung erzielen — ohne Nachtraining, ohne Modellwechsel, ohne Kompromisse bei der Ausgabequalität. Für Produktionssysteme bedeutet das direkte Kosteneinsparungen.
Implikationen für Open-Source-Inference
FLy ist bedeutsam, weil es die Hürde für hochleistungsfähige Inference senkt — Sie benötigen kein speziell trainiertes Draft-Modell mehr, um modernste Geschwindigkeit zu erreichen. Für die Open-Source-Gemeinschaft, die Modelle wie Llama in eigener Infrastruktur hostet, bedeutet das:
- Einfacheres Experimentieren mit großen Modellen (405B wird zugänglich)
- Niedrigere Kosten pro Anfrage in selbst gehosteten Deployments
- Eine Alternative für Teams ohne Ressourcen für EAGLE-artiges Training
Wenn die Methode als Open-Source-Implementierung im ROCm-Stack veröffentlicht wird, könnte sie 2026 zum Standard für AMD-Inference-Deployments werden.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Allen AI: OlmoEarth-Embeddings ermöglichen Landschaftssegmentierung mit nur 60 Pixeln und einem F1-Wert von 0,84
Google DeepMind Decoupled DiLoCo: 20-fach geringere Netzwerkbandbreite für KI-Training über geografisch verteilte Rechenzentren
vLLM integriert DeepSeek V4 mit 8,7× kleinerem KV-Cache: eine Million Token Kontext auf Standard-GPU-Hardware