Spekulatives Dekodieren

Spekulatives Dekodieren (speculative decoding) ist eine Technik zur Beschleunigung der Inferenz, bei der ein kleines, schnelles „Entwurfsmodell” mehrere künftige Token auf einmal vorschlägt und ein großes Zielmodell sie in einem einzigen Durchlauf prüft.

Große Sprachmodelle erzeugen Token für Token, was langsam ist, da jeder Schritt einen vollständigen Durchlauf durch das Netz erfordert. Spekulatives Dekodieren durchbricht diesen Engpass: Ein günstiges Entwurfsmodell – oft eine destillierte oder kleinere Variante – rät etwa 3–8 kommende Token, und das Zielmodell berechnet deren Wahrscheinlichkeiten parallel. Eine modifizierte Rejection-Sampling-Regel akzeptiert die geratenen Token, solange sie zur Zielverteilung passen, und korrigiert die erste Abweichung. Entscheidend ist, dass die Ausgabe mathematisch identisch zum Standarddekodieren bleibt.

Vorgestellt wurde die Methode 2022 von Leviathan und Kollegen bei Google Research; seit 2024 ist sie fester Bestandteil des produktiven Modell-Servings und wird von vLLM, NVIDIA TensorRT-LLM, SGLang und anderen unterstützt. Sie bringt meist 2–3× Beschleunigung (Varianten wie Medusa und EAGLE noch mehr) ohne Qualitätsverlust und zählt damit zu den wichtigsten Latenzoptimierungen.

Quellen

Siehe auch