DART: Adaptives Thinking-Budget ohne Training

DART ist eine trainingsfreie Routing-Methode, die entscheidet, ob ein KI-Modell lange nachdenken muss oder sofort antworten kann — sie reduziert den Thinking-Token-Verbrauch um 15–69 % bei gleichzeitig höherer Genauigkeit von bis zu +22,5 Punkten auf Code-Benchmarks.

Hybride Reasoning-Modelle und das Problem der Token-Verschwendung

Moderne hybride Reasoning-Modelle — wie Claude 3.7 Sonnet oder QwQ — können zwischen zwei Betriebsmodi wählen: einer kurzen, direkten Antwort oder einer langen Schlussfolgerungskette mit sogenannten Thinking-Token (Zwischenschritte des Denkens, die nur dem Modell sichtbar sind). Das Problem: Modelle verbrauchen oft teure Thinking-Token auch bei trivialen Anfragen und verlangsamen damit die Inferenz unnötig bei steigenden Kosten.

Forscher der Korea University und assoziierten Institutionen stellen DART (Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets) vor — eine Methode, die dieses Problem ohne einen einzigen Trainingsschritt löst.

Wie entscheidet DART, ob das Modell „nachdenken” soll?

Die Idee ist elegant einfach: DART generiert zunächst zwei kostengünstige „No-Think”-Entwürfe (kurze Antworten ohne erweitertes Nachdenken). Stimmen sie überein → gibt das Modell die Antwort direkt zurück. Stimmen sie nicht überein, misst DART die Entropie der Diskrepanz und berechnet daraus dynamisch, wie groß das Thinking-Budget (maximale Anzahl von Token für tieferes Nachdenken) tatsächlich sein muss — größere Diskrepanz bedeutet größeres Budget.

Dieser Ansatz umgeht vollständig die Notwendigkeit beschrifteter Daten oder Gradientenaktualisierungen und ist damit auf Modellen von 0,6 B bis 32 B Parametern anwendbar, einschließlich reinem API-Zugriff ohne Einblick in die interne Architektur.

Ergebnisse: weniger Token, höhere Genauigkeit

Die experimentellen Ergebnisse sprechen klar für die Methode. Bei olympischer Mathematik erzielt DART bis zu +9,0 Punkte Genauigkeit bei einer Reduzierung der Thinking-Token um 15 bis 69 % im Vergleich zu Baseline-Modellen, die immer das volle Thinking-Budget verwenden.

Bei Code-Aufgaben ist der Zuwachs noch ausgeprägter: +22,5 Punkte Genauigkeit bei einer Token-Einsparung von 51 bis 63 %. Im Vergleich zu einem festen Thinking-Budget — dem Standardansatz, bei dem das Modell unabhängig von der Aufgabenschwierigkeit immer gleich viele Token verbraucht — bietet DART in allen getesteten Szenarien ein besseres Verhältnis von Genauigkeit zu Kosten.

Warum ist das für Produktionssysteme wichtig?

Thinking-Token sind nicht kostenlos: Bei API-Modellen werden sie pro Stück abgerechnet und beeinflussen direkt die Latenz. DART ebnet den Weg für Inferenzsysteme, die teure Ressourcen nur dann verbrauchen, wenn es durch die Schwierigkeit der Anfrage gerechtfertigt ist — ohne Feinabstimmung oder ein neues Modell. Der Code ist öffentlich zugänglich, und die Methode ist modell-agnostisch, was bedeutet, dass sie auf verschiedene hybride Reasoning-Systeme ohne Modifikation der Modelle selbst angewendet werden kann.

Häufig gestellte Fragen

Benötigt DART zusätzliches Training oder beschriftete Daten?

Nein — DART ist eine trainingsfreie Methode, die ausschließlich auf der Übereinstimmung zwischen zwei kostengünstigen Entwürfen basiert, ohne Gradientenaktualisierungen, ohne beschriftete Beispiele und ohne Zugriff auf die internen Gewichte des Modells.

Auf welchen Modellen und Größen funktioniert DART?

DART wurde auf Modellen von 0,6 B bis 32 B Parametern in verschiedenen Modellfamilien getestet und funktioniert sogar in reinen API-Umgebungen ohne Zugriff auf die interne Architektur.

arXiv:2606.23181: DART — adaptives Denken in hybriden Reasoning-Modellen ohne Training

Hybride Reasoning-Modelle und das Problem der Token-Verschwendung

Wie entscheidet DART, ob das Modell „nachdenken” soll?

Ergebnisse: weniger Token, höhere Genauigkeit

Warum ist das für Produktionssysteme wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten