🟡 🤝 Agenten Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2605.08083: AutoTTS — agentische Discovery-Strategie für Test-Time-Scaling für nur $39,9 Compute

arXiv:2605.08083 ↗

Editorial illustration: 2605.08083: AutoTTS — agentische Discovery-Strategie für Test-Time-Scaling für nur $39,9 Compute

AutoTTS ist ein Framework, das Test-Time-Scaling-Strategien automatisch entdeckt, anstatt Heuristiken manuell zu entwerfen. LLM-Controller analysieren Reasoning-Trajektorien und wählen eine von fünf Aktionen: verzweigen, fortfahren, sondieren, beschneiden oder stoppen. Der Discovery-Prozess auf mathematischen Benchmarks kostete nur $39,9 und 160 Minuten.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Ein Forschungsteam von dreizehn Autoren — darunter Tong Zheng, Haolin Liu und Chengsong Huang — stellte am 11. Mai 2026 das AutoTTS-Framework vor, das Test-Time-Scaling-Strategien automatisch entdeckt statt sie manuell zu entwerfen. Das Paper ist unter arXiv:2605.08083 verfügbar; Code und Daten sollen über GitHub open-source gestellt werden.

Was ist AutoTTS und wie funktioniert es?

AutoTTS formuliert Test-Time Scaling als „Controller Synthesis over pre-collected reasoning trajectories and probe signals.” Ein LLM-Controller analysiert die Reasoning-Trajektorie in jedem Schritt und wählt eine von fünf Aktionen: verzweigen (branch), fortfahren (continue), sondieren (probe), beschneiden (prune) oder stoppen (stop). Das Framework nutzt Beta-Parametrisierung für einen handhabbaren Suchraum und feingranulares Execution-Trace-Feedback, um zu diagnostizieren, warum einzelne Strategien scheitern.

Welche Ergebnisse erzielt es bei mathematischen Aufgaben?

Auf mathematischen Reasoning-Benchmarks erreichten entdeckte Strategien ein „verbessertes Genauigkeits-Kosten-Verhältnis” im Vergleich zu starken manuell entworfenen Baselines. Entscheidend ist, dass erlernte Strategien auf zurückgehaltene Benchmarks und verschiedene Modellgrößen generalisieren — der Discovery-Prozess muss nicht für jede neue Konfiguration wiederholt werden.

Was kostet der gesamte Discovery-Prozess?

Die Autoren berichten, dass der Discovery-Prozess nur $39,9 und 160 Minuten Compute erforderte. Das ist drastisch niedriger als die Kosten des manuellen Ingenieur-Designs ähnlicher Strategien, bei dem Forschungsteams monatelang mit Heuristiken wie Best-of-N-Sampling oder Monte Carlo Tree Search experimentieren.

Was bedeutet das für zukünftige KI-Agenten?

AutoTTS verschiebt das Paradigma von „Ingenieur entwirft Reasoning-Strategie” zu „Agenten entdecken eigene Strategien.” Für Multi-Step-Agentensysteme bedeutet das, dass jede Aufgabenklasse ihre eigene optimierte TTS-Strategie durch eine automatisierte Pipeline erhalten kann. Die Autoren kündigen ein Open-Source-Release an, damit die breitere Community die Ergebnisse replizieren und darauf aufbauen kann.

Häufig gestellte Fragen

Was ist Test-Time Scaling (TTS)?
Test-Time Scaling bezeichnet Techniken, die die LLM-Antwortqualität verbessern, indem mehr Compute-Ressourcen zur Inferenzzeit eingesetzt werden — etwa durch Generierung mehrerer Kandidaten-Trajektorien, Verifikation von Zwischenschritten oder adaptives Entscheiden, wann das Reasoning vertieft werden soll. Manuell entworfene Heuristiken (Best-of-N, MCTS) dominierten bisher.
Wie unterscheidet sich AutoTTS von manuell entworfenen TTS-Strategien?
Statt dass ein Ingenieur manuell entscheidet, wann verzweigt oder gestoppt wird, formuliert AutoTTS das Problem als „Controller Synthesis” über vorgesammelten Reasoning-Trajektorien. Controller wählen fünf Aktionen (branch, continue, probe, prune, stop) mit Beta-Parametrisierung und feingranularem Execution-Trace-Feedback.
Sind die $39,9 Kosten realistisch für andere Anwendungen?
Der Preis gilt für den Discovery-Prozess auf den im Paper beschriebenen mathematischen Benchmarks. Entdeckte Strategien generalisierten auf zurückgehaltene Benchmarks und verschiedene Modellgrößen ohne erneuten teuren Discovery — $39,9 als Einmalinvestition pro Aufgabenklasse erscheint plausibel.