arXiv:2605.08083: AutoTTS — agentische Discovery-Strategie für Test-Time-Scaling für nur $39,9 Compute
AutoTTS ist ein Framework, das Test-Time-Scaling-Strategien automatisch entdeckt, anstatt Heuristiken manuell zu entwerfen. LLM-Controller analysieren Reasoning-Trajektorien und wählen eine von fünf Aktionen: verzweigen, fortfahren, sondieren, beschneiden oder stoppen. Der Discovery-Prozess auf mathematischen Benchmarks kostete nur $39,9 und 160 Minuten.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Ein Forschungsteam von dreizehn Autoren — darunter Tong Zheng, Haolin Liu und Chengsong Huang — stellte am 11. Mai 2026 das AutoTTS-Framework vor, das Test-Time-Scaling-Strategien automatisch entdeckt statt sie manuell zu entwerfen. Das Paper ist unter arXiv:2605.08083 verfügbar; Code und Daten sollen über GitHub open-source gestellt werden.
Was ist AutoTTS und wie funktioniert es?
AutoTTS formuliert Test-Time Scaling als „Controller Synthesis over pre-collected reasoning trajectories and probe signals.” Ein LLM-Controller analysiert die Reasoning-Trajektorie in jedem Schritt und wählt eine von fünf Aktionen: verzweigen (branch), fortfahren (continue), sondieren (probe), beschneiden (prune) oder stoppen (stop). Das Framework nutzt Beta-Parametrisierung für einen handhabbaren Suchraum und feingranulares Execution-Trace-Feedback, um zu diagnostizieren, warum einzelne Strategien scheitern.
Welche Ergebnisse erzielt es bei mathematischen Aufgaben?
Auf mathematischen Reasoning-Benchmarks erreichten entdeckte Strategien ein „verbessertes Genauigkeits-Kosten-Verhältnis” im Vergleich zu starken manuell entworfenen Baselines. Entscheidend ist, dass erlernte Strategien auf zurückgehaltene Benchmarks und verschiedene Modellgrößen generalisieren — der Discovery-Prozess muss nicht für jede neue Konfiguration wiederholt werden.
Was kostet der gesamte Discovery-Prozess?
Die Autoren berichten, dass der Discovery-Prozess nur $39,9 und 160 Minuten Compute erforderte. Das ist drastisch niedriger als die Kosten des manuellen Ingenieur-Designs ähnlicher Strategien, bei dem Forschungsteams monatelang mit Heuristiken wie Best-of-N-Sampling oder Monte Carlo Tree Search experimentieren.
Was bedeutet das für zukünftige KI-Agenten?
AutoTTS verschiebt das Paradigma von „Ingenieur entwirft Reasoning-Strategie” zu „Agenten entdecken eigene Strategien.” Für Multi-Step-Agentensysteme bedeutet das, dass jede Aufgabenklasse ihre eigene optimierte TTS-Strategie durch eine automatisierte Pipeline erhalten kann. Die Autoren kündigen ein Open-Source-Release an, damit die breitere Community die Ergebnisse replizieren und darauf aufbauen kann.
Häufig gestellte Fragen
- Was ist Test-Time Scaling (TTS)?
- Test-Time Scaling bezeichnet Techniken, die die LLM-Antwortqualität verbessern, indem mehr Compute-Ressourcen zur Inferenzzeit eingesetzt werden — etwa durch Generierung mehrerer Kandidaten-Trajektorien, Verifikation von Zwischenschritten oder adaptives Entscheiden, wann das Reasoning vertieft werden soll. Manuell entworfene Heuristiken (Best-of-N, MCTS) dominierten bisher.
- Wie unterscheidet sich AutoTTS von manuell entworfenen TTS-Strategien?
- Statt dass ein Ingenieur manuell entscheidet, wann verzweigt oder gestoppt wird, formuliert AutoTTS das Problem als „Controller Synthesis” über vorgesammelten Reasoning-Trajektorien. Controller wählen fünf Aktionen (branch, continue, probe, prune, stop) mit Beta-Parametrisierung und feingranularem Execution-Trace-Feedback.
- Sind die $39,9 Kosten realistisch für andere Anwendungen?
- Der Preis gilt für den Discovery-Prozess auf den im Paper beschriebenen mathematischen Benchmarks. Entdeckte Strategien generalisierten auf zurückgehaltene Benchmarks und verschiedene Modellgrößen ohne erneuten teuren Discovery — $39,9 als Einmalinvestition pro Aufgabenklasse erscheint plausibel.
Quellen
Verwandte Nachrichten
arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten
arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern
arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation