Test-Time Compute (Rechenaufwand zur Inferenzzeit)

Test-Time Compute (test-time compute) bezeichnet das Verfahren, während der Inferenz mehr Rechenaufwand zu betreiben — das Modell erzeugt eine längere, sorgfältigere Kette von Zwischenschritten vor der endgültigen Antwort —, um die Lösungsqualität zu verbessern. Man spricht auch von Inference-Time- oder Test-Time-Scaling.

Klassisches Skalieren vergrößerte Modell und Trainingsdaten. Test-Time Compute öffnet eine zweite Achse: Beim selben trainierten Modell wird pro Anfrage mehr „Nachdenken” erlaubt. Dies geschieht über eine längere Chain-of-Thought, durch das Sampeln vieler Kandidatenantworten und Auswahl der besten (Self-Consistency, Verifikation) oder durch Suche über einen Lösungsbaum. Empirisch steigert mehr eingesetzter Rechenaufwand oft die Genauigkeit bei schweren Problemen wie Mathematik, Code und Logik.

Mit OpenAI o1 (2024) erreichte das Paradigma den Mainstream und bildet die Grundlage heutiger Reasoning-Modelle. Der Kompromiss sind Kosten und Latenz: Eine Antwort kann ein Vielfaches an Token verbrauchen und Sekunden bis Minuten dauern. Über 2025–2026 flachen die Gewinne ab einem Punkt ab, weshalb Labore den Rechenaufwand adaptiv an die Aufgabenschwierigkeit verteilen.

Quellen

Siehe auch