Was ist Test-Time-Compute und warum ist es für die Evaluierung wichtig?

Test-Time-Compute ist die Menge an Rechenressourcen, gemessen in Token, die ein KI-Agent zur Lösung einer Aufgabe verwendet. Das AISI zeigt, dass ein größeres Budget die Leistung direkt steigert; daher sollte die Fähigkeit als Kurve und nicht als einzelne Benchmark-Note gemessen werden.

Welche Verbesserung bringt ein zehnfach höheres Token-Budget?

Eine Erhöhung des Budgets von 1 Mio. auf 10 Mio. Token ergibt laut AISI-Messungen rund 25 Prozent Verbesserung bei Software-Engineering-Aufgaben und rund 22 Prozent bei mathematischen und akademischen Aufgaben.

AISI: KI-Agenten nach Rechenbudget evaluieren

Q: Warum ist das für Regulierungsbehörden wichtig?

Risikobeurteilungen auf Basis eines fixen Budgets unterschätzen strukturell die tatsächlichen Modellkapazitäten. Neuere Modelle profitieren überproportional von zusätzlichem Rechenaufwand, sodass standardisierte Tests ein falsches Sicherheitsgefühl vermitteln können.

Das britische AI Security Institute zeigt, dass Evaluierungen von KI-Agenten mit festem Token-Budget die Fähigkeiten von Frontier-Modellen systematisch unterschätzen. Eine Erhöhung des Budgets von einer auf zehn Millionen Token steigert die Leistung bei Software-Engineering-Aufgaben um bis zu 25 Prozent und bei mathematischen Tests um 22 Prozent. Das AISI fordert Regulierungsbehörden auf, von Benchmark-Noten auf Fähigkeitskurven umzusteigen, die variables Rechenbudget berücksichtigen.

Das britische AI Security Institute (AISI) hat eine Studie mit weitreichenden Implikationen für Regulierungsbehörden und die Sicherheitsgemeinschaft veröffentlicht: Standardevaluierungen von KI-Agenten, die die Leistung bei einem festen Token-Budget messen, unterschätzen systematisch die tatsächlichen Fähigkeiten von Frontier-Modellen. Statt einer einzelnen Benchmark-Note sollte die Fähigkeit von Agenten als Kurve verstanden werden – eine Funktion, die zeigt, wie sich die Leistung mit dem verfügbaren Rechenbudget verändert.

Agentfähigkeit hängt vom Token-Budget ab

Die Studie zeigt klar, dass es nicht genügt zu wissen, was ein Agent bei einem bestimmten Token-Budget leistet. Entscheidend ist zu verstehen, wie sich diese Leistung verändert, wenn mehr Ressourcen zur Verfügung gestellt werden. Bei Software-Engineering-Aufgaben brachte eine Erhöhung des Budgets von 1 Million auf 10 Millionen Token eine Verbesserung von rund 25 Prozent. Bei mathematischen und akademischen Aufgaben beträgt die Verbesserung rund 22 Prozent. Diese Unterschiede sind nicht vernachlässigbar – sie entsprechen dem Unterschied zwischen einem Modell, das eine Aufgabe nicht lösen kann, und einem, das sie zuverlässig und konsistent bewältigt.

Ein besonders aufschlussreicher Befund stammt aus dem Bereich der Cybersicherheit: Rund 8 Prozent aller getesteten Cyber-Aufgaben waren ausschließlich bei einem Budget von 10 Millionen oder mehr Token lösbar. Innerhalb von Standardbewertungsrahmen mit niedrigeren Budgets erscheinen diese Aufgaben unlösbar – womit Regulatoren und Sicherheitsforscher ein verzerrtes Bild des tatsächlichen Risikos erhalten, das Frontier-Modelle darstellen.

Was messen bestehende Evaluierungen wirklich?

Standardmäßige Benchmark-Tests wählen ein festes Token-Budget und messen, wie viele Agenten eine Reihe von Aufgaben erfolgreich lösen. Dieser Ansatz hat ein fundamentales methodologisches Problem: Er ist zwischen Modellen nicht vergleichbar und zeigt nicht zuverlässig die tatsächlichen Kapazitätsgrenzen.

Das AISI hat gemessen, dass der Fähigkeitshorizont eines Frontier-Modells – definiert als die längste Aufgabe, die das Modell zuverlässig lösen kann – von 40 Minuten auf 4 Stunden anstieg, als das Budget von 2,5 Millionen auf 50 Millionen Token erhöht wurde. Derselbe Unterschied beeinflusst auch die Einschätzung der Entwicklungsgeschwindigkeit: Frontier-Cyber-Fähigkeiten verdoppeln sich alle 4,7 Monate bei einem Budget von 2,5 Millionen Token. Bei einem Budget von 50 Millionen Token beschleunigt sich diese Verdopplungsrate um bis zu 60 Prozent – was bedeutet, dass je nach festgelegter Evaluierungsgrenze völlig unterschiedliche Entwicklungspfade gemessen werden.

Der Rechenbedarf skaliert mit der Zeit, die erfahrene Fachleute für dieselbe Aufgabe benötigen, gemäß einer Power-Law-Beziehung mit einem Exponenten zwischen 0,7 und 1,0. Aufgaben, die ein Experte in einer Stunde erledigt, erfordern Millionen von Token; wochenlange Projekte erfordern Milliarden.

Neuere Modelle profitieren überproportional von mehr Rechenleistung

Ein aus Sicherheitsperspektive besonders besorgniserregender Befund ist die Asymmetrie zwischen älteren und neueren Modellen. Neuere Frontier-Modelle profitieren systematisch stärker von erhöhten Rechenbudgets – in drei Dimensionen:

Reichweite – sie können schwierigere Aufgaben mit demselben Rechenbudget lösen
Zuverlässigkeit – sie erzielen bei Rand- und Grenzfällen konsistenter Erfolg
Effizienz – sie lösen dieselbe Aufgabe mit weniger Token als ältere Generationen

Diese Kombination bedeutet, dass standardisierte Tests nicht nur aktuelle Fähigkeiten unterschätzen, sondern auch Vergleiche zwischen Modellgenerationen verzerren. Ein älteres Modell kann bei niedrigem Budget wettbewerbsfähig erscheinen, während ein neueres Modell bei realistischen Produktionsbudgets weit überlegen ist. Bewertungsrahmen, die diese Asymmetrie nicht berücksichtigen, stellen den relativen Fortschritt systematisch falsch dar.

Regulatorische Implikationen fester Budgets

Das AISI weist explizit auf ein strukturelles Problem mit direkten Policy-Implikationen hin. Risikobeurteilungen auf Basis fester Budgets messen nicht das, was sie zu messen vorgeben – sie verfehlen systematisch hochwertige und hochriskante Fähigkeiten, die erst bei höheren Rechenniveaus zugänglich werden. Eine Evaluierung mit einem einzigen Budget kann zu ungleichen Modellvergleichen führen, Entscheidungsträger zur Unterschätzung von Agenten verleiten und den tatsächlichen Risikoumfang verschleiern.

Organisationen, die regulatorische Rahmenbedingungen für KI entwickeln – von nationalen Regierungen bis zu internationalen Gremien – müssen berücksichtigen, dass eine Modell-Benchmark-Note keine eindeutige Größe ist. Sie ist eine Funktion des Rechenbudgets, das der Evaluator festgelegt hat. Ohne explizite Angabe dieses Budgets sind Modellvergleiche methodologisch unzuverlässig.

Das AISI schlägt den Übergang zu einem Fähigkeitskurven-Ansatz vor: Leistung über eine Reihe von Budgetpunkten messen, Reichweiten-, Zuverlässigkeits- und Effizienzprofile für jedes Modell identifizieren und erst auf Basis des vollständigen Bildes Risikoentscheidungen treffen. Für Sicherheitsteams liegt die Implikation auf der Hand: Ein Modell, das bei einer Evaluierung keine Fähigkeit für eine bestimmte Angriffskategorie zeigte, hat diese Fähigkeit möglicherweise hinter der Budgetgrenze des Evaluators verborgen.

Britisches AISI: KI-Agenten-Evaluierungen müssen Rechenbudget berücksichtigen

Agentfähigkeit hängt vom Token-Budget ab

Was messen bestehende Evaluierungen wirklich?

Neuere Modelle profitieren überproportional von mehr Rechenleistung

Regulatorische Implikationen fester Budgets

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten