arXiv OpenDeepThink: +405 Elo auf Codeforces

OpenDeepThink ist eine neue populationsbasierte Test-Time-Compute-Scaling-Methodik, veröffentlicht am 14. Mai 2026 auf arXiv von Shang Zhou und Mitarbeitern. Das Framework sampelt mehrere Reasoning-Kandidaten parallel und wählt den besten durch paarweise Bradley-Terry-Vergleiche statt durch punktweises LLM-Judging. Ergebnis: Gemini 3.1 Pro gewinnt +405 Elo auf Codeforces-Benchmarks über acht sequenzielle LLM-Call-Runden (~27 Minuten). Das Team veröffentlichte zudem den CF-73-Datensatz mit 73 von Experten bewerteten Codeforces-Problemen.

Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang und Jingbo Shang veröffentlichten am 14. Mai 2026 ein Paper, das eines der bekanntesten Probleme beim parallelen Reasoning-Scaling adressiert: Wie wählt man zuverlässig die beste Antwort unter parallelen Kandidaten ohne Ground-Truth-Verifier?

Was ist der Selektions-Bottleneck beim parallelen Schlussfolgern?

Test-Time-Compute-Scaling setzt zunehmend auf paralleles Sampling — das Modell erzeugt N Kandidaten, das System wählt den besten. Das Problem ist die Selektion: Ohne Ground-Truth-Verifier ist punktweises LLM-Judging „fehlerbehaftet und verzerrt” — das Modell ist nicht zuverlässig darin, seinen eigenen Output zu bewerten. Die Lösung, die OpenDeepThink vorschlägt, ist ein anderer Ansatz: paarweiser Vergleich mittels Bradley-Terry-Aggregation.

Wie funktioniert der Bradley-Terry-Generationsloop?

Das System arbeitet generationsweise über acht Schritte:

Zufällige Paarung — das KI-Modell beurteilt zufällige Paare von Kandidaten
Bradley-Terry-Aggregation — Stimmen werden mithilfe des statistischen Bradley-Terry-Modells in ein globales Ranking transformiert
Selektion — am besten bewertete Kandidaten werden beibehalten
Mutation — die oberen drei Viertel werden durch natürlichsprachliche Kritik aus den Vergleichen modifiziert
Verwerfen — das untere Viertel wird eliminiert
Loop wiederholt sich über 8 sequenzielle Runden (~27 Minuten)

Der Ansatz ist von evolutionären Algorithmen inspiriert — eine Population persistiert über Generationen, aber statt einer biologischen Fitnessfunktion wird LLM-basiertes paarweises Preference Learning verwendet.

Welche Zahlen demonstriert das Paper konkret?

Die wichtigste Metrik: Auf Codeforces-Benchmarks hob OpenDeepThink Gemini 3.1 Pro’s effektives Elo-Rating um +405 Punkte über 8 sequenzielle LLM-Call-Runden (~27 Minuten). +405 Elo ist eine dramatische Verschiebung — sie verwandelt ein Grandmaster-Level-Gemini in eine Kategorie, die mit den weltbesten menschlichen Wettbewerbern konkurriert.

Beim Multi-Domain-HLE-Benchmark konzentrieren sich die Gewinne auf objektiv verifizierbare Domänen (Mathematik, Programmierung), während sich eine umgekehrte Tendenz in subjektiven Domänen (kreatives Schreiben, Meinungen) zeigte — was darauf hindeutet, dass Bradley-Terry nur dort funktioniert, wo ein klares Signal für die bessere Antwort vorhanden ist.

Was trägt der CF-73-Datensatz bei?

Das Team veröffentlichte CF-73 — einen kuratierten Datensatz mit 73 von Experten bewerteten Codeforces-Problemen mit Grandmaster-Annotierungen. CF-73 dient als öffentliche Evaluierungsressource für zukünftige Reasoning-Forschung und hilft dabei, Messpro tokolle in einer Domäne zu standardisieren, in der Benchmarks schnell veralten.

Das Framework überträgt sich ohne Re-Tuning auf Modellvarianten — was es zu einem „modellunabhängigen” Zusatz für jedes Frontier-Reasoning-System macht. Der Ansatz konkurriert direkt mit SU-01 (arXiv:2605.13301, 13. Mai) beim Gold-Medal-Olympiad-Reasoning, aber aus einer anderen Richtung: SU-01 trainiert ein spezialisiertes Modell, OpenDeepThink verwendet ein Allzweck-KI-Modell mit einem intelligenteren Inferenz-Loop.

Häufig gestellte Fragen

Was ist Bradley-Terry-Aggregation im Kontext des parallelen Schlussfolgerns?

Bradley-Terry ist ein statistisches Modell für paarweise Vergleiche; OpenDeepThink verwendet es statt punktweisem LLM-Judging — das LLM beurteilt Paare von Kandidaten, Stimmen werden zu einem globalen Ranking aggregiert, Top-Kandidaten werden beibehalten und durch natürlichsprachliche Kritik mutiert.

Was ist der CF-73-Datensatz?

CF-73 ist ein kuratierter Datensatz mit 73 von Experten bewerteten Codeforces-Problemen mit Grandmaster-Annotierungen, den das OpenDeepThink-Team als öffentliche Evaluierungsressource für zukünftige Reasoning-Forschung veröffentlicht hat.

arXiv:2605.15177 OpenDeepThink: paralleles Schlussfolgern via Bradley-Terry-Aggregation hebt Gemini 3.1 Pro um +405 Elo auf Codeforces

Was ist der Selektions-Bottleneck beim parallelen Schlussfolgern?

Wie funktioniert der Bradley-Terry-Generationsloop?

Welche Zahlen demonstriert das Paper konkret?

Was trägt der CF-73-Datensatz bei?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten