🟡 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2605.15177 OpenDeepThink: paralleles Schlussfolgern via Bradley-Terry-Aggregation hebt Gemini 3.1 Pro um +405 Elo auf Codeforces

arXiv:2605.15177 ↗

Editorial illustration: Parallele Reasoning-Zweige mit paarweisen Beurteilungssymbolen und Elo-Rating.

OpenDeepThink ist eine neue populationsbasierte Test-Time-Compute-Scaling-Methodik, veröffentlicht am 14. Mai 2026 auf arXiv von Shang Zhou und Mitarbeitern. Das Framework sampelt mehrere Reasoning-Kandidaten parallel und wählt den besten durch paarweise Bradley-Terry-Vergleiche statt durch punktweises LLM-Judging. Ergebnis: Gemini 3.1 Pro gewinnt +405 Elo auf Codeforces-Benchmarks über acht sequenzielle LLM-Call-Runden (~27 Minuten). Das Team veröffentlichte zudem den CF-73-Datensatz mit 73 von Experten bewerteten Codeforces-Problemen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang und Jingbo Shang veröffentlichten am 14. Mai 2026 ein Paper, das eines der bekanntesten Probleme beim parallelen Reasoning-Scaling adressiert: Wie wählt man zuverlässig die beste Antwort unter parallelen Kandidaten ohne Ground-Truth-Verifier?

Was ist der Selektions-Bottleneck beim parallelen Schlussfolgern?

Test-Time-Compute-Scaling setzt zunehmend auf paralleles Sampling — das Modell erzeugt N Kandidaten, das System wählt den besten. Das Problem ist die Selektion: Ohne Ground-Truth-Verifier ist punktweises LLM-Judging „fehlerbehaftet und verzerrt” — das Modell ist nicht zuverlässig darin, seinen eigenen Output zu bewerten. Die Lösung, die OpenDeepThink vorschlägt, ist ein anderer Ansatz: paarweiser Vergleich mittels Bradley-Terry-Aggregation.

Wie funktioniert der Bradley-Terry-Generationsloop?

Das System arbeitet generationsweise über acht Schritte:

  1. Zufällige Paarung — das KI-Modell beurteilt zufällige Paare von Kandidaten
  2. Bradley-Terry-Aggregation — Stimmen werden mithilfe des statistischen Bradley-Terry-Modells in ein globales Ranking transformiert
  3. Selektion — am besten bewertete Kandidaten werden beibehalten
  4. Mutation — die oberen drei Viertel werden durch natürlichsprachliche Kritik aus den Vergleichen modifiziert
  5. Verwerfen — das untere Viertel wird eliminiert
  6. Loop wiederholt sich über 8 sequenzielle Runden (~27 Minuten)

Der Ansatz ist von evolutionären Algorithmen inspiriert — eine Population persistiert über Generationen, aber statt einer biologischen Fitnessfunktion wird LLM-basiertes paarweises Preference Learning verwendet.

Welche Zahlen demonstriert das Paper konkret?

Die wichtigste Metrik: Auf Codeforces-Benchmarks hob OpenDeepThink Gemini 3.1 Pro’s effektives Elo-Rating um +405 Punkte über 8 sequenzielle LLM-Call-Runden (~27 Minuten). +405 Elo ist eine dramatische Verschiebung — sie verwandelt ein Grandmaster-Level-Gemini in eine Kategorie, die mit den weltbesten menschlichen Wettbewerbern konkurriert.

Beim Multi-Domain-HLE-Benchmark konzentrieren sich die Gewinne auf objektiv verifizierbare Domänen (Mathematik, Programmierung), während sich eine umgekehrte Tendenz in subjektiven Domänen (kreatives Schreiben, Meinungen) zeigte — was darauf hindeutet, dass Bradley-Terry nur dort funktioniert, wo ein klares Signal für die bessere Antwort vorhanden ist.

Was trägt der CF-73-Datensatz bei?

Das Team veröffentlichte CF-73 — einen kuratierten Datensatz mit 73 von Experten bewerteten Codeforces-Problemen mit Grandmaster-Annotierungen. CF-73 dient als öffentliche Evaluierungsressource für zukünftige Reasoning-Forschung und hilft dabei, Messpro tokolle in einer Domäne zu standardisieren, in der Benchmarks schnell veralten.

Das Framework überträgt sich ohne Re-Tuning auf Modellvarianten — was es zu einem „modellunabhängigen” Zusatz für jedes Frontier-Reasoning-System macht. Der Ansatz konkurriert direkt mit SU-01 (arXiv:2605.13301, 13. Mai) beim Gold-Medal-Olympiad-Reasoning, aber aus einer anderen Richtung: SU-01 trainiert ein spezialisiertes Modell, OpenDeepThink verwendet ein Allzweck-KI-Modell mit einem intelligenteren Inferenz-Loop.

Häufig gestellte Fragen

Was ist Bradley-Terry-Aggregation im Kontext des parallelen Schlussfolgerns?
Bradley-Terry ist ein statistisches Modell für paarweise Vergleiche; OpenDeepThink verwendet es statt punktweisem LLM-Judging — das LLM beurteilt Paare von Kandidaten, Stimmen werden zu einem globalen Ranking aggregiert, Top-Kandidaten werden beibehalten und durch natürlichsprachliche Kritik mutiert.
Was ist der CF-73-Datensatz?
CF-73 ist ein kuratierter Datensatz mit 73 von Experten bewerteten Codeforces-Problemen mit Grandmaster-Annotierungen, den das OpenDeepThink-Team als öffentliche Evaluierungsressource für zukünftige Reasoning-Forschung veröffentlicht hat.