🟡 🤖 Modeli Objavljeno: · 2 min čitanja ·

arXiv:2605.15177 OpenDeepThink: paralelno rasuđivanje preko Bradley-Terry agregacije podiglo Gemini 3.1 Pro za +405 Elo na Codeforces

arXiv:2605.15177 ↗

Editorial illustration: paralelne reasoning grane s pairwise sudski simbolima i Elo ratingom.

OpenDeepThink je nova population-based test-time compute scaling metodologija objavljena 14. svibnja 2026. na arXivu autora Shang Zhou i suradnika. Framework paralelno sampluje više reasoning kandidata i bira najboljeg kroz pairwise Bradley-Terry usporedbe, umjesto pointwise LLM judging-a. Rezultat: Gemini 3.1 Pro dobiva +405 Elo na Codeforces benchmarcima kroz osam sequential LLM-call rundi (~27 minuta). Tim objavio i CF-73 dataset s 73 ekspertski ocijenjena Codeforces problema.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Tim Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang i Jingbo Shang objavili su 14. svibnja 2026. paper koji adresira jedan od najpoznatijih problema u parallel reasoning scaling-u: kako pouzdano birati najbolji odgovor među paralelnim kandidatima bez ground-truth verifier-a.

Što je selection bottleneck u parallel reasoning?

Test-time compute scaling sve više koristi paralelno samplanje — model generira N kandidata, sustav bira najboljeg. Problem je selection: bez ground-truth verifier-a, pointwise LLM judging je “noisy and biased” — model nije pouzdan u procjeni vlastitog outputa. Rješenje koje OpenDeepThink predlaže je drugačiji pristup: pairwise usporedba pomoću Bradley-Terry agregacije.

Kako Bradley-Terry generacijski loop radi?

Sustav radi generacijski kroz osam koraka:

  1. Random pairing — LLM sudi nasumične parove kandidata
  2. Bradley-Terry agregacija — glasovi se transformiraju u global ranking koristeći statistic Bradley-Terry model
  3. Selekcija — top-ranked kandidati se zadržavaju
  4. Mutacija — top tri-četvrtine se modificiraju kroz natural-language critique izvedene iz usporedbi
  5. Discard — donja četvrtina se odbacuje
  6. Loop se ponavlja kroz 8 sequential rundi (~27 minuta)

Pristup je inspiran evolucijskim algoritmima — population persistira kroz generacije, ali umjesto biological fitness function-a koristi LLM-based pairwise preference learning.

Koje brojke paper konkretno demonstrira?

Najvažnija metrika: na Codeforces benchmarks, OpenDeepThink je podigao Gemini 3.1 Pro efektivni Elo rating za +405 točaka kroz 8 sequential LLM-call rundi (~27 minuta). +405 Elo je dramatičan pomak — pretvara grandmaster-level Gemini u kategoriju koja konkurira ljudskim światskim top kompetitorima.

Na multi-domain HLE benchmark-u, dobici su koncentrirani u objectively verifiable domenama (matematika, programiranje), ali pojavila se i obrnuta tendencija u subjektivnim domenama (kreativno pisanje, mišljenje) — što sugerira da Bradley-Terry funkcionira samo gdje postoji jasan signal o boljem odgovoru.

Što CF-73 dataset donosi?

Tim je objavio CF-73 — curated dataset od 73 expert-rated Codeforces problema s Grandmaster anotacijama. CF-73 služi kao public evaluation resource za buduće reasoning research i pomaže standardizirati measurement protocols u domeni gdje benchmarks brzo zastarijevaju.

Framework transferira kroz model varijante bez retuning-a — što ga čini “model-agnostic” addition na bilo koji frontier reasoning system. Pristup direktno kompetira SU-01 (arXiv:2605.13301, 13.5.) gold-medal Olympiad reasoning-u, ali iz drugačijeg pravca: SU-01 trenira specijalizirani model, OpenDeepThink koristi general-purpose LLM uz pametniji inference loop.

Česta pitanja

Što je Bradley-Terry agregacija u kontekstu paralelnog rasuđivanja?
Bradley-Terry je statistički model za pairwise usporedbe; OpenDeepThink koristi ga umjesto pointwise LLM judging-a — LLM sudi parove kandidata, glasovi se agregiraju u global ranking, top kandidati se zadržavaju i mutiraju kroz natural-language critique.
Što je CF-73 dataset?
CF-73 je curated dataset od 73 ekspertski ocijenjena Codeforces problema s Grandmaster anotacijama, koji OpenDeepThink tim je objavio kao public evaluation resource za buduće reasoning research.