arXiv:2605.15177 OpenDeepThink: paralelno rasuđivanje preko Bradley-Terry agregacije podiglo Gemini 3.1 Pro za +405 Elo na Codeforces
OpenDeepThink je nova population-based test-time compute scaling metodologija objavljena 14. svibnja 2026. na arXivu autora Shang Zhou i suradnika. Framework paralelno sampluje više reasoning kandidata i bira najboljeg kroz pairwise Bradley-Terry usporedbe, umjesto pointwise LLM judging-a. Rezultat: Gemini 3.1 Pro dobiva +405 Elo na Codeforces benchmarcima kroz osam sequential LLM-call rundi (~27 minuta). Tim objavio i CF-73 dataset s 73 ekspertski ocijenjena Codeforces problema.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang i Jingbo Shang objavili su 14. svibnja 2026. paper koji adresira jedan od najpoznatijih problema u parallel reasoning scaling-u: kako pouzdano birati najbolji odgovor među paralelnim kandidatima bez ground-truth verifier-a.
Što je selection bottleneck u parallel reasoning?
Test-time compute scaling sve više koristi paralelno samplanje — model generira N kandidata, sustav bira najboljeg. Problem je selection: bez ground-truth verifier-a, pointwise LLM judging je “noisy and biased” — model nije pouzdan u procjeni vlastitog outputa. Rješenje koje OpenDeepThink predlaže je drugačiji pristup: pairwise usporedba pomoću Bradley-Terry agregacije.
Kako Bradley-Terry generacijski loop radi?
Sustav radi generacijski kroz osam koraka:
- Random pairing — LLM sudi nasumične parove kandidata
- Bradley-Terry agregacija — glasovi se transformiraju u global ranking koristeći statistic Bradley-Terry model
- Selekcija — top-ranked kandidati se zadržavaju
- Mutacija — top tri-četvrtine se modificiraju kroz natural-language critique izvedene iz usporedbi
- Discard — donja četvrtina se odbacuje
- Loop se ponavlja kroz 8 sequential rundi (~27 minuta)
Pristup je inspiran evolucijskim algoritmima — population persistira kroz generacije, ali umjesto biological fitness function-a koristi LLM-based pairwise preference learning.
Koje brojke paper konkretno demonstrira?
Najvažnija metrika: na Codeforces benchmarks, OpenDeepThink je podigao Gemini 3.1 Pro efektivni Elo rating za +405 točaka kroz 8 sequential LLM-call rundi (~27 minuta). +405 Elo je dramatičan pomak — pretvara grandmaster-level Gemini u kategoriju koja konkurira ljudskim światskim top kompetitorima.
Na multi-domain HLE benchmark-u, dobici su koncentrirani u objectively verifiable domenama (matematika, programiranje), ali pojavila se i obrnuta tendencija u subjektivnim domenama (kreativno pisanje, mišljenje) — što sugerira da Bradley-Terry funkcionira samo gdje postoji jasan signal o boljem odgovoru.
Što CF-73 dataset donosi?
Tim je objavio CF-73 — curated dataset od 73 expert-rated Codeforces problema s Grandmaster anotacijama. CF-73 služi kao public evaluation resource za buduće reasoning research i pomaže standardizirati measurement protocols u domeni gdje benchmarks brzo zastarijevaju.
Framework transferira kroz model varijante bez retuning-a — što ga čini “model-agnostic” addition na bilo koji frontier reasoning system. Pristup direktno kompetira SU-01 (arXiv:2605.13301, 13.5.) gold-medal Olympiad reasoning-u, ali iz drugačijeg pravca: SU-01 trenira specijalizirani model, OpenDeepThink koristi general-purpose LLM uz pametniji inference loop.
Česta pitanja
- Što je Bradley-Terry agregacija u kontekstu paralelnog rasuđivanja?
- Bradley-Terry je statistički model za pairwise usporedbe; OpenDeepThink koristi ga umjesto pointwise LLM judging-a — LLM sudi parove kandidata, glasovi se agregiraju u global ranking, top kandidati se zadržavaju i mutiraju kroz natural-language critique.
- Što je CF-73 dataset?
- CF-73 je curated dataset od 73 ekspertski ocijenjena Codeforces problema s Grandmaster anotacijama, koji OpenDeepThink tim je objavio kao public evaluation resource za buduće reasoning research.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova