ArXiv: LongCoT benchmark otkriva da GPT 5.2 postiže samo 9.8% na dugom chain-of-thought razsuđivanju
Zašto je bitno
LongCoT je novi benchmark s 2.500 stručno dizajniranih problema kroz pet domena koji testira sposobnost dugog chain-of-thought razsuđivanja koje može zahtijevati desetke do stotine tisuća tokena. Trenutni frontier modeli dramatično zakazuju s rezultatima GPT 5.2 na 9.8 posto i Gemini 3 Pro na samo 6.1 posto, identificirajući kritičnu slabost za autonomni deployment AI agenata.
Međunarodni tim istraživača s Oxforda, Lawrence Livermore National Laboratoryja i AI Safety instituta objavio je LongCoT — novi benchmark koji testira sposobnost AI modela za dugo chain-of-thought (CoT) razsuđivanje. Rezultati otkrivaju zabrinjavajuću slabost čak i najnaprednijih modela.
Što mjeri LongCoT?
Benchmark sadrži 2.500 stručno dizajniranih problema kroz pet domena: kemiju, matematiku, računarstvo, šah i logiku. Ključna razlika od postojećih benchmarkova je u tome što problemi zahtijevaju chain-of-thought koji se proteže kroz desetke do stotine tisuća tokena — daleko iznad uobičajenih kratkih reasoning zadataka.
Problemi su dizajnirani tako da su pojedinačni koraci rješivi za frontier modele, ali cijeli niz zahtijeva extended reasoning — sposobnost održavanja koherentnog razmišljanja kroz dugi niz koraka bez gubitka konteksta ili akumulacije grešaka.
Koliko su rezultati zabrinjavajući?
Trenutni frontier modeli dramatično zakazuju: GPT 5.2 postiže samo 9.8%, dok Gemini 3 Pro pada na još nižih 6.1%. To znači da čak i najsposobniji AI modeli ne mogu riješiti više od jednog od deset problema koji zahtijevaju dugo koherentno razmišljanje.
Ovaj nalaz je posebno značajan u kontekstu rastuće primjene AI agenata za autonomne zadatke. Agenti koji trebaju planirati i izvršavati višekoračne operacije — od debugging sesija do istraživačkih procesa — ovise upravo o sposobnosti dugog koherentnog razsuđivanja.
Zašto je to važno za AI sigurnost?
Autori eksplicitno identificiraju LongCoT slabost kao kritičnu za autonomni deployment AI agenata. Ako model ne može pouzdano razsuđivati kroz dugi niz koraka, autonomni agenti mogu donositi pogrešne odluke u kasnijim fazama složenih zadataka — upravo tamo gdje su posljedice najteže.
Benchmark također sugerira da trenutni pristup skaliranja modela ne rješava automatski problem dugog razsuđivanja. Potrebne su fundamentalno nove arhitekturne inovacije ili treninške metode kako bi modeli premostili jaz između kratkog i dugog chain-of-thought razsuđivanja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate