ArXiv: LongCoT benchmark otkriva da GPT 5.2 postiže samo 9.8% na dugom chain-of-thought razsuđivanju

LongCoT je novi benchmark s 2.500 stručno dizajniranih problema kroz pet domena koji testira sposobnost dugog chain-of-thought razsuđivanja koje može zahtijevati desetke do stotine tisuća tokena. Trenutni frontier modeli dramatično zakazuju s rezultatima GPT 5.2 na 9.8 posto i Gemini 3 Pro na samo 6.1 posto, identificirajući kritičnu slabost za autonomni deployment AI agenata.

Međunarodni tim istraživača s Oxforda, Lawrence Livermore National Laboratoryja i AI Safety instituta objavio je LongCoT — novi benchmark koji testira sposobnost AI modela za dugo chain-of-thought (CoT) razsuđivanje. Rezultati otkrivaju zabrinjavajuću slabost čak i najnaprednijih modela.

Što mjeri LongCoT?

Benchmark sadrži 2.500 stručno dizajniranih problema kroz pet domena: kemiju, matematiku, računarstvo, šah i logiku. Ključna razlika od postojećih benchmarkova je u tome što problemi zahtijevaju chain-of-thought koji se proteže kroz desetke do stotine tisuća tokena — daleko iznad uobičajenih kratkih reasoning zadataka.

Problemi su dizajnirani tako da su pojedinačni koraci rješivi za frontier modele, ali cijeli niz zahtijeva extended reasoning — sposobnost održavanja koherentnog razmišljanja kroz dugi niz koraka bez gubitka konteksta ili akumulacije grešaka.

Koliko su rezultati zabrinjavajući?

Trenutni frontier modeli dramatično zakazuju: GPT 5.2 postiže samo 9.8%, dok Gemini 3 Pro pada na još nižih 6.1%. To znači da čak i najsposobniji AI modeli ne mogu riješiti više od jednog od deset problema koji zahtijevaju dugo koherentno razmišljanje.

Ovaj nalaz je posebno značajan u kontekstu rastuće primjene AI agenata za autonomne zadatke. Agenti koji trebaju planirati i izvršavati višekoračne operacije — od debugging sesija do istraživačkih procesa — ovise upravo o sposobnosti dugog koherentnog razsuđivanja.

Zašto je to važno za AI sigurnost?

Autori eksplicitno identificiraju LongCoT slabost kao kritičnu za autonomni deployment AI agenata. Ako model ne može pouzdano razsuđivati kroz dugi niz koraka, autonomni agenti mogu donositi pogrešne odluke u kasnijim fazama složenih zadataka — upravo tamo gdje su posljedice najteže.

Benchmark također sugerira da trenutni pristup skaliranja modela ne rješava automatski problem dugog razsuđivanja. Potrebne su fundamentalno nove arhitekturne inovacije ili treninške metode kako bi modeli premostili jaz između kratkog i dugog chain-of-thought razsuđivanja.

Česta pitanja

Što je LongCoT benchmark?

Benchmark s 2.500 stručno dizajniranih problema kroz kemiju, matematiku, računarstvo, šah i logiku koji testira chain-of-thought razsuđivanje koje zahtijeva desetke do stotine tisuća tokena.

Zašto frontier modeli tako loše prolaze na LongCoT-u?

Pojedinačni koraci rješenja su im rješivi, ali održavanje koherentnog razsuđivanja kroz cijeli niz od tisuća koraka ostaje kritična slabost — GPT 5.2 postiže samo 9.8 posto.

ArXiv: LongCoT benchmark otkriva da GPT 5.2 postiže samo 9.8% na dugom chain-of-thought razsuđivanju

Što mjeri LongCoT?

Koliko su rezultati zabrinjavajući?

Zašto je to važno za AI sigurnost?

Česta pitanja

Izvori

Povezane vijesti