AstaBench 2026.: Opus 4.7 vodi s 58%, GPT-5.5 upola jeftiniji

Allen Institute objavio je ažurirani AstaBench leaderboard s 2.400 problema za AI agente u znanosti. Claude Opus 4.7 vodi s 58,0%, dok GPT-5.5 postiže 52,9% uz upola manji trošak po problemu. Ključni nalaz: dobri rezultati na pojedinim zadacima ne znače automatski robusni end-to-end znanstveni rad.

Allen Institute for AI (AI2) objavio je 30. travnja 2026. ažurirani AstaBench leaderboard — do sada najkompletniji javni pregled sposobnosti AI agenata u kontekstu znanstvenog istraživanja.

Kako AstaBench evaluira AI modele za znanost?

AstaBench ocjenjuje AI agente rješavanjem više od 2.400 problema koji simuliraju stvarne izazove iz istraživačke prakse — od analize podataka i kodiranja do sinteze literature i postavljanja hipoteza. Benchmark je dizajniran da ide dalje od uobičajenih ljestvi točnosti na izoliranim zadacima.

Ažuriranje za proljeće 2026. donosi prošireni skup modela i naglašava ekonomsku dimenziju: uz točnost, objavljeni su i troškovi po riješenom problemu.

Koji modeli vode i po kojoj cijeni?

Claude Opus 4.7 (Anthropic) zauzima prvo mjesto s rezultatom od 58,0%, što ga čini vodećim modelom za end-to-end rješavanje znanstvenih agentic zadataka prema AstaBench metodologiji.

GPT-5.5 (OpenAI) postiže 52,9% — za 5,1 postotnih bodova manje — no uz trošak od 1,61 dolara po problemu naspram 3,54 dolara za Opus 4.7. Za istraživačke timove koji pokušavaju skalirati eksperimente, ta razlika u troškovima od 54% može biti odlučujući faktor.

Ključni nalaz: zašto visoke ocjene na zadacima ne garantiraju uspjeh?

Allen Institute posebno naglašava da dobra performance na pojedinim zadacima — primjerice generiranju koda ili analizi podataka — ne translira automatski u robusni end-to-end znanstveni rad.

Kompleksni agentic scenariji zahtijevaju koordinaciju više koraka, dugoročno planiranje i konzistentno praćenje konteksta. Modeli koji sjajno prolaze izolirane podzadatke mogu imati poteškoća kada moraju integrirati te sposobnosti u kohezivan istraživački tijek.

Širi kontekst i industrijska primjena

AstaBench update dolazi uz napomenu o industrijskim partnerstvima, što upućuje na rastući interes komercijalnog sektora za strukturiranom evaluacijom AI u istraživačkim procesima.

Rezultati postavljaju praktično pitanje za istraživačke institucije: viša točnost vodećeg modela vrijedi li dvostruko veći trošak po problemu? Odgovor ovisi o vrsti i obimu zadataka koje tim rješava.

Česta pitanja

Što mjeri AstaBench?

AstaBench (Allen Institute for AI) mjeri sposobnost AI agenata da rješavaju probleme tipične za stvarno znanstveno istraživanje — obuhvaća više od 2.400 zadataka iz različitih znanstvenih domena.

Zašto GPT-5.5 može biti bolji izbor od Opusa 4.7 unatoč nižoj točnosti?

GPT-5.5 košta 1,61 dolara po problemu, dok Opus 4.7 košta 3,54 dolara — razlika od 54% na troškovima uz samo 5,1 postotnih bodova razlike u točnosti čini GPT-5.5 cost-efficient izborom za veće pokuse.

AstaBench proljeće 2026.: Claude Opus 4.7 vodi s 58% u znanstvenom AI benchmarku, GPT-5.5 jeftiniji upola

Kako AstaBench evaluira AI modele za znanost?

Koji modeli vode i po kojoj cijeni?

Ključni nalaz: zašto visoke ocjene na zadacima ne garantiraju uspjeh?

Širi kontekst i industrijska primjena

Česta pitanja

Izvori

Povezane vijesti