AstaBench proljeće 2026.: Claude Opus 4.7 vodi s 58% u znanstvenom AI benchmarku, GPT-5.5 jeftiniji upola
Allen Institute objavio je ažurirani AstaBench leaderboard s 2.400 problema za AI agente u znanosti. Claude Opus 4.7 vodi s 58,0%, dok GPT-5.5 postiže 52,9% uz upola manji trošak po problemu. Ključni nalaz: dobri rezultati na pojedinim zadacima ne znače automatski robusni end-to-end znanstveni rad.
Allen Institute for AI (AI2) objavio je 30. travnja 2026. ažurirani AstaBench leaderboard — do sada najkompletniji javni pregled sposobnosti AI agenata u kontekstu znanstvenog istraživanja.
Kako AstaBench evaluira AI modele za znanost?
AstaBench ocjenjuje AI agente rješavanjem više od 2.400 problema koji simuliraju stvarne izazove iz istraživačke prakse — od analize podataka i kodiranja do sinteze literature i postavljanja hipoteza. Benchmark je dizajniran da ide dalje od uobičajenih ljestvi točnosti na izoliranim zadacima.
Ažuriranje za proljeće 2026. donosi prošireni skup modela i naglašava ekonomsku dimenziju: uz točnost, objavljeni su i troškovi po riješenom problemu.
Koji modeli vode i po kojoj cijeni?
Claude Opus 4.7 (Anthropic) zauzima prvo mjesto s rezultatom od 58,0%, što ga čini vodećim modelom za end-to-end rješavanje znanstvenih agentic zadataka prema AstaBench metodologiji.
GPT-5.5 (OpenAI) postiže 52,9% — za 5,1 postotnih bodova manje — no uz trošak od 1,61 dolara po problemu naspram 3,54 dolara za Opus 4.7. Za istraživačke timove koji pokušavaju skalirati eksperimente, ta razlika u troškovima od 54% može biti odlučujući faktor.
Ključni nalaz: zašto visoke ocjene na zadacima ne garantiraju uspjeh?
Allen Institute posebno naglašava da dobra performance na pojedinim zadacima — primjerice generiranju koda ili analizi podataka — ne translira automatski u robusni end-to-end znanstveni rad.
Kompleksni agentic scenariji zahtijevaju koordinaciju više koraka, dugoročno planiranje i konzistentno praćenje konteksta. Modeli koji sjajno prolaze izolirane podzadatke mogu imati poteškoća kada moraju integrirati te sposobnosti u kohezivan istraživački tijek.
Širi kontekst i industrijska primjena
AstaBench update dolazi uz napomenu o industrijskim partnerstvima, što upućuje na rastući interes komercijalnog sektora za strukturiranom evaluacijom AI u istraživačkim procesima.
Rezultati postavljaju praktično pitanje za istraživačke institucije: viša točnost vodećeg modela vrijedi li dvostruko veći trošak po problemu? Odgovor ovisi o vrsti i obimu zadataka koje tim rješava.
Česta pitanja
- Što mjeri AstaBench?
- AstaBench (Allen Institute for AI) mjeri sposobnost AI agenata da rješavaju probleme tipične za stvarno znanstveno istraživanje — obuhvaća više od 2.400 zadataka iz različitih znanstvenih domena.
- Zašto GPT-5.5 može biti bolji izbor od Opusa 4.7 unatoč nižoj točnosti?
- GPT-5.5 košta 1,61 dolara po problemu, dok Opus 4.7 košta 3,54 dolara — razlika od 54% na troškovima uz samo 5,1 postotnih bodova razlike u točnosti čini GPT-5.5 cost-efficient izborom za veće pokuse.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic zatvara 1M context beta za Sonnet 4.5 i Sonnet 4 — migracija na 4.6 obavezna
PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi
BioMysteryBench: Claude Mythos Preview rješava bioinformatičke probleme koje ni stručnjaci ne mogu, Opus 4.6 postiže 77.4 % na human-solvable zadacima