BioMysteryBench: Claude Mythos Preview rješava bioinformatičke probleme koje ni stručnjaci ne mogu, Opus 4.6 postiže 77.4 % na human-solvable zadacima
Anthropic je 29. travnja 2026. objavio BioMysteryBench, evaluacijski okvir od 99 stručnih bioinformatičkih zadataka s objektivnom ground truth iz eksperimentalnih podataka. Claude Opus 4.6 postiže oko 77.4 % točnosti na 76 problema rješivih ljudima i 23.5 % na 23 superhuman zadataka, dok Mythos Preview rješava neke probleme koje panel ljudskih stručnjaka nije mogao — istraživači to opisuju kao watershed moment za AI u bioznanosti.
Anthropic je 29. travnja 2026. objavio BioMysteryBench, novi evaluacijski okvir za bioinformatičke sposobnosti AI modela. Benchmark sadrži 99 zadataka koje su sastavili domenski stručnjaci, koristi neuredne podatke iz stvarnih eksperimenata i ocjenjuje odgovore prema objektivnoj ground truth iz eksperimentalnih nalaza. Pristup direktno cilja tri ključna problema u znanstvenim evaluacijama: dopuštanje različitih metodoloških pristupa, postojanje objektivnog odgovora i mogućnost generiranja problema koje ljudi ne mogu sami riješiti.
Kako BioMysteryBench rješava problem subjektivnosti?
Većina znanstvenih benchmarka mjeri samo to slaže li se model sa znanstvenim konsenzusom, što ne dopušta otkrivanje. BioMysteryBench dolazi do “method-agnostic” pristupa — model bira vlastite analitičke alate, a sustav provjerava finalni numerički ili kategorički odgovor protiv stvarnih eksperimentalnih podataka. Primjeri zadataka uključuju identifikaciju ljudskog organa iz single-cell RNA-seq dataseta, otkrivanje gena izbijenog iz eksperimentalnih uzoraka u odnosu na kontrolne, te utvrđivanje obiteljskih veza iz whole-genome sequencing podataka.
Koje brojke Claude modeli postižu na benchmarku?
Na 76 zadataka rješivih ljudima, Claude Opus 4.6 postiže oko 77.4 % točnosti, a Sonnet 4.6 oko 70 %. Na 23 superhuman zadatka — pitanjima koja čak i panel iskusnih bioinformatičara nije uspio riješiti — Opus 4.6 postiže 23.5 %, dok Mythos Preview rješava 30 %. Mythos Preview ujedno vodi u kategoriji human-solvable zadataka. Anthropic napominje da pouzdanost znatno opada na težim problemima: na human-solvable Opus 4.6 daje točan odgovor u 86 % slučajeva u barem 4 od 5 pokušaja, dok na superhuman zadacima ta brojka pada na 44 %, što sugerira da gotovo polovica uspjeha “dolazi spontano umjesto da se reproducira”.
Zašto Anthropic ovo zove watershed moment?
Mythos Preview proizvodi znanstvene zaključke koje ljudi ranije nisu uspjeli izvući iz identičnih podataka. Iako je benchmark još preview (“Anthropic/BioMysteryBench-preview” na Hugging Faceu), rezultat sugerira da AI više nije samo asistent koji ubrzava postojeće radne procese, nego može autonomno rješavati istraživačka pitanja koja ljudski tim ne može. Anthropic poziva istraživače da koriste model za vlastite analize preko claude.com/lifesciences portala. Autorica posta je Brianna iz discovery teama.
Česta pitanja
- Što je BioMysteryBench?
- Evaluacijski okvir od 99 pitanja iz bioinformatike koje su sastavili domenski stručnjaci. Koristi neuredne podatke iz stvarnih eksperimenata, a odgovori se ocjenjuju prema objektivnoj ground truth iz validiranih metapodataka, ne prema subjektivnim znanstvenim zaključcima.
- Koliko je Claude Opus 4.6 točan na BioMysteryBenchu?
- Otprilike 77.4 % na 76 zadataka rješivih ljudima i 23.5 % na 23 superhuman zadatka. Sonnet 4.6 postiže oko 70 % na human-solvable kategoriji.
- Što čini Mythos Preview drugačijim?
- Mythos Preview rješava 30 % superhuman zadataka i nadmašuje panel ljudskih stručnjaka na nekim problemima. Anthropic to opisuje kao watershed moment jer model proizvodi znanstvene zaključke koje ljudi nisu uspjeli izvući iz istih podataka.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic zatvara 1M context beta za Sonnet 4.5 i Sonnet 4 — migracija na 4.6 obavezna
AstaBench proljeće 2026.: Claude Opus 4.7 vodi s 58% u znanstvenom AI benchmarku, GPT-5.5 jeftiniji upola
PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi