BioMysteryBench: Claude Mythos Preview rješava bioinformatičke probleme koje ni stručnjaci ne mogu, Opus 4.6 postiže 77.4 % na human-solvable zadacima
Anthropic je 29. travnja 2026. objavio BioMysteryBench, evaluacijski okvir od 99 stručnih bioinformatičkih zadataka s objektivnom ground truth iz eksperimentalnih podataka. Claude Opus 4.6 postiže oko 77.4 % točnosti na 76 problema rješivih ljudima i 23.5 % na 23 superhuman zadataka, dok Mythos Preview rješava neke probleme koje panel ljudskih stručnjaka nije mogao — istraživači to opisuju kao watershed moment za AI u bioznanosti.