BioMysteryBench: Claude Mythos Preview löst bioinformatische Probleme, die selbst Experten nicht können – Opus 4.6 erreicht 77,4 % bei menschlich lösbaren Aufgaben
Anthropic veröffentlichte am 29. April 2026 BioMysteryBench, ein Evaluierungsrahmen mit 99 Expertenaufgaben aus der Bioinformatik mit objektivem Ground Truth aus experimentellen Daten. Claude Opus 4.6 erreicht rund 77,4 % Genauigkeit bei 76 menschlich lösbaren Problemen und 23,5 % bei 23 übermenschlichen Aufgaben, während Mythos Preview einige Probleme löst, die ein Panel menschlicher Experten nicht bewältigen konnte – Forscher bezeichnen dies als Wendepunkt für die KI in der Biowissenschaft.