BioMysteryBench: Mythos Preview übertrifft Experten

Anthropic veröffentlichte am 29. April 2026 BioMysteryBench, ein Evaluierungsrahmen mit 99 Expertenaufgaben aus der Bioinformatik mit objektivem Ground Truth aus experimentellen Daten. Claude Opus 4.6 erreicht rund 77,4 % Genauigkeit bei 76 menschlich lösbaren Problemen und 23,5 % bei 23 übermenschlichen Aufgaben, während Mythos Preview einige Probleme löst, die ein Panel menschlicher Experten nicht bewältigen konnte – Forscher bezeichnen dies als Wendepunkt für die KI in der Biowissenschaft.

Anthropic veröffentlichte am 29. April 2026 BioMysteryBench, einen neuen Evaluierungsrahmen zur Beurteilung der bioinformatischen Fähigkeiten von KI-Modellen. Der Benchmark enthält 99 Aufgaben, die von Domänenexperten zusammengestellt wurden, verwendet unbereingte Daten aus echten Experimenten und bewertet Antworten anhand eines objektiven Ground Truth aus experimentellen Befunden. Der Ansatz zielt direkt auf drei Kernprobleme wissenschaftlicher Evaluierungen: die Zulassung unterschiedlicher methodologischer Ansätze, das Vorhandensein einer objektiven Antwort und die Möglichkeit, Probleme zu generieren, die Menschen selbst nicht lösen können.

Wie löst BioMysteryBench das Problem der Subjektivität?

Die meisten wissenschaftlichen Benchmarks messen nur, ob ein Modell mit dem wissenschaftlichen Konsens übereinstimmt – was keine Entdeckungen erlaubt. BioMysteryBench verfolgt einen methodenagnostischen Ansatz: Das Modell wählt seine eigenen Analysewerkzeuge, und das System überprüft die endgültige numerische oder kategorische Antwort gegen echte experimentelle Daten. Beispielaufgaben umfassen die Identifizierung eines menschlichen Organs aus einem Single-Cell-RNA-seq-Datensatz, die Erkennung von Genen, die in experimentellen Proben im Vergleich zu Kontrollproben ausgeschaltet wurden, sowie die Bestimmung von Verwandtschaftsverhältnissen aus Whole-Genome-Sequencing-Daten.

Welche Ergebnisse erzielen Claude-Modelle im Benchmark?

Bei 76 menschlich lösbaren Aufgaben erreicht Claude Opus 4.6 rund 77,4 % Genauigkeit, Sonnet 4.6 etwa 70 %. Bei 23 übermenschlichen Aufgaben – Fragen, die selbst ein Panel erfahrener Bioinformatiker nicht lösen konnte – erreicht Opus 4.6 23,5 %, während Mythos Preview 30 % löst. Mythos Preview führt zudem in der Kategorie der menschlich lösbaren Aufgaben. Anthropic stellt fest, dass die Zuverlässigkeit bei schwierigeren Problemen deutlich sinkt: Bei menschlich lösbaren Aufgaben gibt Opus 4.6 in mindestens 4 von 5 Versuchen in 86 % der Fälle die richtige Antwort, während diese Zahl bei übermenschlichen Aufgaben auf 44 % fällt – was darauf hindeutet, dass fast die Hälfte der Erfolge „spontan statt reproduzierbar“ auftritt.

Warum nennt Anthropic dies einen Wendepunkt?

Mythos Preview produziert wissenschaftliche Schlussfolgerungen, die Menschen bisher nicht aus identischen Daten ableiten konnten. Obwohl der Benchmark noch im Preview-Stadium ist („Anthropic/BioMysteryBench-preview“ auf Hugging Face), deutet das Ergebnis darauf hin, dass die KI nicht mehr nur ein Assistent ist, der bestehende Arbeitsabläufe beschleunigt, sondern Forschungsfragen, die ein menschliches Team nicht lösen kann, autonom beantworten kann. Anthropic lädt Forschende ein, das Modell über das Portal claude.com/lifesciences für eigene Analysen zu nutzen. Autorin des Beitrags ist Brianna aus dem Discovery-Team.

Häufig gestellte Fragen

Was ist BioMysteryBench?

Ein Evaluierungsrahmen mit 99 bioinformatischen Fragen, die von Domänenexperten zusammengestellt wurden. Er verwendet unbereingte Daten aus echten Experimenten, und die Antworten werden anhand eines objektiven Ground Truth aus validierten Metadaten bewertet – nicht anhand subjektiver wissenschaftlicher Schlussfolgerungen.

Wie genau ist Claude Opus 4.6 bei BioMysteryBench?

Etwa 77,4 % bei 76 menschlich lösbaren Aufgaben und 23,5 % bei 23 übermenschlichen Aufgaben. Sonnet 4.6 erreicht rund 70 % in der menschlich lösbaren Kategorie.

Was macht Mythos Preview besonders?

Mythos Preview löst 30 % der übermenschlichen Aufgaben und übertrifft ein Panel menschlicher Experten bei einigen Problemen. Anthropic bezeichnet dies als Wendepunkt, da das Modell wissenschaftliche Schlussfolgerungen produziert, die Menschen aus denselben Daten nicht ableiten konnten.

BioMysteryBench: Claude Mythos Preview löst bioinformatische Probleme, die selbst Experten nicht können – Opus 4.6 erreicht 77,4 % bei menschlich lösbaren Aufgaben

Wie löst BioMysteryBench das Problem der Subjektivität?

Welche Ergebnisse erzielen Claude-Modelle im Benchmark?

Warum nennt Anthropic dies einen Wendepunkt?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten