TxBench-PP: KI-Agenten in der Wirkstoffforschung

TxBench-PP ist ein Benchmark, der KI-Agenten in der präklinischen Pharmakologie kleiner Moleküle über 4.800 Trajektorien und 11 Modelle testet. Claude Opus 4.8 erreicht 59,3 % Erfolg vor GPT-5.5 mit 55,3 %, aber kein Modell erreicht die für medizinische Anwendungen nötige Zuverlässigkeit.

Neuer Standard für KI-Tests in der Wirkstoffforschung

Präklinische Pharmakologie bezeichnet die Forschungsphase vor klinischen Studien am Menschen — hier werden Sicherheit, Toxizität und Wirkmechanismus potenzieller therapeutischer Moleküle untersucht. Genau auf diese Phase zielt TxBench-PP ab, ein in arXiv:2606.19245 vorgestelltes Benchmark, das systematisch misst, wie weit KI-Agenten in diesem anspruchsvollen Bereich kommen. Ein Satz von 100 Evaluierungsaufgaben und 4.800 Trajektorien — Schrittfolgen eines Agenten — macht es zu einem der umfangreichsten Tests dieser Art.

Claude Opus 4.8 führt, doch der Abstand zur Zuverlässigkeit bleibt groß

Die Ergebnisse für 11 getestete Modelle zeigen eine klare Rangfolge, aber auch ein gemeinsames Problem. Claude Opus 4.8 erzielt 59,3 % Erfolg (178 von 300 Versuchen; 95 %-KI 51,1–67,6 %) und ist damit das beste Modell. GPT-5.5 folgt mit 55,3 %. Eine Lücke von knapp vier Prozentpunkten mag bescheiden wirken, bedeutet in der pharmazeutischen Forschung aber weniger kostspielige Fehlversuche. Die Kernaussage der Forscher bleibt für beide Modelle dieselbe: Keines ist für den eigenständigen Einsatz in Forschungsprotokollen zuverlässig genug.

Mehr als die Hälfte falsch darf kein Standard sein

Warum reichen 59 % nicht aus? In einer Laborumgebung, in der jede falsche Forschungsrichtung Wochen Arbeit und Hunderttausende von Euro kosten kann, ist ein Modell, das bei fast jeder zweiten Aufgabe irrt, kein Ersatz für einen Experten — nur ein Hilfsmittel, das strenge Überprüfung erfordert. Die Autoren betonen, dass TxBench-PP nicht darauf ausgelegt ist, Modelle schlecht aussehen zu lassen, sondern konkrete Schwächen zu identifizieren: Agenten schneiden besonders schlecht bei Aufgaben ab, die die Integration pharmakokinetischer und toxikologischer Daten erfordern.

Benchmark als Karte für künftige Verbesserungen

TxBench-PP eröffnet einen Weg zur strukturierten Verbesserung von KI-Werkzeugen für die Wirkstoffforschung. Pharmaunternehmen wie Exscientia, Recursion Pharmaceuticals und Insilico Medicine integrieren KI bereits in frühe Forschungsphasen, bisher jedoch ohne standardisiertes Maß. Dieses Benchmark kann zum Referenzpunkt für die Bewertung neuer Modelle werden — und Motivation für spezialisiertes Finetuning, das die Lücke zwischen den aktuellen 59 % und dem für sichere Anwendung nötigen Niveau schließen könnte.

Häufig gestellte Fragen

Warum ist kein KI-Modell zuverlässig genug für präklinische Pharmakologie?

Selbst das führende Claude Opus 4.8 erreicht nur 59,3 % Erfolg beim TxBench-PP-Test, was bedeutet, dass fast jede zweite Antwort falsch sein kann — eine solche Fehlerquote ist in der Arzneimittelentwicklung für den selbstständigen Einsatz nicht akzeptabel.

Was misst TxBench-PP und wie unterscheidet es sich von bisherigen medizinischen KI-Tests?

TxBench-PP bewertet KI-Agenten an 100 Aufgaben zur präklinischen Pharmakologie kleiner Moleküle über 4.800 Trajektorien mit Schwerpunkt auf mehrstufigem Schlussfolgern in der Wirkstoffforschungsphase vor klinischen Studien.

arXiv:2606.19245: TxBench-PP — KI-Agenten auf der Suche nach neuen Medikamenten

Neuer Standard für KI-Tests in der Wirkstoffforschung

Claude Opus 4.8 führt, doch der Abstand zur Zuverlässigkeit bleibt groß

Mehr als die Hälfte falsch darf kein Standard sein

Benchmark als Karte für künftige Verbesserungen

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten