Evaluation

Benchmark

Standardisierter Test oder Datensatz, der die Fähigkeit eines KI-Modells misst und vergleicht — etwa MMLU, GPQA, SWE-bench, HumanEval und MMMU.

Ein Benchmark ist ein standardisierter Test oder Datensatz, mit dem die Fähigkeit eines KI-Modells bei einer bestimmten Aufgabe gemessen und objektiv verglichen wird. Jeder Benchmark legt eine feste Menge an Fragen oder Problemen sowie ein Bewertungsverfahren fest (meist der Anteil korrekter Antworten), sodass verschiedene Modelle vergleichbare Ergebnisse erhalten.

Bekannte Benchmarks decken unterschiedliche Fähigkeiten ab: MMLU prüft akademisches Wissen über 57 Fachgebiete, GPQA stellt naturwissenschaftliche Fragen auf Promotionsniveau, SWE-bench lässt Modelle echte GitHub-Fehler beheben, HumanEval misst die Programmsynthese und MMMU bewertet multimodales Verständnis von Bild und Text. Die Ergebnisse werden in den System Cards veröffentlicht, die jedes neue Frontier-Modell begleiten.

Benchmarks sind 2025–2026 zentral für die KI-Evaluierung, haben aber Grenzen. Ältere Tests wie MMLU sind inzwischen gesättigt (führende Modelle liegen über 90 %), und es besteht das Risiko der Kontamination — Testfragen, die in die Trainingsdaten gelangen. Ein hoher Wert garantiert weder Zuverlässigkeit in der Praxis noch Freiheit von Halluzinationen, weshalb die Branche laufend schwierigere, realistischere Tests entwickelt, besonders für Reasoning-Modelle.

Quellen

Siehe auch