Evaluation

KI-Evaluierung

Die Disziplin, Fähigkeit, Sicherheit und Alignment von KI-Modellen über Benchmarks, menschliche Bewertung und Red-Teaming vor und nach dem Release zu messen.

KI-Evaluierung (AI evaluation) ist die Disziplin der systematischen Messung von Fähigkeit, Sicherheit und Alignment eines KI-Modells. Ziel ist es, objektiv festzustellen, was ein Modell kann, wo es versagt und wie riskant es ist — sowohl vor als auch nach dem Release.

Die Evaluierung kombiniert mehrere Methoden. Standardisierte Benchmarks bewerten Wissen und Fähigkeiten anhand einer festen Aufgabenmenge. Menschliche Bewertung (A/B-Vergleiche, Antwortbewertung) erfasst Qualität, die automatische Tests übersehen. Ein Red Team deckt mit adversariellen Methoden Jailbreaks und Missbrauch auf, während zunehmend auch Halluzinationen, Sykophantie und Täuschungsverhalten gemessen werden. Ganzheitliche Rahmenwerke wie HELM verfolgen neben Genauigkeit auch Verzerrung, Robustheit und Toxizität.

In den Jahren 2025–2026 ist die Evaluierung zentral für das Management von KI-Sicherheit und Alignment geworden. Labore veröffentlichen zu jedem Frontier-Modell „System Cards” mit Ergebnissen, OpenAI und Anthropic prüften gegenseitig ihre Modelle, und der EU AI Act sowie staatliche KI-Institute machen sie zur regulatorischen Pflicht. Eine zentrale Herausforderung bleibt die Sättigung und Kontamination von Benchmarks: Ein hoher Wert garantiert keine Zuverlässigkeit in der Praxis.

Quellen

Siehe auch