🤖 24 AI
🟡 ⚖️ Regulierung Donnerstag, 16. April 2026 · 2 Min. Lesezeit

ArXiv: Katalog von 195 KI-Safety-Benchmarks offenbart Fragmentierung und schwache Messstandards

Warum es wichtig ist

AISafetyBenchExplorer ist ein strukturierter Katalog, der 195 KI-Safety-Benchmarks aus den Jahren 2018 bis 2026 dokumentiert. Die Forschung deckt eine alarmierende Fragmentierung im Feld auf — Begriffe wie 'accuracy' und 'safety score' verbergen völlig unterschiedliche Methodologien. Von den 195 Benchmarks evaluieren 165 ausschließlich die englische Sprache, und 137 haben inaktive GitHub-Repositories, was auf mangelnde Pflege nach der Veröffentlichung hindeutet.

Wie viel wissen wir tatsächlich über die Sicherheit von KI-Modellen? Der Forscher Abiodun Solanke hat AISafetyBenchExplorer veröffentlicht — den ersten umfassenden Katalog, der 195 Benchmarks zur Evaluierung der Sicherheit künstlicher Intelligenz dokumentiert, die in acht Jahren veröffentlicht wurden. Die Ergebnisse zeigen, dass das Feld unter Fragmentierung, inkonsistenter Terminologie und mangelhafter Werkzeugpflege leidet.

Wie groß ist das Terminologieproblem?

Wenn ein Benchmark meldet, dass ein Modell einen „Safety Score” von 92 % hat, und ein anderer 78 % für dasselbe Modell angibt, geht ein Nutzer davon aus, dass dieselbe Metrik verwendet wird. Die Realität ist eine andere — Begriffe wie „accuracy”, „safety score” und „harmful response rate” verbergen völlig unterschiedliche Implementierungsansätze und Bedrohungsmodelle.

Das bedeutet, dass Herstelleraussagen wie „unser Modell ist gemäß Benchmark X sicher” nur begrenzten Wert haben, ohne zu verstehen, was dieser Benchmark tatsächlich misst, wie er es misst und welche Szenarien er abdeckt. Der Katalog bezeichnet dieses Phänomen als „Metrik-Maskierung” — oberflächliche Ähnlichkeit, die grundlegende Unterschiede verbirgt.

Wie gut werden Benchmarks tatsächlich gepflegt?

Die Statistiken sind besorgniserregend. Von den 195 katalogisierten Benchmarks haben 137 (70 %) inaktive GitHub-Repositories — ohne nennenswerte Aktualisierungen nach der Erstveröffentlichung. Das bedeutet, dass die Mehrheit der Evaluierungswerkzeuge nicht mit der Modellentwicklung und neuen Angriffstypen Schritt hält.

Zusätzlich werden 94 von 195 Benchmarks (48 %) als „mittlere Komplexität” eingestuft — ausreichend für grundlegende Überprüfungen, aber unzureichend für die Evaluierung ausgefeilter Angriffe wie Mehragenten-Jailbreaks oder indirekter Prompt-Injektion. Nur ein kleiner Anteil der Benchmarks adressiert die fortgeschrittenen Bedrohungsszenarien, die für heutige Frontier-Modelle relevant sind.

Warum ist die Sprachabdeckung eine kritische Lücke?

Der vielleicht alarmierendste Befund ist sprachlicher Natur: 165 von 195 Benchmarks (85 %) evaluieren Modelle ausschließlich auf Englisch. Das bedeutet, dass die Sicherheit von KI-Systemen für Nutzer, die Kroatisch, Deutsch, Japanisch oder eine der Hunderten anderen Sprachen sprechen, weitgehend ungetestet bleibt.

Dies ist besonders problematisch im Kontext des europäischen KI-Gesetzes (AI Act), das eine Sicherheitsevaluierung von KI-Systemen fordert, die auf dem europäischen Markt eingesetzt werden — doch die Werkzeuge für diese Evaluierung decken europäische Sprachen weitgehend nicht ab. Der Katalog bietet eine Infrastruktur für eine bessere Benchmark-Auswahl durch Metadatenschemata und Komplexitstaxonomien, aber das grundlegende Problem bleibt bestehen: Das Feld braucht gemeinsame Messstandards und eine langfristige Pflege der Evaluierungswerkzeuge.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.