Was ist AISafetyBenchExplorer?

Es ist ein strukturierter Katalog von 195 KI-Safety-Benchmarks aus dem Zeitraum 2018–2026, der den Vergleich von Methodologien, Metriken und dem Umfang von Evaluierungswerkzeugen für die Sicherheit von KI-Systemen ermöglicht.

Warum ist die Fragmentierung von Benchmarks ein Problem?

Verschiedene Benchmarks verwenden dieselben Begriffe (wie 'safety score') für völlig unterschiedliche Dinge, was einen Ergebnisvergleich zwischen Modellen unmöglich macht und Regulierungsbehörden die Festlegung einheitlicher Standards erschwert.

Wie viele Benchmarks decken andere Sprachen als Englisch ab?

Nur 30 von 195 Benchmarks (15 %) evaluieren Modelle in anderen Sprachen als Englisch, was bedeutet, dass die Sicherheit von KI-Systemen für die Mehrheit der Weltsprachen weitgehend ungetestet bleibt.

ArXiv: Katalog von 195 KI-Safety-Benchmarks offenbart Fragmentierung und schwache Messstandards

Wie viel wissen wir tatsächlich über die Sicherheit von KI-Modellen? Der Forscher Abiodun Solanke hat AISafetyBenchExplorer veröffentlicht — den ersten umfassenden Katalog, der 195 Benchmarks zur Evaluierung der Sicherheit künstlicher Intelligenz dokumentiert, die in acht Jahren veröffentlicht wurden. Die Ergebnisse zeigen, dass das Feld unter Fragmentierung, inkonsistenter Terminologie und mangelhafter Werkzeugpflege leidet.

Wie groß ist das Terminologieproblem?

Wenn ein Benchmark meldet, dass ein Modell einen „Safety Score” von 92 % hat, und ein anderer 78 % für dasselbe Modell angibt, geht ein Nutzer davon aus, dass dieselbe Metrik verwendet wird. Die Realität ist eine andere — Begriffe wie „accuracy”, „safety score” und „harmful response rate” verbergen völlig unterschiedliche Implementierungsansätze und Bedrohungsmodelle.

Das bedeutet, dass Herstelleraussagen wie „unser Modell ist gemäß Benchmark X sicher” nur begrenzten Wert haben, ohne zu verstehen, was dieser Benchmark tatsächlich misst, wie er es misst und welche Szenarien er abdeckt. Der Katalog bezeichnet dieses Phänomen als „Metrik-Maskierung” — oberflächliche Ähnlichkeit, die grundlegende Unterschiede verbirgt.

Wie gut werden Benchmarks tatsächlich gepflegt?

Die Statistiken sind besorgniserregend. Von den 195 katalogisierten Benchmarks haben 137 (70 %) inaktive GitHub-Repositories — ohne nennenswerte Aktualisierungen nach der Erstveröffentlichung. Das bedeutet, dass die Mehrheit der Evaluierungswerkzeuge nicht mit der Modellentwicklung und neuen Angriffstypen Schritt hält.

Zusätzlich werden 94 von 195 Benchmarks (48 %) als „mittlere Komplexität” eingestuft — ausreichend für grundlegende Überprüfungen, aber unzureichend für die Evaluierung ausgefeilter Angriffe wie Mehragenten-Jailbreaks oder indirekter Prompt-Injektion. Nur ein kleiner Anteil der Benchmarks adressiert die fortgeschrittenen Bedrohungsszenarien, die für heutige Frontier-Modelle relevant sind.

Warum ist die Sprachabdeckung eine kritische Lücke?

Der vielleicht alarmierendste Befund ist sprachlicher Natur: 165 von 195 Benchmarks (85 %) evaluieren Modelle ausschließlich auf Englisch. Das bedeutet, dass die Sicherheit von KI-Systemen für Nutzer, die Kroatisch, Deutsch, Japanisch oder eine der Hunderten anderen Sprachen sprechen, weitgehend ungetestet bleibt.

Dies ist besonders problematisch im Kontext des europäischen KI-Gesetzes (AI Act), das eine Sicherheitsevaluierung von KI-Systemen fordert, die auf dem europäischen Markt eingesetzt werden — doch die Werkzeuge für diese Evaluierung decken europäische Sprachen weitgehend nicht ab. Der Katalog bietet eine Infrastruktur für eine bessere Benchmark-Auswahl durch Metadatenschemata und Komplexitstaxonomien, aber das grundlegende Problem bleibt bestehen: Das Feld braucht gemeinsame Messstandards und eine langfristige Pflege der Evaluierungswerkzeuge.

ArXiv: Katalog von 195 KI-Safety-Benchmarks offenbart Fragmentierung und schwache Messstandards

Wie groß ist das Terminologieproblem?

Wie gut werden Benchmarks tatsächlich gepflegt?

Warum ist die Sprachabdeckung eine kritische Lücke?

Quellen

Verwandte Nachrichten