Welche regulatorische Lücke adressiert die Arbeit?

Der EU AI Act, das NIST Risk Management Framework und die Europarats-Konvention zu KI, Menschenrechten und Rechtsstaatlichkeit fordern alle, dass Betreiber hochriskanter KI-Systeme die Sicherheit vor dem Einsatz nachweisen – doch keines dieser Dokumente spezifiziert, was 'akzeptables Risiko' quantitativ bedeutet, oder liefert eine technische Methode zur Verifikation. Die Autoren bezeichnen diese Lücke als wesentliches Hindernis für die praktische Anwendbarkeit der Regulierung.

Was sind die Werkzeuge RoMA und gRoMA?

RoMA und gRoMA sind statistische Verifikationswerkzeuge der zweiten Phase des Rahmens. Sie berechnen eine überprüfbare obere Schranke der tatsächlichen Fehlerrate eines Systems, ohne Zugang zur internen Modellstruktur zu benötigen – was die Zertifizierung auch geschlossener kommerzieller Modelle ermöglicht, auf deren Architektur Auditoren keinen Zugriff haben.

Wie sehen die zwei Zertifizierungsphasen aus?

In der ersten Phase legt die zuständige Behörde formal eine akzeptable Fehlerwahrscheinlichkeit δ und eine operative Eingabedomäne ε fest. In der zweiten Phase berechnen RoMA und gRoMA eine obere Schranke der tatsächlichen Fehlerrate, die mit dem Schwellenwert δ verglichen wird. Der Ansatz ist von Flugsicherheitsprotokollen inspiriert.

arXiv 'Bounding the Black Box': Statistische Zertifizierung für EU AI Act

Die Forscher Natan Levy und Gadi Perl veröffentlichten am 23. April 2026 auf ArXiv die Arbeit „Bounding the Black Box” (arXiv:2604.21854), in der sie sich direkt mit einem Problem auseinandersetzen, das Regulatoren und die Industrie seit zwei Jahren beschäftigt — wie lässt sich nachweisen, dass ein hochriskantes KI-System ausreichend sicher ist, wenn kein Gesetz definiert, was „ausreichend sicher” in Zahlen bedeutet?

Die Arbeit umfasst 11 Seiten und erscheint zu einem Zeitpunkt, da der EU AI Act in die operative Anwendung übergeht und Unternehmen Conformity Assessments für ihre KI-Systeme durchführen müssen, ohne klare methodische Grundlage.

Worin besteht die regulatorische Lücke?

Die Autoren formulieren das Problem scharf und präzise. Drei wesentliche Regulierungsinstrumente — der EU AI Act, das NIST Risk Management Framework (RMF) und die Europarats-Konvention zu KI, Menschenrechten und Rechtsstaatlichkeit — fordern alle, dass Betreiber hochriskanter Systeme deren Sicherheit vor dem Einsatz nachweisen. Wie die Autoren wörtlich formulieren: „none specifies what ‘acceptable risk’ means in quantitative terms, and none provides a technical method for verifying that a deployed system actually meets such a threshold.”

Anders ausgedrückt: Der Regulator verlangt einen Beweis, sagt aber weder, was bewiesen werden soll, noch wie. Das erzeugt Rechtsunsicherheit für Normadressaten und öffnet Raum für „Compliance Theater” — papierbasierte Risikobewertungen ohne reale Qualitätsmessung.

Wie sieht der vorgeschlagene zweistufige Rahmen aus?

Levy und Perl schlagen einen von Flugsicherheitsprotokollen inspirierten Rahmen vor, bei dem Sicherheit nicht durch Hoffnung, sondern durch Messung von Fehlerraten unterhalb eines vorab definierten Schwellenwerts nachgewiesen wird.

Erste Phase — politisch. Die zuständige Behörde (im EU-Kontext wäre das eine nationale Aufsichtsbehörde oder das Europäische KI-Büro) legt formal zwei Werte fest: eine akzeptable Fehlerwahrscheinlichkeit δ (Delta) und eine operative Eingabedomäne ε (Epsilon). Dieser Schritt ist eine politische und rechtliche Entscheidung, keine technische — wer die Befugnis hat, „akzeptabel” zu definieren, setzt den Schwellenwert.

Zweite Phase — technisch. Die statistischen Werkzeuge RoMA und gRoMA berechnen eine überprüfbare obere Schranke der tatsächlichen Fehlerrate des Systems auf der gegebenen Domäne ε. Liegt die obere Schranke unterhalb von δ, besteht das System die Zertifizierung. Liegt sie darüber, besteht es sie nicht.

Warum ist der RoMA-Ansatz für geschlossene Modelle besonders wichtig?

Das entscheidende technische Merkmal der Werkzeuge RoMA und gRoMA ist laut Abstract, dass sie ohne Zugang zur internen Modellstruktur arbeiten. Der Auditor benötigt keine Gewichte, Gradienten oder Architekturdetails — er arbeitet mit Ein- und Ausgabedaten und berechnet die statistische Fehlerschranke.

Das ist für den europäischen Markt entscheidend, da die Mehrzahl der hochriskanten Systeme, die unter den EU AI Act fallen, geschlossene kommerzielle Modelle sein werden (OpenAI, Anthropic, Google, Mistral). Jede Zertifizierungsmethode, die Zugang zu Modellgewichten erfordert, ist in der Praxis nicht anwendbar. RoMA ermöglicht es einer dritten Partei, eine bedeutungsvolle Verifikation auch an einem Black-Box-System durchzuführen.

Was bedeutet das für Unternehmen und Regulatoren?

Für Unternehmen, die hochriskante KI-Systeme entwickeln oder integrieren (Gesundheitswesen, Finanzen, HR-Prozesse, kritische Infrastruktur), bietet die Arbeit eine konkrete technische Vorlage für eigene Compliance-Bewertungen, solange der Regulator noch keine eigenen Leitlinien veröffentlicht hat. Der Ansatz eignet sich auch als Verhandlungsposition gegenüber Lieferanten — es wird möglich, von Modellanbietern statistische Nachweise im RoMA-Stil statt generischer „Model Card”-Erklärungen zu verlangen.

Für Aufsichtsbehörden bietet die Arbeit einen methodischen Ausgangspunkt, der akademisch veröffentlicht, begutachtet und technisch hinreichend spezifisch ist, um in Verordnungen übernommen zu werden. Das Abstract enthält keine konkreten p-Wert-Schwellen oder Fallstudien — der vollständige Text muss vor einer Implementierung gelesen werden —, aber die Richtung ist klar: Quantitative KI-Sicherheitszertifizierung ist keine theoretische, sondern eine operative Herausforderung.

arXiv:2604.21854 'Bounding the Black Box': Ein statistischer Rahmen zur Zertifizierung hochriskanter KI-Systeme gemäß EU AI Act

Worin besteht die regulatorische Lücke?

Wie sieht der vorgeschlagene zweistufige Rahmen aus?

Warum ist der RoMA-Ansatz für geschlossene Modelle besonders wichtig?

Was bedeutet das für Unternehmen und Regulatoren?

Quellen

Verwandte Nachrichten