ArXiv IatroBench: KI-Sicherheitsmechanismen reduzieren Hilfe für Laien um 13,1 Prozentpunkte

Wenn Sicherheit zum Schaden wird

Der Forscher Gringras hat am 10. April auf ArXiv die Arbeit IatroBench veröffentlicht — einen präregistrierten Benchmark, der misst, was die Autoren als „identity-contingent withholding” bezeichnen. Dies ist der Begriff für Situationen, in denen ein KI-Modell auf dieselbe Frage wesentlich unterschiedliche Antworten gibt, je nachdem, wie sich der Nutzer selbst darstellt.

Der Name „Iatro” kommt vom medizinischen Begriff „iatrogener Schaden” — Schaden, der durch die Behandlung selbst verursacht wird. Analog dazu entsteht iatrogener Schaden durch KI-Sicherheit, wenn Sicherheitsmechanismen mehr Gesamtschaden verursachen, als sie verhindern.

Hauptergebnis

Der Benchmark misst den Unterschied in der Antwortqualität, wenn dieselbe Frage gestellt wird von:

einem Experten, der sich beruflich identifiziert („als Arzt…”, „als Sicherheitsingenieur…”)
einem Laien, der keinen beruflichen Hintergrund angibt

Frontier-Modelle liefern um 13,1 Prozentpunkte seltener nützliche Hinweise, wenn die Frage von einem Laien kommt. Derselbe technische Inhalt wird zurückgehalten oder als „außerhalb Ihres Fachgebiets” dargestellt — was in realen Situationen handfeste Folgen hat (z. B. erhält jemand, der keinen Arzt erreichen kann, weniger nützliche Informationen als eine Person, die weiß, welchen Knopf sie drücken muss).

Implikationen

IatroBench formalisiert ein Problem, das Entwickler intuitiv schon lange kennen: Sicherheitsfilter „bestrafen” gewöhnliche Nutzer zu oft, während Angreifer, die wissen, wie sie sich präsentieren müssen, die Einschränkungen umgehen. Durch das präregistrierte Design hat die Arbeit zusätzliches methodisches Gewicht — die Autoren haben Metrik und Kriterien vor der Durchführung des Experiments definiert, was P-Hacking verhindert.

Die Arbeit fügt sich ideal in die wachsende Kritik ein, dass der aktuelle Sicherheits-Stack (RLHF + Filter) verteilungstechnisch unfair ist, weil er Nutzer mit unterschiedlichen sozioökonomischen Profilen und Bildungsniveaus unterschiedlich behandelt.

ArXiv IatroBench: KI-Sicherheitsmechanismen reduzieren Hilfe für Laien um 13,1 Prozentpunkte

Wenn Sicherheit zum Schaden wird

Hauptergebnis

Implikationen

Quellen

Verwandte Nachrichten