Klinische KI: Sicherheit skaliert nicht mit Modellgröße

Ein neues Paper zeigt, dass die Sicherheit klinischer KI-Modelle nicht denselben Skalierungsgesetzen folgt wie ihre Genauigkeit — sauberere Belege im RAG heben die Genauigkeit von 73,5 % auf 94,1 % und senken Hochrisiko-Fehler von 12 % auf 2,6 %, mehr als jeder Modellskalierungseffekt.

Ein neues Paper überbringt der medizinischen KI-Branche eine unbequeme Botschaft: Die Sicherheit klinischer Sprachmodelle folgt nicht denselben Skalierungsgesetzen wie ihre Gesamtgenauigkeit. Das Autorenteam verwendet den eigens entwickelten RadSaFE-200-Benchmark — 200 klinisch riskante radiologische Fragen, validiert von Radiologen — um zu untersuchen, wie sich Modelle in Grenzfällen verhalten.

Was bedeuten „unterschiedliche Skalierungsgesetze”?

Ein Skalierungsgesetz ist eine empirische Gesetzmäßigkeit, die beschreibt, wie sich die Modellleistung mit der Größe verändert — durch Parameter, Daten oder Rechenleistung. Ein Hochrisiko-Fehler im klinischen Kontext ist ein Fehler, der einen Patienten direkt gefährden kann, etwa ein übersehener Tumorbefund oder eine falsch interpretierte Röntgenaufnahme.

Das Paper zeigt, dass eine reine Erhöhung der Modellgröße oder des Kontextfensters Hochrisiko-Fehler nicht proportional zur Reduktion des Gesamtfehlers senkt. Mit anderen Worten: Ein größeres Modell ist nicht automatisch ein sichereres Modell.

Was senkt das Risiko tatsächlich?

Sauberere Belege im RAG verbessern beide Kennzahlen gleichzeitig deutlich: Die Genauigkeit steigt von 73,5 % auf 94,1 %, und die Hochrisiko-Fehlerrate sinkt von 12 % auf 2,6 %. Dieser Unterschied ist größer als jeder Modellskalierungseffekt, den die Autoren messen.

Die Schlussfolgerung ist direkt relevant für alle, die medizinische KI-Assistenten entwickeln: Deployment-Entscheidungen — Qualität der Wissensbasis, Retrieval-Design, Kontextkonstruktion — sind der primäre Bestimmungsfaktor für Sicherheit, nicht allein die Modellgröße.

Implikationen für Regulierungsbehörden und Entwicklungsteams

Das Paper führt das SaFE-Scale-Framework als formalen Ansatz zur Trennung der Skalierungsgesetze von Sicherheit und Genauigkeit ein. Es hat konkrete Konsequenzen für Regulierungsbehörden, die die Zertifizierung klinischer KI-Systeme erwägen — das ausschließliche Messen von Gesamtgenauigkeit kann Sicherheitslücken übersehen.

Für europäische Entwicklungsteams, die unter dem EU AI Act arbeiten und die Klassifizierung von Hochrisiko-Medizinsystemen vorbereiten, legen die Ergebnisse nahe, dass Audits Sicherheitsmetriken explizit von Genauigkeitsmetriken trennen müssen. Validierungsprotokolle, die sich auf aggregierte Benchmark-Zahlen stützen, riskieren, genau jene Fehler zu übersehen, die Patienten schaden können.

Häufig gestellte Fragen

Warum skaliert Sicherheit nicht linear mit der Modellgröße?

Der RadSaFE-200-Benchmark zeigt, dass eine Zunahme von Parametern oder Kontextfenster die Hochrisiko-Fehler nicht im gleichen Tempo senkt wie die Gesamtgenauigkeit — die Qualität der abgerufenen Belege im RAG dominiert über die Modellgröße.

Was ist RadSaFE-200?

Ein Benchmark aus 200 klinisch riskanten radiologischen Fragen, von Radiologen validiert und fokussiert auf Fehler, die Patienten direkt gefährden können.

Was ist das SaFE-Scale-Framework?

Ein formaler Ansatz zur Trennung der Skalierungsgesetze von Sicherheit und Genauigkeit, vorgeschlagen als Werkzeug für Regulierungsbehörden, die klinische KI-Systeme bewerten.

arXiv:2605.04039: Sicherheit und Genauigkeit klinischer KI-Modelle folgen unterschiedlichen Skalierungsgesetzen

Was bedeuten „unterschiedliche Skalierungsgesetze”?

Was senkt das Risiko tatsächlich?

Implikationen für Regulierungsbehörden und Entwicklungsteams

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten