arXiv: Stresstest medizinischer LLMs

Eine neue Arbeit stellt AI-MASLD vor, ein aus der Hepatologie entlehntes Stress-Audit-Framework zur Bewertung klinischer LLMs. Tests von 7 Modellen an 240 Faellen zeigen, dass die Modelle unter narrativem Stress stark divergieren, waehrend medizinisches Fine-Tuning Stabilitaet und Fairness systematisch verschlechtert.

arXiv veroeffentlichte am 6. Juni 2026 eine Arbeit (Kennung arXiv:2606.07929, Version v1), die AI-MASLD vorstellt, ein Stress-Audit-Framework zur Bewertung klinischer (medizinischer) grosser Sprachmodelle. Das Framework ist aus dem metabolischen Stresstest der Hepatologie (dem Zweig der Medizin, der sich mit der Leber befasst) entlehnt und deckt Sicherheitsschwaechen auf, die Standardtests nicht erkennen.

Was ist AI-MASLD und woher stammt es?

AI-MASLD ist ein methodisches Framework, das medizinische Modelle nicht nur unter idealen Bedingungen misst, sondern sie kontrolliertem “Stress” aussetzt. Die Idee stammt aus der Hepatologie, wo der metabolische Stresstest verwendet wird, um versteckte Stoerungen aufzudecken, die im Ruhezustand nicht sichtbar sind.

Auf grosse Sprachmodelle (LLM) uebertragen ist die Logik dieselbe: Ein Modell, das in einem Standardtest zuverlaessig wirkt, kann zusammenbrechen, wenn sich die Bedingungen aendern. Das Framework ist deshalb als Audit konzipiert und nicht als gewoehnliches Mass fuer Genauigkeit.

Wie wurde das Experiment durchgefuehrt?

Die Autoren testeten 7 Modelle an 240 klinischen Faellen. Jeder Fall durchlief 6 narrative Stoerungssonden — Variationen in der Art, wie die klinische Geschichte erzaehlt wird, ohne die zugrunde liegende medizinische Tatsache zu aendern.

Die Ergebnisse wurden ueber drei Metriken gemessen: metabolic index, perturbation flip rate und counterfactual fairness index. Zusammen beschreiben diese Metriken, wie stabil und fair ein Modell ist, wenn die Eingabe subtil umgeformt wird.

Was geschieht unter narrativem Stress?

Das zentrale Muster ist klar: Alle Modelle sind unter Baseline-Bedingungen gleich gut, divergieren aber unter narrativem Stress stark. Mit anderen Worten, die Unterschiede zwischen den Modellen werden erst sichtbar, wenn man sie belastet.

Besonders besorgniserregend ist der Befund, dass quantisierte Modelle (jene mit reduzierter Praezision zur Ressourcenersparnis) einen versteckten Funktionsabfall zeigen. Dieser Abfall wird durch Standardmessungen nicht aufgedeckt und kann daher unbemerkt bleiben, bis das Modell auf einen nicht standardmaessig formulierten Fall trifft.

Schadet medizinisches Fine-Tuning?

Eine der wichtigsten Schlussfolgerungen der Arbeit ist, dass medizinisches Fine-Tuning Stabilitaet und Fairness systematisch verschlechtert. Die Anpassung eines Modells an die medizinische Domaene, die die Zuverlaessigkeit erhoehen sollte, verringert diesen Messungen zufolge tatsaechlich die Widerstandsfaehigkeit gegen narrativen Stress.

Das ist ein kontraintuitiver, aber sicherheitsrelevanter Befund. Er warnt davor, dass die Spezialisierung eines Modells fuer den klinischen Einsatz an sich keine Garantie fuer Sicherheit ist und dass ein zusaetzliches Audit wie AI-MASLD noetig ist.

Welches Modell schnitt am besten ab?

Die Arbeit hebt auch ein ermutigendes Ergebnis hervor: Ein Open-Weight-Modell (ein Modell mit offenen Gewichten) erreicht oder uebertrifft proprietaere Alternativen in allen Sicherheitsdimensionen. Das zeigt, dass offene Modelle auch in anspruchsvollen, sicherheitskritischen klinischen Szenarien konkurrenzfaehig sein koennen.

Konkrete Zahlen pro Modell stehen in der vollstaendigen 34-seitigen Arbeit, nicht in der Zusammenfassung. Die Autoren betonen, dass das Ziel des Frameworks darin besteht, Schwaechen aufzudecken, bevor die Modelle in den tatsaechlichen klinischen Einsatz gelangen.

Häufig gestellte Fragen

Was ist das AI-MASLD-Framework?

AI-MASLD ist ein Stress-Audit-Framework zur Bewertung klinischer (medizinischer) grosser Sprachmodelle. Es ist aus dem metabolischen Stresstest der Hepatologie (Lebermedizin) entlehnt und testet Modelle unter narrativen Stoerungen statt nur unter Standardbedingungen.

Was ist die zentrale Erkenntnis der Arbeit?

Alle getesteten Modelle sind unter Baseline-Bedingungen gleich gut, divergieren aber unter narrativem Stress stark. Quantisierte Modelle zeigen einen versteckten Funktionsabfall, und medizinisches Fine-Tuning verschlechtert Stabilitaet und Fairness systematisch.

Wie wurden die Modelle gemessen?

Sieben Modelle wurden an 240 klinischen Faellen mit 6 narrativen Stoerungssonden getestet. Die Messung erfolgte ueber drei Metriken: metabolic index, perturbation flip rate und counterfactual fairness index. Konkrete Zahlen pro Modell stehen in der vollstaendigen 34-seitigen Arbeit.

arXiv:2606.07929: Stresstest medizinischer LLMs deckt versteckte Sicherheitspathologie auf