ReClaim: medizinisches FM erreicht AUC 75,6 %

Ein neuer arXiv-Preprint stellt ReClaim vor — ein Foundation-Modell mit 1,7 Milliarden Parametern, trainiert auf 43,8 Milliarden medizinischen Ereignissen aus 200 Millionen Patientenakten. Bei mehr als 1000 diagnostischen Aufgaben erreicht es einen durchschnittlichen AUC-Wert von 75,6 % und übertrifft damit deutlich LightGBM (66,3 %) sowie das spezialisierte Delphi-Modell (69,4 %). Eröffnet eine neue Klasse von Foundation-Modellen, die auf administrativen Gesundheitsdaten trainiert sind.

ArXiv hat am 5. Mai 2026 (Preprint-ID 2605.02740) eine Arbeit veröffentlicht, die ReClaim vorstellt — ein Foundation-Modell mit 1,7 Milliarden Parametern, das ausschließlich auf administrativen medizinischen Abrechnungsdaten (Claims-Daten) trainiert wurde. Die Ergebnisse deuten darauf hin, dass der Foundation-Model-Ansatz generalisierbare medizinische KI-Systeme liefern kann, ohne von Bild- oder klinischen Daten abhängig zu sein, die für Radiologie/Imaging-FMs typisch sind.

Was enthält der Datensatz und wie wurde das Modell trainiert?

Der Trainingsdatensatz umfasst 43,8 Milliarden medizinische Ereignisse aus 200 Millionen Patientenakten. Es handelt sich um strukturierte administrative Daten — ICD-Diagnosen, CPT-Verfahren, Medikamente nach NDC-Codes, Kosten und Termine — die Krankenversicherungen und Krankenhaussysteme routinemäßig im Rahmen ihres täglichen Abrechnungs-Workflows erzeugen. Im Gegensatz zu medizinischen Imaging-FMs (die kuratierte Radiologiearchive erfordern) oder klinischen Notizen (die unstrukturiert und datenschutzsensibel sind), liegen Abrechnungsdaten in standardisierten Formaten in praktisch jeder Gesundheitsinstitution in den USA vor.

Die Autoren behandeln die Modellierung als Sequence-Learning-Aufgabe: Ein Patient ist eine Sequenz medizinischer Ereignisse mit Zeitstempeln, und das Modell lernt, das nächste Ereignis vorherzusagen. Dies ermöglicht eine Single-Model-Evaluierung über Tausende verschiedener Downstream-Aufgaben ohne aufgabenspezifisches Fine-Tuning.

Wie stark übertrifft ReClaim bestehende Baselines?

Bei mehr als 1000 diagnostischen Aufgaben erreicht ReClaim einen durchschnittlichen AUC-Wert von 75,6 %. Vergleichs-Baselines:

LightGBM (klassischer ML-Benchmark): 66,3 %
Delphi (spezialisiertes medizinisches Modell): 69,4 %

Eine Differenz von 6 bis 9 Prozentpunkten ist signifikant, da sie über Tausende verschiedener Diagnosen gemessen wurde. Klassische Single-Task-ML-Modelle (LightGBM) verfügen nicht über die Kapazität, Repräsentationen über verschiedene Diagnosen hinweg zu teilen, während Delphi — obwohl medizinisch spezialisiert — weder auf vergleichbarer Trainingsdatengröße aufgebaut ist noch das Foundation-Model-Paradigma nutzt.

Warum ist dies für die medizinische KI-Praxis von Bedeutung?

Sollten sich die Ergebnisse in klinischen Bereitstellungen replizieren lassen, könnte die ReClaim-Modellklasse das Standardmuster der Entwicklung medizinischer KI umkehren: Statt dass jedes Krankenhaus oder jede Versicherung spezialisierte Single-Disease-Modelle trainiert, könnte eine Foundation-Model-Basis mit aufgabenspezifischem leichtem Fine-Tuning genutzt werden. Praktische Implikationen: Clinical Decision Support, Risikostratifizierung, Betrugserkennung in Versicherungen und Utilization Management — alles Bereiche, in denen große Mengen an Abrechnungsdaten verfügbar sind, der Aufbau von Per-Task-Modellen jedoch prohibitiv teuer wäre.

Offene Fragen für die Folgeforschung: Datenschutz-Aspekte (HIPAA-Compliance-Szenarien), institutionsübergreifende Generalisierung (funktioniert ein Modell, das auf US-Medicare-Abrechnungsdaten trainiert wurde, auch in EU-Systemen mit SNOMED-CT/ICD-10-Daten) und Kalibrierung der Vorhersagen über Race-/Ethnicity-Strata — eine kritische Frage, die die Literatur zu administrativen Verzerrungen seit Langem dokumentiert.

Häufig gestellte Fragen

Wie viele Daten verwendet ReClaim für das Training?

ReClaim wurde auf 43,8 Milliarden medizinischen Ereignissen aus 200 Millionen Patientenakten trainiert. Es handelt sich um strukturierte administrative Daten — Diagnosen, Verfahren, Medikamente, Kosten — die Versicherungen und Krankenhäuser routinemäßig in ihrem täglichen Betrieb erzeugen.

Warum ist ein AUC-Wert von 75,6 % ein bedeutendes Ergebnis?

ReClaim erreicht bei mehr als 1000 diagnostischen Aufgaben einen durchschnittlichen AUC-Wert von 75,6 %, während LightGBM als klassische ML-Baseline 66,3 % und das spezialisierte medizinische Modell Delphi 69,4 % erzielen. Eine Differenz von 6 bis 9 Prozentpunkten über Tausende verschiedener Diagnosen ist ein Indikator für robuste Generalisierung, wie sie für den Foundation-Model-Ansatz typisch ist.

arXiv:2605.02740: ReClaim — Foundation-Modell auf 200 Millionen Patientenakten erreicht durchschnittlichen AUC-Wert von 75,6 % bei über 1000 medizinischen Aufgaben

Was enthält der Datensatz und wie wurde das Modell trainiert?

Wie stark übertrifft ReClaim bestehende Baselines?

Warum ist dies für die medizinische KI-Praxis von Bedeutung?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten