RadAgent ist ein KI-Agent, der Vision-Language-Modelle und spezialisierte Werkzeuge für die transparente, mehrstufige Interpretation von Thorax-CT-Aufnahmen nutzt und einen radiologischen Bericht mit nachvollziehbarer Schlussfolgerungskette erstellt.

Wie viel besser ist er im Vergleich zu bestehenden Modellen?

Er erzielt eine relative Verbesserung von 36,4 % im Macro-F1 und 41,9 % in der adversariellen Robustheit gegenüber dem CT-Chat-Baseline sowie einen Faithfulness-Wert von 37 %, den das Baseline-Modell überhaupt nicht aufwies.

RadAgent: KI-Werkzeug zur schrittweisen Interpretation von Thorax-CT-Aufnahmen mit +36 % relativem F1-Gewinn

Was ist RadAgent?

RadAgent ist ein KI-Agent zur radiologischen Interpretation von Thorax-CT-Aufnahmen (Computertomographie), der in einem neuen arXiv-Beitrag vorgestellt wird. Ein Team von 13 Forschenden aus Zürich, Stanford und der NYU entwickelte ein System, das in einem transparenten Schritt-für-Schritt-Prozess Vision-Language-Modelle (VLM) und spezialisierte Werkzeuge nutzt, um strukturierte radiologische Berichte zu erstellen.

Im Gegensatz zu monolithischen VLM-Ansätzen arbeitet RadAgent als Werkzeug-aufrufender Agent — er ruft Werkzeuge für Segmentierung, Läsionserkennung, Messung und Zuordnung zu medizinischen Standards auf und führt dabei einen expliziten Entscheidungspfad, den ein Radiologe später einsehen und überarbeiten kann.

Wie viel besser ist er wirklich gegenüber dem Baseline-Modell?

Die Zahlen sind bedeutsam. Im Vergleich zum Baseline-Modell CT-Chat erreicht RadAgent:

Macro-F1: +6,0 Punkte absolut (36,4 % relativ)
Micro-F1: +5,4 Punkte absolut (19,6 % relativ)
Adversarielle Robustheit: +24,7 Punkte (41,9 % relativ)
Faithfulness-Score: 37,0 % gegenüber einem Baseline-Wert von 0 %

Der Faithfulness-Score misst, inwieweit der generierte Bericht die sichtbaren Befunde auf der Aufnahme wörtlich widerspiegelt — das Baseline-Modell hatte im Wesentlichen keine nachvollziehbare Verbindung zwischen Befunden und Bericht, während RadAgent eine Ebene erreicht, auf der mehr als ein Drittel aller Aussagen auf eine konkrete Detektion im Bild zurückgeführt werden kann.

Warum ist das für die klinische Praxis bedeutsam?

Die radiologische Interpretation gehört zu den vielversprechendsten, aber auch sensibelsten Anwendungsbereichen von KI in der Medizin. Black-Box-Modelle — die Berichte ohne Erklärung liefern — waren bislang das Haupthindernis für die regulatorische Zulassung, da Radiologinnen und Radiologen nicht überprüfen können, worauf sich die KI tatsächlich gestützt hat.

Der Entscheidungspfad, den RadAgent erzeugt, verändert diese Dynamik: Eine Radiologin kann das Schritt-für-Schritt-Protokoll öffnen, sehen, welche Läsionen das Werkzeug erkannte, welche es maß und wie es sie kategorisierte. In Kombination mit verbesserten F1-Werten und Widerstandsfähigkeit gegenüber adversariellen Angriffen entsteht eine Architektur, die ein reiferer Kandidat für die klinische Einführung ist als frühere Generationen.

Was kommt als Nächstes?

Die Autorinnen und Autoren nennen kein Datum für eine öffentliche Code-Veröffentlichung, aber die Arbeit ist als Preprint auf arXiv verfügbar. Angesichts der multi-institutionellen Autorenschaft und der Metriken, die Branchen-Benchmarks übertreffen, ist RadAgent ein starker Kandidat für eine Peer-Review-Publikation in einem führenden Journal für medizinische KI und könnte einen neuen Standard für schrittweise Radiologie-Agenten setzen.

RadAgent: KI-Werkzeug zur schrittweisen Interpretation von Thorax-CT-Aufnahmen mit +36 % relativem F1-Gewinn

Was ist RadAgent?

Wie viel besser ist er wirklich gegenüber dem Baseline-Modell?

Warum ist das für die klinische Praxis bedeutsam?

Was kommt als Nächstes?

Quellen

Verwandte Nachrichten