RadAgent: AI alat koji korak po korak interpretira CT snimke prsnog koša uz +36 % rel. poboljšanje F1 rezultata
Zašto je bitno
RadAgent je AI agent za interpretaciju CT snimki prsnog koša koji u transparentnom koraku-po-korak procesu nadmašuje baseline CT-Chat model za 36,4 % relativno u macro-F1, 19,6 % u micro-F1 i 41,9 % u adversarijskoj robustnosti. Alat generira radiološke izvještaje s inspekcijskim tragovima odluka i postiže Faithfulness 37 % u odnosu na 0 % baseline.
Što je RadAgent?
RadAgent je AI agent za radiološku interpretaciju CT (Computed Tomography, računalna tomografija) snimki prsnog koša, predstavljen u novom radu na arXivu. Tim od 13 istraživača iz Züricha, Stanforda i sveučilišta NYU izgradio je sustav koji u transparentnom korak-po-korak procesu koristi vision-language modele (VLM) i specijalizirane alate za generiranje strukturiranih radioloških izvještaja.
Za razliku od monolitnih VLM pristupa, RadAgent funkcionira kao agent koji poziva alate — za segmentaciju, detekciju lezija, mjerenje i mapiranje na medicinske standarde — i pri tome vodi eksplicitan trag odluka koji radiolog kasnije može pregledati i revidirati.
Koliko je zapravo bolji od baseline modela?
Brojke su značajne. U usporedbi s baseline CT-Chat modelom, RadAgent postiže:
- Macro-F1: +6,0 bodova apsolutno (36,4 % relativno)
- Micro-F1: +5,4 bodova apsolutno (19,6 % relativno)
- Adversarijska robustnost: +24,7 bodova (41,9 % relativno)
- Faithfulness score: 37,0 % u usporedbi s baselineom od 0 %
Faithfulness score mjeri u kojoj mjeri generirani izvještaj doslovno odražava vidljive nalaze na snimci — baseline model u suštini nije imao traživu vezu između nalaza i izvještaja, dok RadAgent dolazi do razine gdje više od trećine svih tvrdnji može biti pratena do konkretne detekcije na slici.
Zašto je ovo važno za kliničku praksu?
Radiološka interpretacija jedno je od najperspektivnijih, ali i najosjetljivijih područja primjene AI-ja u medicini. Black-box modeli — koji daju izvještaj bez objašnjenja — dosad su bili glavni teret pri regulatornom odobrenju, jer radiolog ne može verificirati na što se AI zapravo oslonio.
Inspekcijski trag odluka (decision trace) koji RadAgent generira mijenja dinamiku: radiolog može otvoriti korak-po-korak log, vidjeti koje je lezije alat detektirao, koje je izmjerio i kako ih je kategorizirao. Kad se to spoji s poboljšanim F1 rezultatima i otpornošću na adversarijske napade, dobiva se arhitektura koja je zreliji kandidat za kliničko uvođenje nego prethodne generacije.
Što slijedi?
Autori ne spominju datum javnog izdavanja koda, no rad je dostupan na arXivu kao preprint. S obzirom na multi-institucijsko autorstvo i metrike koje premašuju industrijske benchmarke, RadAgent je vrlo vjerojatno kandidat za peer-review publikaciju u glavnom journalu medicinskog AI-ja, i može postaviti novi standard za korak-po-korak radiološke agente.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji