RadAgent是一款AI代理，利用视觉语言模型和专用工具，以多步骤透明方式解读胸部CT影像，并生成带有推理轨迹的放射科报告。

它比现有模型好多少？

在宏观F1上相对提升36.4%，对抗鲁棒性提升41.9%，超越CT-Chat基线，且Faithfulness得分达37%，而基线完全没有这一指标。

RadAgent：逐步解读胸部CT影像的AI工具，宏观F1得分相对提升36%

RadAgent是一款用于胸部CT（Computed Tomography，计算机断层扫描）影像放射科解读的AI代理，发表于arXiv最新论文。来自苏黎世、斯坦福和纽约大学的13位研究人员共同构建了该系统，通过透明的逐步流程，利用视觉语言模型（VLM）和专用工具生成结构化放射科报告。

与单体VLM方法不同，RadAgent作为工具调用代理运行——负责分割、病变检测、测量以及医学标准映射——并在此过程中维护一条明确的决策轨迹，供放射科医生事后审查和修订。

数据十分显著。与基线CT-Chat模型相比，RadAgent实现了：

Faithfulness得分衡量生成报告在多大程度上忠实反映影像上的可见发现——基线模型实质上在发现与报告之间没有可追溯的联系，而RadAgent达到了超过三分之一的陈述可追溯到图像上具体检测结果的水平。

放射科解读是医疗AI应用中最具前景但也最敏感的领域之一。黑盒模型——不提供解释就直接给出报告——此前一直是监管审批的主要障碍，因为放射科医生无法验证AI实际依赖了什么。

RadAgent生成的决策检查轨迹改变了这一动态：放射科医生可以打开逐步日志，查看工具检测到了哪些病变、测量了哪些并如何进行分类。将改进的F1得分与抗对抗攻击能力相结合，所得架构比前几代更具临床部署价值。

作者未提及代码公开发布日期，但论文已作为预印本发布在arXiv上。鉴于多机构署名以及超越行业基准的指标，RadAgent极有可能成为医学AI顶级期刊同行评审发表的候选，并可能为逐步放射科代理树立新标准。