ReClaim：医疗FM在1000+诊断任务上达到AUC 75.6%

新的arXiv预印本介绍了ReClaim——一个拥有17亿参数的基础模型，在来自2亿患者记录的438亿医疗事件上训练而成。在超过1000项诊断任务中，平均AUC达到75.6%，显著优于LightGBM（66.3%）和Delphi专业模型（69.4%）。这开创了基于行政健康数据训练的基础模型新类别。

2026年5月5日，arXiv发布了预印本（ID 2605.02740），介绍了ReClaim——一个拥有17亿参数的基础模型，专门基于行政医疗理赔数据训练。研究结果表明，基础模型方法可以在不依赖放射学/影像FM典型的影像或临床数据的情况下，提供可泛化的医疗AI系统。

数据集包含什么内容，模型如何训练？

训练数据集涵盖来自2亿患者记录的438亿医疗事件。这些是结构化行政数据——ICD诊断、CPT程序、NDC编码的药物、费用和日期——是健康保险公司和医院系统在日常账单工作流中常规生成的数据。与医疗影像FM（需要经过筛选的放射学档案）或临床记录（非结构化且涉及隐私）不同，理赔数据以标准化格式存在于美国几乎每一个医疗机构中。

作者将建模视为序列学习任务：患者是带有时间戳的医疗事件序列，模型学习预测下一个事件。这使得无需特定任务微调即可跨数千种不同下游任务进行单模型评估。

ReClaim比现有基线超出多少？

在1000+诊断任务中，ReClaim达到平均AUC 75.6%。对比基线：

LightGBM（经典ML基准）：66.3%
Delphi（专业医疗模型）：69.4%

6-9个百分点的差距之所以显著，是因为它是在数千种不同诊断中测量的。经典单任务ML模型（LightGBM）缺乏跨不同诊断共享表示的能力，而Delphi——尽管经过医疗专业化——既未进行训练数据规模扩展，也未采用基础模型范式。

这对医疗AI实践有何重要意义？

如果研究结果在临床部署中得到复现，ReClaim类模型可能颠覆医疗AI开发的标准模式：医院/保险公司不再需要针对每种疾病训练专业模型，而是可以使用基础模型基础加上特定任务的轻量级微调。实际应用领域：临床决策支持、风险分层、保险欺诈检测和利用率管理——这些领域理赔数据量大，但构建每个任务的模型成本极高。

后续研究的开放问题：隐私考量（HIPAA合规场景）、跨机构泛化（基于美国Medicare理赔数据训练的模型是否适用于使用SNOMED-CT/ICD-10数据的欧盟系统）以及按种族/民族分层的预测校准——这是行政数据偏见文献长期记录的关键问题。

常见问题

ReClaim用于训练的数据量是多少？

ReClaim基于来自2亿患者记录的438亿医疗事件训练而成。这些是结构化行政数据——诊断、程序、药物、费用——是保险公司和医院在日常工作中常规生成的数据。

为什么AUC 75.6%是一个重要结果？

ReClaim在1000+诊断任务中达到平均AUC 75.6%，而LightGBM作为经典ML基线达到66.3%，Delphi专业医疗模型达到69.4%。在数千种不同诊断中6-9个百分点的差距，是基础模型方法典型鲁棒泛化能力的体现。

arXiv:2605.02740: ReClaim — 基于2亿患者记录训练的基础模型在1000+医疗任务上达到平均AUC 75.6%

数据集包含什么内容，模型如何训练？

ReClaim比现有基线超出多少？

这对医疗AI实践有何重要意义？

常见问题

来源

相关新闻