RaDaR：LLM加速罕见病诊断

RaDaR是专为罕见病诊断训练的320亿参数开源推理LLM。在随机对照试验中，相较于互联网搜索，它将医生诊断准确率提升了21.44个百分点，并能在61%的病例中提前临床记录识别出正确诊断。

RaDaR是什么，为何重要？

RaDaR（罕见病推理）是一种专用推理LLM——不仅生成文本，还逐步进行医学推断——专为罕见病诊断而开发。罕见病影响不足1/2000的人群，往往因缺乏专业知识而多年未能确诊。该模型拥有320亿参数，基于49,170个公开临床病例和104,666个合成生成病例结合推理增强训练，论文于2026年6月23日提交。

准确率如何，在哪些方面超越更大规模的模型？

在随机对照试验（RCT）——医学评估的金标准——中，RaDaR相比仅使用互联网搜索的组别，将医生诊断准确率提升了**+21.44个百分点**。在回顾性分析中，它在61.06%的病例中于临床怀疑被记录之前就识别出了正确诊断，平均提前约1.87个月。

关键的直接基准结果是：RaDaR超越了拥有6710亿参数的DeepSeek-R1——后者是其21倍大——这罕见地证明了狭窄的领域专业化可以在医疗任务中超越原始规模。

为什么领域专业化至关重要？

GPT-4或DeepSeek-R1等通用模型基于海量多样化语料进行训练。RaDaR则专门针对罕见病进行优化，使用带有推理轨迹的结构化叙事病例。合成数据解决了根本问题：文献中真实的罕见病临床描述极为稀少，模型通过受控合成「自行生成」了这些数据。最终形成了一个在其细分领域超越通用模型的专业专家。

临床应用与局限性

研究在多个验证中心进行，提高了结果的可靠性。然而，约1.87个月的提前期和61%的回顾性准确率意味着该模型并非万能——而是为医生提供更早信号的辅助工具。开源特性使其可集成到医院系统中，无需依赖商业API。

常见问题

RaDaR如何在真实数据如此有限的情况下完成训练？

模型基于49,170个公开病例和104,666个合成生成病例进行训练，结合推理增强训练，弥补了罕见病真实临床数据的稀缺性。

与DeepSeek-R1（671B）的比较为何意义重大？

RaDaR以320亿参数超越了拥有6710亿参数的DeepSeek-R1——后者是前者的21倍大——证明了领域专业化在医疗任务中可以超越原始规模。

arXiv:2606.24510: RaDaR — 专用32B推理LLM在RCT中加速罕见病诊断

RaDaR是什么，为何重要？

准确率如何，在哪些方面超越更大规模的模型？

为什么领域专业化至关重要？

临床应用与局限性

常见问题

来源

相关新闻