临床LLM：安全性不随模型规模扩展

新研究表明，临床LLM的安全性与准确性不遵循相同的缩放定律——RAG中更清晰的证据将准确率从73.5%提升至94.1%，高风险错误从12%降至2.6%，效果优于增大模型规模。

新研究为医疗AI行业带来了令人不安的消息：临床语言模型的安全性不遵循与其整体准确性相同的缩放定律。作者团队使用自研的RadSaFE-200基准测试——由放射科医生验证的200个临床高风险放射学问题——来检验模型在边界案例中的表现。

“不同的缩放定律”意味着什么？

缩放定律是描述模型性能如何随规模变化的经验规律——无论是通过参数、数据还是算力。在临床背景下，高风险错误是指可能直接危害患者的错误，例如漏诊肿瘤或错误解读放射影像。

研究表明，单纯增加模型大小或上下文窗口不能以与降低整体错误相同的比例降低高风险错误。换句话说，更大的模型不自动意味着更安全的模型。

RAG中更清洁的证据同时显著改善了两个指标：准确率从73.5%提升至94.1%，高风险错误率从12%降至2.6%。这一差异大于作者测量的任何模型缩放效应。

结论与所有开发医疗AI助手的人直接相关：部署决策——知识库质量、检索设计、上下文构建——是安全性的主要决定因素，而不仅仅是模型大小。

研究提出SaFE-Scale框架，作为分离安全性和准确性缩放定律的正式方法。这对正在考虑临床AI系统认证的监管机构有具体影响——仅测量整体准确性可能会遗漏安全缺陷。

对于在EU AI法案下工作并准备高风险医疗系统分类的欧洲开发团队，结果表明审计必须明确将安全指标与准确性指标分开。依赖综合基准数字的验证协议有可能恰恰遗漏那些可能伤害患者的错误。

常见问题

为什么安全性不随模型大小线性增长？

RadSaFE-200基准测试表明，增加参数或上下文窗口不能以与整体准确性相同的速度降低高风险错误——RAG中检索证据的质量比模型大小更具决定性影响。

什么是RadSaFE-200？

由放射科医生验证的200个临床高风险放射学问题的基准测试，专注于可能直接危害患者的错误。

什么是SaFE-Scale框架？

分离安全性和准确性缩放定律的正式方法，作为评估临床AI系统的监管机构的工具提出。