arXiv：医疗 LLM 的压力测试

一篇新论文提出了 AI-MASLD，这是一套借鉴自肝病学的压力审计框架，用于评估临床 LLM。对 7 个模型在 240 个病例上的测试表明，在叙事压力下模型会急剧分化，而医学微调会系统性地损害稳定性与公平性。

arXiv 于 2026 年 6 月 6 日发表了一篇论文（编号 arXiv:2606.07929，版本 v1），提出了 AI-MASLD，一套用于评估临床（医疗）大语言模型的压力审计框架。该框架借鉴自肝病学（研究肝脏的医学分支）中的代谢压力测试，揭示了标准测试无法发现的安全性弱点。

什么是 AI-MASLD，它从何而来？

AI-MASLD 是一套方法论框架，它不只在理想条件下测量医疗模型，而是让它们暴露于受控的”压力”之下。这一思路取自肝病学，那里用代谢压力测试来发现静息状态下看不见的隐藏紊乱。

迁移到大语言模型（LLM）上，逻辑是相同的：一个在标准测试中看似可靠的模型，在条件改变时可能会崩溃。因此该框架被设计为一种审计，而非普通的准确率度量。

实验是如何进行的？

作者在 240 个临床病例上测试了 7 个模型。每个病例都经过 6 个叙事扰动探针——在不改变医学事实本身的前提下，改变临床故事的讲述方式。

结果通过三个指标进行测量：metabolic index、perturbation flip rate（扰动翻转率）和 counterfactual fairness index（反事实公平性指数）。这些指标共同描述了当输入被微妙地重新表述时，模型有多稳定、多公平。

在叙事压力下会发生什么？

关键模式很清晰：所有模型在基线（baseline）条件下表现同样出色，但在叙事压力下会急剧分化。换句话说，模型之间的差异要在被施加压力之后才会显现。

尤其令人担忧的发现是，量化模型（为节省资源而降低精度的模型）表现出隐藏的功能性下降。这种下降不会被标准测量发现，因此在模型遇到非标准表述的病例之前都可能不被察觉。

医学微调有害吗？

论文最重要的结论之一是，医学微调会系统性地损害稳定性与公平性。本应提升可靠性的领域适配，按照这些测量结果，实际上降低了模型对叙事压力的抗性。

这是一个反直觉但在安全层面意义重大的发现。它警示我们，为临床用途专门化模型本身并不构成安全保证，还需要像 AI-MASLD 这样的额外审计。

哪个模型表现最好？

论文也指出了一个令人鼓舞的结果：一个 open-weight 模型（开放权重模型）在所有安全维度上都达到或超过了专有替代方案。这表明开放模型在要求严苛、安全敏感的临床场景中也能具有竞争力。

各模型的具体数字在完整的 34 页论文中，而非摘要里。作者强调，该框架的目标是在模型进入真实临床应用之前发现弱点。

常见问题

什么是 AI-MASLD 框架？

AI-MASLD 是一套用于评估临床（医疗）大语言模型的压力审计框架。它借鉴自肝病学（研究肝脏的医学分支）中的代谢压力测试，在叙事扰动下而不仅是标准条件下测试模型。

这篇论文的关键发现是什么？

所有受测模型在基线（baseline）条件下表现同样出色，但在叙事压力下会急剧分化。量化模型表现出隐藏的功能性下降，而医学微调会系统性地损害稳定性与公平性（fairness）。

模型是如何被测量的？

研究在 240 个临床病例上测试了 7 个模型，使用了 6 个叙事扰动探针。测量通过三个指标进行：metabolic index、perturbation flip rate 和 counterfactual fairness index。各模型的具体数字见完整的 34 页论文。

arXiv:2606.07929：医疗 LLM 压力测试揭示隐藏的安全病理