D²-Monitor：扩散LLM安全监控，仅需≤85万参数

研究人员提出了D²-Monitor，一种用于动态安全监控扩散语言模型（D-LLM）的系统，这类模型通过迭代去噪生成文本。D²-Monitor采用以「安全犹豫」为样本难度代理指标的两阶段方法，在三个数据集和四种D-LLM模型上以不超过85万参数达到最先进水平。

为什么扩散LLM模型需要专门的安全监控？

研究人员刘奥希、陈宇鹏、James Oldfield、洪冠哲、余俊驰、吴宝元、Philip Torr和Adel Bibi发现了AI安全领域一个长期被忽视的问题：现有内容监控方法主要针对GPT-4或Claude等自回归模型开发，而扩散语言模型（D-LLM）的安全监控覆盖仍然不足。

D-LLM通过迭代去噪生成文本——与自回归模型逐个词元生成的方式截然不同。这一架构差异意味着，标准安全探针无法直接迁移至D-LLM场景。

D²-Monitor引入了「安全犹豫」（safety hesitation）这一关键信号：当模型在迭代去噪过程中，其中间状态多次落在安全探针决策边界附近时，这表明该样本难以分类。

系统采用两阶段方法：

这种动态资源分配策略意味着，计算资源被精准聚焦在最需要的地方——即边界样本上。

D²-Monitor在三个标准数据集上进行了评估：WildguardMix、ToxicChat和OpenAI-Moderation，与八种基线方法在四种D-LLM模型上进行对比，在效果与效率的综合权衡上达到最先进水平。

尤为值得关注的是其参数效率：D²-Monitor仅使用不超过85万参数（≤0.85M），使其成为极为轻量的解决方案，可在生产环境D-LLM部署中应用，且对推理延迟的影响可忽略不计。

这项工作发布于扩散语言模型——如Plaid、MDLM及相关架构——作为自回归范式替代方案日益受到关注之际，对这类系统的安全监控正成为负责任应用的优先议题。

常见问题

扩散语言模型是什么，与GPT有何不同？

扩散语言模型（D-LLM）通过迭代去噪生成文本，与GPT等自回归模型逐词元生成的方式不同。D-LLM模型更小、更快，但具有不同的安全特性。

D²-Monitor中的「安全犹豫」是什么？

安全犹豫衡量的是模型中间状态在安全探针决策边界附近反复出现的频率——高犹豫度表明该样本难以分类，需要更重型的监控模块介入。

D²-Monitor在哪些数据集上进行了测试？

D²-Monitor在WildguardMix、ToxicChat和OpenAI-Moderation三个数据集上进行了评估，测试了四种不同D-LLM模型上的性能表现。