🤖 24 AI
🟡 🤖 模型 2026年4月15日星期三 · 1 分钟阅读

ArXiv:发现大语言模型生成有害回复的神经元机制

为什么重要

对LLM内部机制的因果分析揭示,有害内容主要产生于模型的后层,主要通过MLP模块生成。最终层中的一小组神经元充当有害回复的控制机制。

为什么大语言模型有时会生成有害回复,尽管经过了大量的安全训练?一项新研究使用因果中介分析,揭示了模型内部负责这一行为的确切机制。

核心发现:后层与MLP模块

研究人员发现,有害内容的生成发生在模型的后层,主要是通过MLP(多层感知器)模块的故障,而非注意力模块。模型的前层理解提示中的有害上下文,并通过MLP将这些信号传播到输出层。

神经元作为控制机制

一个特别有趣的发现是,最终层中的一小组稀疏神经元充当一种控制机制——一个”阀门”,决定有害内容是被生成还是被阻止。

这意味着模型的安全行为并非分散在整个网络中,而是集中在可识别的特定组件中。

这对AI安全意味着什么?

这一发现为定向安全干预打开了大门——与其对整个模型进行昂贵的RLHF训练,不如只对控制有害输出的关键神经元进行精确修改。这将更快、更便宜、更精确。

当前的方法如RLHF(人类反馈强化学习)将模型视为”黑箱”,试图从外部改变行为。这项工作表明,一种更精确的机制性安全方法是可能的——就像手术与吃药治症状之间的区别。

🤖

本文由人工智能基于一手来源生成。