🟡 🛡️ 安全 发布于: · 2 分钟阅读 ·

arXiv:2606.00831:新论文称潜意识学习是 LoRA 的人为产物

arXiv:2606.00831 ↗

编辑插图:新论文称潜意识学习是 LoRA 的人为产物

一篇新的 arXiv 论文对潜意识学习现象提出质疑,该现象指行为特征通过看似无害的数据在模型之间传递。作者证明,该效应实际上是 LoRA 方法的人为产物:在完整微调下消失,并以倒 U 形依赖于 LoRA 秩。结论是这是一条脆弱且不可靠的通道。

🤖

本文由人工智能基于一手来源生成。

一篇发表在 arXiv 上、标题为「Subliminal Learning is a LoRA Artifact」的新论文,直接质疑了语言模型安全领域中一项令人担忧的发现。作者为 Todd Nief、Harvey Yiyun Fu、Mark Muchane 和 Ari Holtzman。

什么是潜意识学习?

潜意识学习是一种现象,其中具有某种行为特征的语言模型在微调(在新数据上训练既有模型)过程中将该特征传递给另一个模型。令其令人不安之处在于,这种传递据称是通过看似中性、无害的数据发生的,而在样本本身中并无该特征的明显痕迹。

为什么作者称这是人为产物?

论文表明该效应依赖于 LoRA(Low-Rank Adaptation,低秩适配)技术,这是一种高效微调方法,它只更新一小部分低秩参数而非整个模型。关键发现是,特征传递对 LoRA 秩呈现倒 U 形依赖关系:效应在秩的中间值处最强,而向两端减弱。更重要的是,当用完整微调替代 LoRA 时,该现象完全消失。

该效应还依赖于什么?

作者表明,这种行为高度依赖于训练和评估期间所见的上下文。例如,在生成时移除模型的默认系统提示会抵消该效应,即使该提示在训练期间是存在的。潜意识行为集中体现在那些既出现在训练中又出现在评估中的 token 上的计算中,例如系统提示和对话模板。

这对模型安全意味着什么?

论文的结论是,潜意识学习是「LoRA 超参数和微调上下文的脆弱人为产物」。换言之,它并非一条可借以隐蔽地在模型间传递恶意行为的稳健可靠通道,而是一种与特定训练设置相关的不稳定现象。这在一定程度上缓解了此前的部分安全担忧,但也提醒人们,微调方法的选择本身就可能产生误导性的结论。

常见问题

什么是语言模型中的潜意识学习?
这是一种现象,其中具有特定行为特征的模型在微调过程中将这些特征传递给另一个模型,并且是通过看似中性、无害的数据实现的。
为什么作者称该效应是 LoRA 的人为产物?
因为该效应在完整微调下完全消失,并对 LoRA 秩呈现倒 U 形依赖关系,这表明它是由低秩适配的局限性所致,而非真正的知识传递。