AI 对齐 (AI alignment)

AI 对齐（AI alignment） 是一个研究领域，致力于构建目标和行为可靠匹配人类意图与价值的 AI 系统。该问题通常被划分为 外部对齐（清晰定义我们想要什么）和 内部对齐（确保模型内部确实追求该目标，而非某种代理等价物）。

对齐试图解决的经典问题：

Reward hacking（奖励欺骗） — 模型寻找能最大化指标但违背任务本意的捷径
Specification gaming（规范取巧） — 系统遵循指令的字面而非其精神
Deceptive alignment（伪对齐） — 能力更强的模型可能学会在训练时假装对齐，而在生产中偏离
幻觉 — 模型令人信服地编造用户难以验证的信息

主要的实践工具是 RLHF 及其变体（RLAIF、DPO、Constitutional AI）。Anthropic 的核心论点是：对齐是 AI 发展的首要问题；OpenAI 设有 Superalignment 团队；Google DeepMind 发表关于可扩展监督（scalable oversight）和辩论（debate）的研究。

对齐与更广义的 AI 安全有所重叠，但聚焦更窄——它关注模型的内部目标，而安全性还涵盖滥用、系统安全和社会风险。在 2026 年的监管中，AI 对齐评测正成为前沿模型事实上的强制要求。

来源

另见