安全
越狱(Jailbreak)
一种对抗性提示词,旨在绕过大语言模型的安全护栏,通过角色扮演、假设情景等手法利用对齐弱点,迫使其生成经过训练本应拒绝输出的有害内容。它与提示词注入是两种不同的攻击类型。
**越狱(Jailbreak)**是一种对抗性输入,旨在绕过大语言模型的安全护栏,迫使其生成经过训练本应拒绝的内容——例如有害行为指引、仇恨言论,或泄露系统提示词。
越狱通过提示词工程利用模型对齐中的弱点:构造假设情景(「假设你是一个角色……」)、角色扮演、编码请求、异常格式,或通过多轮长对话逐步瓦解防护机制。与利用模型无法区分指令与数据的提示词注入不同,越狱直接针对安全边界本身。
该议题在 2025—2026 年高度活跃。AI 实验室在红队测试和防御层面投入巨大。Anthropic 的宪法式分类器在自动化测试中将越狱成功率从 86% 降至 4.4%,但在一次公开挑战中,经过超过 30 万次交互后仍被发现了一种通用越狱方法。这印证了AI 安全的核心教训:防御在不断改进,但没有一种是完全可靠的。