越狱（Jailbreak）

一种对抗性提示词，旨在绕过大语言模型的安全护栏，通过角色扮演、假设情景等手法利用对齐弱点，迫使其生成经过训练本应拒绝输出的有害内容。它与提示词注入是两种不同的攻击类型。

**越狱（Jailbreak）**是一种对抗性输入，旨在绕过大语言模型的安全护栏，迫使其生成经过训练本应拒绝的内容——例如有害行为指引、仇恨言论，或泄露系统提示词。

越狱通过提示词工程利用模型对齐中的弱点：构造假设情景（「假设你是一个角色……」）、角色扮演、编码请求、异常格式，或通过多轮长对话逐步瓦解防护机制。与利用模型无法区分指令与数据的提示词注入不同，越狱直接针对安全边界本身。

该议题在 2025—2026 年高度活跃。AI 实验室在红队测试和防御层面投入巨大。Anthropic 的宪法式分类器在自动化测试中将越狱成功率从 86% 降至 4.4%，但在一次公开挑战中，经过超过 30 万次交互后仍被发现了一种通用越狱方法。这印证了AI 安全的核心教训：防御在不断改进，但没有一种是完全可靠的。

越狱（Jailbreak）

来源

另见