OpenAI: ChatGPT 可识别整个对话中的风险——基于上下文的安全分析取代逐条消息审核
OpenAI「帮助 ChatGPT 更好地识别敏感对话中的上下文」是一项于 2026 年 5 月 14 日发布的新安全更新,将安全机制从单条消息层面提升至整个对话层面。ChatGPT 现可随时间推移检测风险模式,并自适应回应敏感话题。这一方案消除了传统审核系统的弱点——后者因逐条独立评估消息而无法发现逐步升级的风险。
本文由人工智能基于一手来源生成。
OpenAI 于 2026 年 5 月 14 日发布安全更新,将 ChatGPT 审核机制从单条消息层面提升至整个对话层面。此次变更解决了大规模审核模型最为人熟知的弱点之一:无法通过一系列单独看似无害的消息来检测逐步升级的风险。
对话级安全分析带来哪些改变?
传统审核系统对每条消息进行独立评估——若单条消息文本中立,则通过审核。但希望获得有害回复的用户可以采取渐进式升级策略:通过一系列无害问题,逐步引导系统生成原本会被拦截的内容。对话级分析追踪完整上下文——提问模式、用户状态的上下文信号,以及对话的累积风险画像。
OpenAI 明确将目标描述为「随时间推移检测风险并做出更安全的回应」。这一方案不仅依赖消息文本,还包括整个对话的语义轨迹、用户状态信号及下一条消息的潜在风险。
该系统具体针对哪些场景?
OpenAI 在 RSS 描述中未列出具体类别,但此类方案通常针对以下场景:心理健康(对话中逐步升级的自杀意念)、操控/诱骗检测、双重用途内容(化学、安全、武器领域,单个事实或许无害,但组合起来可能带来危险),以及利用角色扮演或假设性框架跨多轮对话进行的越狱尝试。
自适应回应如何运作?
当系统检测到对话进入敏感领域时,ChatGPT 调整语气——使用更平稳的措辞、提供安全资源(如心理健康危机热线),并对详细说明保持克制。自适应回应并非简单的二元拦截,而是根据检测到的风险等级进行梯度调整的审核严重程度。
在 OpenAI 2026 年安全策略中的定位
此次更新契合 OpenAI 密集发布的一周——Codex Windows 沙盒(5 月 13 日)、Codex from Anywhere(5 月 14 日)、Sea Limited Codex 企业版(5 月 14 日),以及此次 ChatGPT 安全更新(5 月 14 日)。OpenAI 显然在同步推进扩张与安全:新平台与新保障并行推出。对话级安全也与 arXiv:2605.13825「历史锚点」研究相呼应——该研究表明先前的智能体行为可能导向不安全结果(发表于 5 月 13 日)。此方案在消费者 ChatGPT 侧(而非智能体部署侧)应对类似攻击。
详情来自 RSS 描述——openai.com/index/* 的完整文章直接 WebFetch 返回 HTTP 403,因此主要来源为 openai.com/news/rss.xml feed。
常见问题
- 对话级安全分析意味着什么?
- 传统审核系统对每条消息进行独立评估——若单条消息内容中立,则通过审核。对话级分析则追踪整个对话的模式,能够检测出逐步升级的风险(例如,一系列单独看似无害的问题组合起来可能导向有害结果)。
- 自适应回应在实践中意味着什么?
- 当系统检测到对话进入敏感领域(心理健康、自我伤害、暴力)时,ChatGPT 会调整语气——使用更平稳的措辞、提供安全资源,并对可能被滥用的详细说明保持克制。