OpenAI: ChatGPT 跨对话追踪安全上下文

OpenAI「帮助 ChatGPT 更好地识别敏感对话中的上下文」是一项于 2026 年 5 月 14 日发布的新安全更新，将安全机制从单条消息层面提升至整个对话层面。ChatGPT 现可随时间推移检测风险模式，并自适应回应敏感话题。这一方案消除了传统审核系统的弱点——后者因逐条独立评估消息而无法发现逐步升级的风险。

OpenAI 于 2026 年 5 月 14 日发布安全更新，将 ChatGPT 审核机制从单条消息层面提升至整个对话层面。此次变更解决了大规模审核模型最为人熟知的弱点之一：无法通过一系列单独看似无害的消息来检测逐步升级的风险。

对话级安全分析带来哪些改变？

传统审核系统对每条消息进行独立评估——若单条消息文本中立，则通过审核。但希望获得有害回复的用户可以采取渐进式升级策略：通过一系列无害问题，逐步引导系统生成原本会被拦截的内容。对话级分析追踪完整上下文——提问模式、用户状态的上下文信号，以及对话的累积风险画像。

OpenAI 明确将目标描述为「随时间推移检测风险并做出更安全的回应」。这一方案不仅依赖消息文本，还包括整个对话的语义轨迹、用户状态信号及下一条消息的潜在风险。

该系统具体针对哪些场景？

OpenAI 在 RSS 描述中未列出具体类别，但此类方案通常针对以下场景：心理健康（对话中逐步升级的自杀意念）、操控/诱骗检测、双重用途内容（化学、安全、武器领域，单个事实或许无害，但组合起来可能带来危险），以及利用角色扮演或假设性框架跨多轮对话进行的越狱尝试。

自适应回应如何运作？

当系统检测到对话进入敏感领域时，ChatGPT 调整语气——使用更平稳的措辞、提供安全资源（如心理健康危机热线），并对详细说明保持克制。自适应回应并非简单的二元拦截，而是根据检测到的风险等级进行梯度调整的审核严重程度。

在 OpenAI 2026 年安全策略中的定位

此次更新契合 OpenAI 密集发布的一周——Codex Windows 沙盒（5 月 13 日）、Codex from Anywhere（5 月 14 日）、Sea Limited Codex 企业版（5 月 14 日），以及此次 ChatGPT 安全更新（5 月 14 日）。OpenAI 显然在同步推进扩张与安全：新平台与新保障并行推出。对话级安全也与 arXiv:2605.13825「历史锚点」研究相呼应——该研究表明先前的智能体行为可能导向不安全结果（发表于 5 月 13 日）。此方案在消费者 ChatGPT 侧（而非智能体部署侧）应对类似攻击。

详情来自 RSS 描述——openai.com/index/* 的完整文章直接 WebFetch 返回 HTTP 403，因此主要来源为 openai.com/news/rss.xml feed。

常见问题

对话级安全分析意味着什么？

传统审核系统对每条消息进行独立评估——若单条消息内容中立，则通过审核。对话级分析则追踪整个对话的模式，能够检测出逐步升级的风险（例如，一系列单独看似无害的问题组合起来可能导向有害结果）。

自适应回应在实践中意味着什么？

当系统检测到对话进入敏感领域（心理健康、自我伤害、暴力）时，ChatGPT 会调整语气——使用更平稳的措辞、提供安全资源，并对可能被滥用的详细说明保持克制。

OpenAI: ChatGPT 可识别整个对话中的风险——基于上下文的安全分析取代逐条消息审核

对话级安全分析带来哪些改变？

该系统具体针对哪些场景？

自适应回应如何运作？

在 OpenAI 2026 年安全策略中的定位

常见问题

来源

相关新闻