🔴 🤖 模型 发布于: · 2 分钟阅读 ·

Anthropic:Claude Opus 4.8 携 1M token 上下文与自适应思考登场

编辑插图:Claude Opus 4.8 携 1M token 上下文与自适应思考登场

Claude Opus 4.8 是 Anthropic 于 2026 年 5 月 28 日发布的最强通用可用模型。它在 Claude API、Amazon Bedrock 和 Vertex AI 上默认提供一百万(1M)token 的上下文窗口、最高 128k 输出 token,以及仅在需要时才启动推理的自适应思考。

🤖

本文由人工智能基于一手来源生成。

Anthropic 于 2026 年 5 月 28 日发布了 Claude Opus 4.8(模型 ID claude-opus-4-8),这是它最强大的通用可用(GA — General Availability)模型。在模型本身之外,还发布了一系列配套的 API 功能,扩展了对生产应用中模型行为的控制。

Claude Opus 4.8 提供多大的上下文和输出?

Claude Opus 4.8 在 Claude API、Amazon Bedrock 和 Google Vertex AI 上默认支持一百万(1M)token 的上下文窗口。在 Microsoft Foundry 上限制为 200k token。最大输出 token 数为 128k。该模型保留了与前代 Claude Opus 4.7 相同的工具和平台功能集。

上下文窗口(context window)指模型在一次对话中能同时保存在「工作记忆」中的文本总量——包括提示和回复。

Claude Opus 4.8 如何使用自适应思考?

在启用**自适应思考(adaptive thinking)**后,Claude Opus 4.8 只在具体回合需要时才启动推理过程,从而在相同努力水平下相较于 Claude Opus 4.7 减少白白消耗的思考 token。Claude Opus 4.8 上的 effort 参数现在在所有界面(包括 Claude Code 和 Messages API)上默认设置为 high

这样便将更高的回复质量(高 effort)与更低的 token 消耗结合起来,因为模型不会在简单任务上耗费推理容量。

此次发布伴随哪些新的 API 功能?

Anthropic 同时引入了对话中途系统消息(mid-conversation system messages)——带有 role: "system" 角色的消息,可在用户回合之后插入到 messages 序列中(须遵守关于放置位置的规则)。它们能在长会话期间更改指令,而不会丢失 prompt cache 命中,也不需要 beta 标头。

被拒绝(refusals)的回复上的 stop_details 字段现已公开记录。它返回 categorycyberbionull)以及可读的说明,使应用能够把不同类别的拒绝引导到相应的后续步骤。

可用于 prompt caching 的可缓存提示的最小长度已降至 1,024 token,低于 Claude Opus 4.7,从而把缓存的成本效益扩展到更短的查询。Prompt caching 会存储已处理的部分提示,以免在每次调用时重新计算,从而节省时间和成本。

它在采样和限制方面如何表现?

将采样参数 temperaturetop_ptop_k 设置为与默认值不同的值,会在 Claude Opus 4.8 上返回 400 错误,与 Claude Opus 4.7 相同。Anthropic 在从旧版本迁移时建议参阅迁移指南了解细节。

在 Claude Code 中,Max 计划用户现在在 Claude Opus 4.8 上默认使用 fast mode,而面向长时间任务的 Auto mode 也扩展给了更多用户。Workflows 在 Claude Code 中以 research preview 形式提供,可定义并执行多步骤的智能体计划。

这对开发团队意味着什么?

百万级上下文、自适应思考与对拒绝的更精细控制相结合,使 Claude Opus 4.8 定位为适用于处理大型文档的高要求智能体与分析工作流的模型。该模型还支持 high-resolution image input(长边最高 2576 像素)、Task budgets、computer use 以及 advisor tool,与 Claude Opus 4.7 相同。

常见问题

Claude Opus 4.8 模型的上下文窗口有多大?
Claude Opus 4.8 在 Claude API、Amazon Bedrock 和 Google Vertex AI 上默认支持一百万 token 的上下文窗口,而在 Microsoft Foundry 上限制为 200k token。最大输出 token 数为 128k。
Claude Opus 4.8 中的自适应思考(adaptive thinking)是什么?
自适应思考只在具体请求需要时才启动推理过程,从而在相同的努力(effort)水平下,相较于 Claude Opus 4.7 减少不必要消耗的思考 token 数量。
什么是对话中途的系统消息(mid-conversation system messages)?
这是带有 role: 「system」角色的消息,可在用户回合之后插入到 messages 序列中。它们能在长会话期间更改指令,同时保留 prompt cache 命中,且无需 beta 标头。