OpenAI与Cloudflare:GPT-5.4和Codex驱动面向企业的全新Agent Cloud平台
Cloudflare将OpenAI的GPT-5.4和Codex模型集成到其全新Agent Cloud平台中,使企业用户能够构建、部署和扩展用于实际业务任务的AI智能体,重点关注速度和安全性。
12 条新闻
Cloudflare将OpenAI的GPT-5.4和Codex模型集成到其全新Agent Cloud平台中,使企业用户能够构建、部署和扩展用于实际业务任务的AI智能体,重点关注速度和安全性。
Allen AI研究所分析了两个基准测试,揭示了AI在知识测试中的表现与真实科学发现能力之间的巨大差距。模型在教科书层面达到80%,但在复杂科学任务中降至20%。
新基准测试HiL-Bench衡量AI智能体识别自身局限并请求人类帮助(而非盲目猜测)的能力。结果显示,即使是前沿模型也难以判断何时需要帮助,但有针对性的训练可以改善这一能力。
新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时,没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明,这种能力可以通过强化学习来训练。
面向客户服务的新基准测试揭示了两个现象:'执行差距'(模型能正确分类意图但不执行正确操作)和'共情韧性'(模型在犯逻辑错误的同时保持礼貌)。
GitHub 于 4 月 10 日发布了 Copilot CLI 工具的官方教程。该指南涵盖了通过 npm 进行安装、使用 GitHub 账户进行身份验证以及实用示例——包括将任务委托给云代理。
Anthropic 发布了全面的政策框架《Trustworthy agents in practice》,该框架定义了以可信赖的方式开发、部署和使用 AI 代理的含义。该文档作为构建或使用代理的公司的指南。
新论文 PASK 提出了一个主动式 AI 代理框架,结合了意图检测、混合记忆和自发行动。IntentFlow 模型在识别潜在用户需求方面达到了领先的 Gemini 3 Flash 模型的水平。
新方法 SAVeR(Self-Audited Verified Reasoning)被 ACL 2026 接收,它允许 LLM 代理在执行动作之前进行自我修正。目标:防止违反逻辑约束的连贯推理导致错误决策。
研究人员推出了 KnowU-Bench —— 一个全面的基准,用于评估新一代移动 AI 代理,重点关注通过长期使用实现的交互性、主动性和个性化。
Amazon发布了AWS Agent Registry的预览版——面向企业组织的AI智能体、工具和智能体技能的集中式目录。该系统可索引智能体(无论托管在何处:AWS、其他云或本地),并使用关键字与语义搜索的组合,配合基于IAM的访问控制。
Amazon为Bedrock AgentCore Runtime扩展了三项新的MCP能力——elicitation(向用户请求结构化输入)、sampling(向客户端请求LLM补全)和进度通知。有状态会话现在最长可持续8小时(运行于隔离的microvM中),并支持智能体与客户端之间的双向通信。