🤝 智能体

12 条新闻

Cloudflare将OpenAI的GPT-5.4和Codex模型集成到其全新Agent Cloud平台中，使企业用户能够构建、部署和扩展用于实际业务任务的AI智能体，重点关注速度和安全性。

Allen AI研究所分析了两个基准测试，揭示了AI在知识测试中的表现与真实科学发现能力之间的巨大差距。模型在教科书层面达到80%，但在复杂科学任务中降至20%。

新基准测试HiL-Bench衡量AI智能体识别自身局限并请求人类帮助（而非盲目猜测）的能力。结果显示，即使是前沿模型也难以判断何时需要帮助，但有针对性的训练可以改善这一能力。

新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时，没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明，这种能力可以通过强化学习来训练。

面向客户服务的新基准测试揭示了两个现象：'执行差距'（模型能正确分类意图但不执行正确操作）和'共情韧性'（模型在犯逻辑错误的同时保持礼貌）。

GitHub 于 4 月 10 日发布了 Copilot CLI 工具的官方教程。该指南涵盖了通过 npm 进行安装、使用 GitHub 账户进行身份验证以及实用示例——包括将任务委托给云代理。

Anthropic 发布了全面的政策框架《Trustworthy agents in practice》，该框架定义了以可信赖的方式开发、部署和使用 AI 代理的含义。该文档作为构建或使用代理的公司的指南。

新论文 PASK 提出了一个主动式 AI 代理框架，结合了意图检测、混合记忆和自发行动。IntentFlow 模型在识别潜在用户需求方面达到了领先的 Gemini 3 Flash 模型的水平。

新方法 SAVeR（Self-Audited Verified Reasoning）被 ACL 2026 接收，它允许 LLM 代理在执行动作之前进行自我修正。目标：防止违反逻辑约束的连贯推理导致错误决策。

研究人员推出了 KnowU-Bench —— 一个全面的基准，用于评估新一代移动 AI 代理，重点关注通过长期使用实现的交互性、主动性和个性化。

Amazon发布了AWS Agent Registry的预览版——面向企业组织的AI智能体、工具和智能体技能的集中式目录。该系统可索引智能体（无论托管在何处：AWS、其他云或本地），并使用关键字与语义搜索的组合，配合基于IAM的访问控制。

Amazon为Bedrock AgentCore Runtime扩展了三项新的MCP能力——elicitation（向用户请求结构化输入）、sampling（向客户端请求LLM补全）和进度通知。有状态会话现在最长可持续8小时（运行于隔离的microvM中），并支持智能体与客户端之间的双向通信。