🤖 24 AI

🤝 智能体

12 条新闻

🔴 🤝 智能体 2026年4月14日 · 1 分钟阅读

OpenAI与Cloudflare:GPT-5.4和Codex驱动面向企业的全新Agent Cloud平台

Cloudflare将OpenAI的GPT-5.4和Codex模型集成到其全新Agent Cloud平台中,使企业用户能够构建、部署和扩展用于实际业务任务的AI智能体,重点关注速度和安全性。

🟡 🤝 智能体 2026年4月14日 · 1 分钟阅读

AI2:AI智能体能解决80%的教科书科学题,但只能完成20%的真实科学问题

Allen AI研究所分析了两个基准测试,揭示了AI在知识测试中的表现与真实科学发现能力之间的巨大差距。模型在教科书层面达到80%,但在复杂科学任务中降至20%。

🟡 🤝 智能体 2026年4月14日 · 1 分钟阅读

ArXiv HiL-Bench:AI智能体知道何时该向人类求助吗?

新基准测试HiL-Bench衡量AI智能体识别自身局限并请求人类帮助(而非盲目猜测)的能力。结果显示,即使是前沿模型也难以判断何时需要帮助,但有针对性的训练可以改善这一能力。

🔴 🤝 智能体 2026年4月13日 · 2 分钟阅读

ArXiv HiL-Bench:没有任何前沿模型知道何时该请求帮助

新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时,没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明,这种能力可以通过强化学习来训练。

🟢 🤝 智能体 2026年4月13日 · 1 分钟阅读

ArXiv SAGE:27个LLM测试——模型理解意图但无法正确执行

面向客户服务的新基准测试揭示了两个现象:'执行差距'(模型能正确分类意图但不执行正确操作)和'共情韧性'(模型在犯逻辑错误的同时保持礼貌)。

🟡 🤝 智能体 2026年4月12日 · 1 分钟阅读

GitHub Copilot CLI:初学者官方指南——从终端将任务委托给云代理

GitHub 于 4 月 10 日发布了 Copilot CLI 工具的官方教程。该指南涵盖了通过 npm 进行安装、使用 GitHub 账户进行身份验证以及实用示例——包括将任务委托给云代理。

🟡 🤝 智能体 2026年4月11日 · 1 分钟阅读

Anthropic 发布政策框架《Trustworthy agents in practice》

Anthropic 发布了全面的政策框架《Trustworthy agents in practice》,该框架定义了以可信赖的方式开发、部署和使用 AI 代理的含义。该文档作为构建或使用代理的公司的指南。

🟡 🤝 智能体 2026年4月11日 · 2 分钟阅读

ArXiv PASK:具有长期记忆的主动式 AI 代理,可预测用户意图

新论文 PASK 提出了一个主动式 AI 代理框架,结合了意图检测、混合记忆和自发行动。IntentFlow 模型在识别潜在用户需求方面达到了领先的 Gemini 3 Flash 模型的水平。

🟡 🤝 智能体 2026年4月11日 · 2 分钟阅读

ArXiv SAVeR:LLM 代理的自我审计 — 执行前先验证(ACL 2026)

新方法 SAVeR(Self-Audited Verified Reasoning)被 ACL 2026 接收,它允许 LLM 代理在执行动作之前进行自我修正。目标:防止违反逻辑约束的连贯推理导致错误决策。

🟢 🤝 智能体 2026年4月11日 · 1 分钟阅读

ArXiv KnowU-Bench:用于交互式和主动式移动 AI 代理的新基准

研究人员推出了 KnowU-Bench —— 一个全面的基准,用于评估新一代移动 AI 代理,重点关注通过长期使用实现的交互性、主动性和个性化。

🟡 🤝 智能体 2026年4月10日 · 2 分钟阅读

AWS Agent Registry:企业级AI智能体目录进入预览阶段

Amazon发布了AWS Agent Registry的预览版——面向企业组织的AI智能体、工具和智能体技能的集中式目录。该系统可索引智能体(无论托管在何处:AWS、其他云或本地),并使用关键字与语义搜索的组合,配合基于IAM的访问控制。

🟡 🤝 智能体 2026年4月10日 · 2 分钟阅读

AWS Bedrock AgentCore:有状态MCP客户端支持交互式AI工作流

Amazon为Bedrock AgentCore Runtime扩展了三项新的MCP能力——elicitation(向用户请求结构化输入)、sampling(向客户端请求LLM补全)和进度通知。有状态会话现在最长可持续8小时(运行于隔离的microvM中),并支持智能体与客户端之间的双向通信。