2026年5月12日星期二

14 条新闻 — 🟡 11 值得关注 , 🟢 3 有趣

← 前一天 后一天 →

🤖 模型 (2)

🤝 智能体 (4)

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

arXiv:2605.10344: TMAS——多智能体测试时扩展在推理基准测试中创下新纪录

编辑插图:多个AI智能体节点以协作网络连接,具有层次化内存库,发光的推理路径。

TMAS(测试时多智能体扩展)是一种新的测试时计算扩展方法,将LLM推理组织为具有层次化内存库的专业化智能体之间的协作。作者(加州大学伯克利分校+DeepMind)展示了在相同计算预算下,在MATH-500、AIME 2024、HumanEval和GPQA Diamond上超越所有现有基线方法(Best-of-N、MCTS、AutoTTS)的结果。该方法在单一流水线中结合了推理+检索+验证。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

AWS: Strands Agents SDK与Exa集成,让智能体无需自定义爬虫即可自主进行网络搜索

编辑插图:开源SDK智能体连接到AI原生搜索引擎,抽象数据流表示自主网络查询。

AWS Strands Agents SDK是一个用于构建自主AI智能体的开源框架,已与Exa深度集成。Exa是一款在语义层面索引网络的AI原生搜索引擎。智能体现在可以自主决定何时搜索网络、综合多个来源的报告并引用数据——无需构建自定义爬虫或抓取基础设施。该集成将启用网络搜索的智能体开发简化至十几行代码。

🟡 🤝 智能体 2026年5月12日 · 2 分钟阅读

Microsoft Research:SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益

Editorial illustration: SocialReasoning-Bench 揭示 AI 智能体能完成任务但不能维护用户利益

SocialReasoning-Bench 是微软研究院新发布的基准测试,衡量 AI 智能体在与其他方谈判时是否真正维护用户利益——而不仅仅是完成任务。结果显示模型几乎能完美达成交易,但在市场场景中始终将价值留给对方,90%+ 的结果被归类为低效或疏忽。

🟢 🤝 智能体 2026年5月12日 · 1 分钟阅读

arXiv:2605.07313:智能体记忆无法扩展——HippoRAG 随无关会话增多损失 16-20 个百分点可靠性

Editorial illustration: 2605.07313: 智能体记忆无法扩展——HippoRAG 随无关会话增多损失 16-20 个百分点可靠性

论文 arXiv:2605.07313 提出了规模条件评估协议,测试智能体记忆系统在无关数据积累时是否仍能正常运作。HippoRAG 损失 16-20 个百分点的预算合规可靠性,LiCoMemory 随模型大小而变化。作者(Shao、Lu、Zhang、Luo)得出结论:可靠性损失并非个别现象。

🔧 硬件 (2)

🏥 实践应用 (3)

🟡 🏥 实践应用 2026年5月12日 · 1 分钟阅读

Anthropic: Claude Code v2.1.139 — Agent View 统一显示所有会话 + /goal 命令实现自主任务完成

Editorial illustration: Claude Code v2.1.139 — Agent View 统一显示所有会话 + /goal 命令实现自主任务完成

Claude Code v2.1.139 是 Anthropic CLI 智能体的新版本,处于研究预览阶段推出 Agent View——一个显示所有会话(活跃、阻塞、已完成)的统一列表——以及 /goal 命令,该命令驱动 Claude 跨多个步骤工作直至满足指定条件,并提供显示耗时、步骤数和令牌消耗的面板。

🟡 🏥 实践应用 2026年5月12日 · 2 分钟阅读

IBM: Red Hat AI Inference和OpenShift Virtualization Service作为托管产品在IBM Cloud上发布

编辑插图:具有红蓝光晕的企业云基础设施,运行推理工作负载的抽象服务器,混合虚拟机和容器编排。

IBM今天宣布将Red Hat AI Inference Service和Red Hat OpenShift Virtualization Service作为托管企业产品在IBM Cloud上提供。前者为开源LLM(Granite、Llama、Mistral)提供优化的服务环境,具备自动扩展和SLA保障;后者允许在同一OpenShift控制平面中运行虚拟机和容器。目标:降低希望使用开源AI但不具备自有Kubernetes基础设施能力的企业团队的运营负担。

🟡 🏥 实践应用 2026年5月12日 · 2 分钟阅读

OpenAI: DeployCo——伴随2026年Q1业绩发布的全新独立企业AI部署组织

编辑插图:企业咨询握手与抽象AI基础设施管道,部署生命周期可视化。

OpenAI周二启动了DeployCo(The Deployment Company),这是一个帮助企业在生产中构建和扩展AI应用程序的独立组织。目标:将基础模型研发与企业部署咨询分开,后者此前与OpenAI团队同处一地,造成了运营摩擦。DeployCo提供托管部署、自定义评估、上线后监控和行业特定微调服务。

💬 社区 (2)

🛡️ 安全 (1)

← 前一天 后一天 →