2026年5月6日星期三

16 条新闻 — 🔴 2 重要 , 🟡 11 值得关注 , 🟢 3 有趣

← 前一天 后一天 →

🤖 模型 (4)

📦 开源 (1)

⚖️ 监管 (2)

🤝 智能体 (4)

🟡 🤝 智能体 2026年5月6日 · 2 分钟阅读

Anthropic: 10 款现成金融服务代理模板 + Claude Opus 4.7 在 Vals AI Finance 基准测试中达到 64.37%

编辑插图:十张带有金融代理图标的抽象卡片,分成研究和运营两组

Anthropic 发布 10 款现成金融服务代理模板,包括 pitchbook 生成器、KYC 筛查器和月末结账工具。模板作为 Claude Cowork 和 Claude Code 的插件提供,Claude Opus 4.7 在 Vals AI Finance 基准测试中达到 64.37%。

🟡 🤝 智能体 2026年5月6日 · 2 分钟阅读

arXiv:2605.03675: MEMTIER — 五层记忆架构让长期智能体恢复记忆能力

编辑插图:五个水平记忆层通过数据流连接,从情景JSONL到语义数据库

MEMTIER是面向长期自主智能体的五层记忆架构——在LongMemEval-S基准测试中使用Qwen2.5-7B,准确率从0.050跃升至0.382,工具执行成功率在72小时运行后不再下降。

🟡 🤝 智能体 2026年5月6日 · 1 分钟阅读

AWS: AgentCore Browser 新增 OS 级操作——8 个新原语

编辑插图:Amazon Bedrock AgentCore 环境中代理点击浏览器边界之外的系统对话框

AWS 于 5 月 5 日为 Amazon Bedrock AgentCore Browser 发布了 OS 级操作,使代理能够与操作系统原生界面进行 DOM 范围之外的交互。引入 8 个操作和操作-截图-反应循环,无需额外配置即可使用。

🟢 🤝 智能体 2026年5月6日 · 1 分钟阅读

arXiv:2605.02503: DataClaw——面向过程的基准测试衡量 AI 代理在探索性数据分析中的过程质量

编辑插图:AI 代理在交互式笔记本中引导探索性数据分析的各个步骤,包含中间结果

DataClaw 是一种新型基准测试,它评估 AI 代理在探索性数据分析中的完整工作过程,而不仅仅是最终答案,从而揭示那些以错误方式达到正确结果的代理的弱点。

🔧 硬件 (1)

🏥 实践应用 (2)

💬 社区 (1)

🛡️ 安全 (1)

← 前一天 后一天 →