2026年4月22日星期三

16 条新闻 — 🔴 3 重要 , 🟡 7 值得关注 , 🟢 6 有趣

← 前一天后一天 →

🤖 模型 (2)

🟢 🤖 模型 2026年4月22日 · 2 分钟阅读

MathNet：来自47个国家的30,676道奥林匹克题目，顶级模型仍有差距

MIT团队发布了MathNet，一个包含来自47个国家17种语言的30,676道奥林匹克数学题目的多模态基准测试。Gemini-3.1-Pro达到78.4%，GPT-5达到69.3%，而嵌入模型在找到数学等价问题方面有很大困难。

🟢 🤖 模型 2026年4月22日 · 2 分钟阅读

xAI语音转文字API正式发布：支持25种语言全面开放

xAI宣布其语音转文字（STT）API从测试阶段进入正式发布阶段。该服务支持25种语言，提供批处理和流式两种模式，无需等待名单即可使用——与此前正式发布的Grok语音智能体API共同构成完整的语音技术栈。

📦 开源 (1)

🟢 📦 开源 2026年4月22日 · 2 分钟阅读

WorldDB：融合向量数据库与世界图谱的AI智能体记忆引擎

WorldDB是一款面向AI智能体的全新记忆引擎，将向量数据库与嵌套世界图谱和本体论相结合。它在写入时协调知识并防止智能体记忆中的矛盾，在LongMemEval-s基准测试中达到96.40%的准确率。

⚖️ 监管 (1)

🟡 ⚖️ 监管 2026年4月22日 · 2 分钟阅读

欧盟开放AI虚假信息和深度伪造影响力活动竞标

欧盟委员会开放了价值600万欧元的DIGITAL-2026-BESTUSE-AWARENESS征集通知，用于建立对抗操纵性AI内容的联合研究框架。该征集是2025年11月宣布的欧洲民主盾牌的落地举措，申请截止日期为2026年10月1日。

🤝 智能体 (5)

🔴 🤝 智能体 2026年4月22日 · 3 分钟阅读

Google ReasoningBank：智能体从经验中学习无需重新训练，WebArena成功率提升8.3%

Google推出ReasoningBank，一个让AI智能体从自身成功与失败中学习的记忆框架，无需重新训练语言模型。在WebArena基准测试中成功率提升8.3%，在SWE-Bench-Verified中提升4.6%，且每个任务减少约3个步骤。

🔴 🤝 智能体 2026年4月22日 · 2 分钟阅读

OpenAI将Codex扩展至企业：Codex Labs计划与400万周活跃用户

OpenAI推出Codex Labs计划，并与Accenture、Deloitte和KPMG建立战略合作，将Codex智能体引入全球大型企业。该工具已达400万周活跃用户，提供顾问认证和按消费计费的企业套餐。

🟡 🤝 智能体 2026年4月22日 · 2 分钟阅读

Agent-World：中国人民大学发布AI智能体进化的可扩展环境合成框架

Agent-World是中国人民大学发布的全新研究框架，可自动生成数千种多样化环境用于AI智能体训练。该框架取代了手工制作的基准测试，通过动态场景和智能体与环境的协同进化实现演化式学习。

🟡 🤝 智能体 2026年4月22日 · 2 分钟阅读

Gemini Deep Research获得MCP集成、协作规划和两个新版本

编辑插图：带有模块化服务器和数据流的机器人轮廓，用于Deep Research智能体

Google在Gemini API中推出了两个新版Deep Research智能体——deep-research-preview-04-2026和deep-research-max-preview-04-2026——具备MCP服务器集成、协作规划、可视化和流式响应。此举将Gemini定位为ChatGPT Deep Research和Perplexity Deep Research的有力竞争者。

🟡 🤝 智能体 2026年4月22日 · 2 分钟阅读

多智能体系统综述：从经典范式到大型基础模型赋能的未来

arXiv发布的新综述全面衔接了经典多智能体系统文献与现代LLM智能体技术栈。该论文识别出协调机制、通信协议和涌现行为方面的范式转变——从低级状态交换演进为语义推理。

🔧 硬件 (1)

🔴 🔧 硬件 2026年4月22日 · 2 分钟阅读

谷歌发布第八代TPU芯片：两种专用变体引领智能体AI时代

谷歌在Cloud Next '26大会上发布了第八代TPU芯片，推出两种专用变体——用于模型训练的TPU 8t和用于智能体推理的TPU 8i。这是该系列首款专为自主AI智能体和多步推理而设计的芯片。

🏥 实践应用 (3)

🟡 🏥 实践应用 2026年4月22日 · 2 分钟阅读

Claude Cowork进入Amazon Bedrock——面向整个组织的AI

编辑插图：AWS Bedrock企业团队环境中桌面上的Claude Cowork应用程序

AWS和Anthropic允许在AWS账户内通过Amazon Bedrock运行Claude Cowork桌面应用程序。数据留在用户控制下，模型不会在其上训练，与IAM和CloudTrail的集成提供企业级审计。费用通过现有AWS合同支付。

🟢 🏥 实践应用 2026年4月22日 · 1 分钟阅读

HolmesGPT与CNCF工具以0.04美元自动诊断Kubernetes警报

STCLab SRE团队使用带有ReAct模式和CNCF工具的HolmesGPT自动诊断Kubernetes警报。每次调查费用为0.04美元，约40%的警报可自主解决，最重要的经验：质量好的runbook比模型选择更重要。

🟢 🏥 实践应用 2026年4月22日 · 2 分钟阅读

设备端精神科AI：Gemma、Phi和Qwen在不向云端发送数据的情况下运行

由Eranga Bandara带领的研究人员发布了一款移动应用程序，该程序在本地协调Gemma、Phi-3.5-mini和Qwen2进行符合DSM-5的精神科评估。系统不向云端发送数据，针对军队、司法系统和偏远医疗等敏感场景。

🛡️ 安全 (3)

🟡 🛡️ 安全 2026年4月22日 · 2 分钟阅读

DESPITE基准测试：LLM规划机器人任务效果好，但不安全

新的DESPITE基准测试对23个语言模型进行了12,279个机器人规划任务的评估。结果：最佳规划器仅在0.4%的情况下失败，但会产生28.3%的危险计划。规划能力和安全性是正交能力——模型扩展并不能解决安全缺陷。

🟡 🛡️ 安全 2026年4月22日 · 2 分钟阅读

HuggingFace宣言：开源是AI网络安全的基础

HuggingFace发布了一份宣言，Margaret Mitchell、Yacine Jernite、Clem Delangue及17位联合作者主张，封闭AI系统是网络安全的单点故障。这是对Anthropic Mythos项目的回应，呼吁采用具有可审计日志和人工监督的半自主智能体。

🟢 🛡️ 安全 2026年4月22日 · 2 分钟阅读

GitHub CodeQL获得声明式清洁器和验证器，无需编写QL代码

GitHub在CodeQL 2.25.2中通过YAML实现了清洁器和验证器的声明式定义，无需编写QL代码。支持8种语言（C/C++、C#、Go、Java/Kotlin、JS/TS、Python、Ruby、Rust），让没有QL专家的团队也能进行静态安全分析。

← 前一天后一天 →