2026年4月14日星期二

14 条新闻 — 🔴 2 重要 , 🟡 9 值得关注 , 🟢 3 有趣

← 前一天

🤖 模型 (1)

🟡 🤖 模型 2026年4月14日 · 1 分钟阅读

ArXiv：过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

研究人员提出了过程奖励智能体（PRA），一种在医学领域AI推理过程中提供逐步实时反馈的新方法。该系统可与现有模型配合使用，无需重新训练，并在医学基准测试中取得了显著成果。

⚖️ 监管 (1)

🟡 ⚖️ 监管 2026年4月14日 · 1 分钟阅读

Anthropic：LTBT 信托现已在董事会中占据多数席位 — 前诺华 CEO 获任命

Anthropic 宣布通过长期公益信托（Long-Term Benefit Trust）任命诺华 CEO Vas Narasimhan 进入董事会。LTBT 任命的董事现已占据董事会多数席位，从而加强了对公司安全使命的监督。

🤝 智能体 (3)

🔴 🤝 智能体 2026年4月14日 · 1 分钟阅读

OpenAI与Cloudflare：GPT-5.4和Codex驱动面向企业的全新Agent Cloud平台

Cloudflare将OpenAI的GPT-5.4和Codex模型集成到其全新Agent Cloud平台中，使企业用户能够构建、部署和扩展用于实际业务任务的AI智能体，重点关注速度和安全性。

🟡 🤝 智能体 2026年4月14日 · 1 分钟阅读

AI2：AI智能体能解决80%的教科书科学题，但只能完成20%的真实科学问题

Allen AI研究所分析了两个基准测试，揭示了AI在知识测试中的表现与真实科学发现能力之间的巨大差距。模型在教科书层面达到80%，但在复杂科学任务中降至20%。

🟡 🤝 智能体 2026年4月14日 · 1 分钟阅读

ArXiv HiL-Bench：AI智能体知道何时该向人类求助吗？

新基准测试HiL-Bench衡量AI智能体识别自身局限并请求人类帮助（而非盲目猜测）的能力。结果显示，即使是前沿模型也难以判断何时需要帮助，但有针对性的训练可以改善这一能力。

🏥 实践应用 (4)

🟡 🏥 实践应用 2026年4月14日 · 1 分钟阅读

Google Chrome：AI Skills 一键将提示词转化为工具

Google 在 Chrome 中推出了 Skills 功能，允许用户将 AI 提示词保存为可一键复用的工具。该功能基于 Gemini，支持 Mac、Windows 和 ChromeOS 平台。

🟡 🏥 实践应用 2026年4月14日 · 1 分钟阅读

Google Research：Vantage——通过与AI虚拟角色对话评估批判性思维和创造力的AI平台

Google Research与纽约大学联合推出Vantage，一个利用生成式AI评估批判性思维和创造力等难以量化的人类技能的实验性平台。AI评分结果与人类专家的评估高度一致。

🟢 🏥 实践应用 2026年4月14日 · 1 分钟阅读

AWS：如何使用Lambda构建奖励函数来微调Amazon Nova模型

Amazon Web Services发布了一份详细的技术指南，介绍如何使用AWS Lambda创建可扩展的奖励函数来定制Amazon Nova模型。指南涵盖RLVR和RLAIF方法、多维奖励系统设计以及通过CloudWatch进行监控。

🟢 🏥 实践应用 2026年4月14日 · 1 分钟阅读

Perplexity API：n8n 集成、AWS Marketplace 及全新 /v1/models 端点

Perplexity 在 2026 年 4 月发布了多项 API 更新：用于可视化 AI 工作流的原生 n8n 集成、通过 AWS Marketplace 简化采购，以及无需认证的全新 /v1/models 端点。

🛡️ 安全 (4)

🔴 🛡️ 安全 2026年4月14日 · 1 分钟阅读

英国AISI：Claude Mythos Preview在专家级网络安全任务中达到73%——首个完成完整网络攻击的模型

英国AI安全研究所发布了对Anthropic公司Claude Mythos Preview模型的评估报告，显示其在自主网络攻击能力方面取得了显著进步。该模型是首个成功完成针对企业网络的完整32步攻击模拟的AI模型。

🟡 🛡️ 安全 2026年4月14日 · 1 分钟阅读

ArXiv：算法单一化——大语言模型在需要差异化时却不会分化

新研究发现，语言模型在多智能体协调博弈中表现出高度的基线相似性（单一化），即使在差异化更有利的情况下也难以维持多样化策略。这对使用多个AI智能体的系统具有重要影响。

🟡 🛡️ 安全 2026年4月14日 · 1 分钟阅读

ArXiv OpenKedge：要求AI智能体每次操作前获得许可的密码学协议

OpenKedge是一种面向自主AI智能体的新安全协议，要求在执行变更前获得明确许可。它使用密码学证据链实现完整审计，防止大规模不安全操作。

🟡 🛡️ 安全 2026年4月14日 · 1 分钟阅读

GitHub：通过交互式安全游戏学习攻破 AI 智能体

GitHub 推出了第四季 Secure Code Game，专注于 AI 智能体安全。玩家通过 5 个递进关卡学习利用提示词注入、记忆投毒和工具滥用等漏洞。

✨ 趣闻 (1)

🟢 ✨ 趣闻 2026年4月14日 · 1 分钟阅读

ArXiv Camera Artist：运用电影语言生成视频的多智能体AI系统

研究人员推出了Camera Artist，一个模拟真实电影工作流程来生成叙事视频的多智能体系统。该系统协调专门的AI智能体模拟导演、摄影师和剪辑师，实现连贯的视觉叙事。

← 前一天