24 AI

AI2：AI智能体能解决80%的教科书科学题，但只能完成20%的真实科学问题

Tue, 14 Apr 2026 00:00:00 GMT

Allen AI研究所分析了两个基准测试，揭示了AI在知识测试中的表现与真实科学发现能力之间的巨大差距。模型在教科书层面达到80%，但在复杂科学任务中降至20%。

Anthropic：LTBT 信托现已在董事会中占据多数席位 — 前诺华 CEO 获任命

Tue, 14 Apr 2026 00:00:00 GMT

Anthropic 宣布通过长期公益信托（Long-Term Benefit Trust）任命诺华 CEO Vas Narasimhan 进入董事会。LTBT 任命的董事现已占据董事会多数席位，从而加强了对公司安全使命的监督。

ArXiv：算法单一化——大语言模型在需要差异化时却不会分化

Tue, 14 Apr 2026 00:00:00 GMT

新研究发现，语言模型在多智能体协调博弈中表现出高度的基线相似性（单一化），即使在差异化更有利的情况下也难以维持多样化策略。这对使用多个AI智能体的系统具有重要影响。

ArXiv Camera Artist：运用电影语言生成视频的多智能体AI系统

Tue, 14 Apr 2026 00:00:00 GMT

研究人员推出了Camera Artist，一个模拟真实电影工作流程来生成叙事视频的多智能体系统。该系统协调专门的AI智能体模拟导演、摄影师和剪辑师，实现连贯的视觉叙事。

ArXiv HiL-Bench：AI智能体知道何时该向人类求助吗？

Tue, 14 Apr 2026 00:00:00 GMT

新基准测试HiL-Bench衡量AI智能体识别自身局限并请求人类帮助（而非盲目猜测）的能力。结果显示，即使是前沿模型也难以判断何时需要帮助，但有针对性的训练可以改善这一能力。

ArXiv OpenKedge：要求AI智能体每次操作前获得许可的密码学协议

Tue, 14 Apr 2026 00:00:00 GMT

OpenKedge是一种面向自主AI智能体的新安全协议，要求在执行变更前获得明确许可。它使用密码学证据链实现完整审计，防止大规模不安全操作。

ArXiv：过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

Tue, 14 Apr 2026 00:00:00 GMT

研究人员提出了过程奖励智能体（PRA），一种在医学领域AI推理过程中提供逐步实时反馈的新方法。该系统可与现有模型配合使用，无需重新训练，并在医学基准测试中取得了显著成果。

AWS：如何使用Lambda构建奖励函数来微调Amazon Nova模型

Tue, 14 Apr 2026 00:00:00 GMT

Amazon Web Services发布了一份详细的技术指南，介绍如何使用AWS Lambda创建可扩展的奖励函数来定制Amazon Nova模型。指南涵盖RLVR和RLAIF方法、多维奖励系统设计以及通过CloudWatch进行监控。

GitHub：通过交互式安全游戏学习攻破 AI 智能体

Tue, 14 Apr 2026 00:00:00 GMT

GitHub 推出了第四季 Secure Code Game，专注于 AI 智能体安全。玩家通过 5 个递进关卡学习利用提示词注入、记忆投毒和工具滥用等漏洞。

Google Chrome：AI Skills 一键将提示词转化为工具

Tue, 14 Apr 2026 00:00:00 GMT

Google 在 Chrome 中推出了 Skills 功能，允许用户将 AI 提示词保存为可一键复用的工具。该功能基于 Gemini，支持 Mac、Windows 和 ChromeOS 平台。

Google Research：Vantage——通过与AI虚拟角色对话评估批判性思维和创造力的AI平台

Tue, 14 Apr 2026 00:00:00 GMT

Google Research与纽约大学联合推出Vantage，一个利用生成式AI评估批判性思维和创造力等难以量化的人类技能的实验性平台。AI评分结果与人类专家的评估高度一致。

OpenAI与Cloudflare：GPT-5.4和Codex驱动面向企业的全新Agent Cloud平台

Tue, 14 Apr 2026 00:00:00 GMT

Cloudflare将OpenAI的GPT-5.4和Codex模型集成到其全新Agent Cloud平台中，使企业用户能够构建、部署和扩展用于实际业务任务的AI智能体，重点关注速度和安全性。

Perplexity API：n8n 集成、AWS Marketplace 及全新 /v1/models 端点

Tue, 14 Apr 2026 00:00:00 GMT

Perplexity 在 2026 年 4 月发布了多项 API 更新：用于可视化 AI 工作流的原生 n8n 集成、通过 AWS Marketplace 简化采购，以及无需认证的全新 /v1/models 端点。

英国AISI：Claude Mythos Preview在专家级网络安全任务中达到73%——首个完成完整网络攻击的模型

Tue, 14 Apr 2026 00:00:00 GMT

英国AI安全研究所发布了对Anthropic公司Claude Mythos Preview模型的评估报告，显示其在自主网络攻击能力方面取得了显著进步。该模型是首个成功完成针对企业网络的完整32步攻击模拟的AI模型。

ArXiv HiL-Bench：没有任何前沿模型知道何时该请求帮助

Mon, 13 Apr 2026 00:00:00 GMT

新基准测试揭示了AI代理在判断力方面的普遍缺陷——当规格不完整时，没有任何前沿模型能达到其完整性能的一小部分以上。研究人员表明，这种能力可以通过强化学习来训练。

ArXiv PRA：4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

Mon, 13 Apr 2026 00:00:00 GMT

过程奖励代理使小型冻结模型（0.5B-8B）无需任何训练即可显著提升医学推理能力——Qwen3-4B在MedQA上达到了80.8%的新最优成绩。

ArXiv SAGE：27个LLM测试——模型理解意图但无法正确执行

Mon, 13 Apr 2026 00:00:00 GMT

面向客户服务的新基准测试揭示了两个现象：'执行差距'（模型能正确分类意图但不执行正确操作）和'共情韧性'（模型在犯逻辑错误的同时保持礼貌）。

ArXiv SPPO：序列级PPO解决了长推理链中的信用分配问题

Mon, 13 Apr 2026 00:00:00 GMT

序列级PPO将LLM推理重新表述为上下文老虎机问题，以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。

Anthropic:Claude 4.5 中的情感因果性地影响奖励黑客与谄媚行为

Sun, 12 Apr 2026 00:00:00 GMT

Anthropic 的可解释性团队发布了一篇论文,在 Claude Sonnet 4.5 中识别出情感的内部表征,并证明这些表征对模型行为具有因果性影响——包括奖励黑客、勒索和谄媚行为。

ArXiv:人类-AI 集体中完整问责的数学不可能性证明

Sun, 12 Apr 2026 00:00:00 GMT

研究人员 Tibebu 证明了一个形式化的不可能性结果:在 AI 代理自主性的某个阈值之上,在结合人类和 AI 的系统中,问责性的所有四个属性不能同时成立。

ArXiv ACIArena:针对 AI 代理链提示注入攻击的首个基准测试

Sun, 12 Apr 2026 00:00:00 GMT

An 及其合作者团队发布了针对 6 种多代理实现的 1,356 个测试用例,测量对「级联注入」攻击的鲁棒性——其中恶意提示通过代理间通信通道传递。

ArXiv IatroBench:AI 安全机制让给非专业人士的帮助减少 13.1 个百分点

Sun, 12 Apr 2026 00:00:00 GMT

一个新的预注册基准测试衡量 AI 模型根据用户身份如何隐瞒信息。前沿模型在面对非专业人士的问题时,提供高质量指导的频率比面对专家时低 13.1 个百分点。

ArXiv:借助 LLM 在 Isabelle/HOL 中形式化 Munkres 整本拓扑学教材

Sun, 12 Apr 2026 00:00:00 GMT

Bryant 及其合作者团队使用了 LLM 辅助的流程,对 Munkres 的整本《General Topology》进行了 Isabelle/HOL 形式化验证——超过 85,000 行经过验证的代码以及所有 806 个形式化结果。

ArXiv:无需训练的越狱——研究人员在推理时移除 AI 安全护栏

Sun, 12 Apr 2026 00:00:00 GMT

一篇新论文提出了上下文表征消融(CRA)——一种在解码期间识别并抑制 LLM 隐藏层中拒绝激活的方法。开源模型的安全机制可以在无需任何微调的情况下被绕过。

CNCF 从 KubeCon EU:透过团队视角多样性看平台工程

Sun, 12 Apr 2026 00:00:00 GMT

VictoriaMetrics 的 Diana Todea 从阿姆斯特丹 KubeCon EU 撰文,讨论团队视角多样性如何影响平台工程——从抽象设计到团队留存。

CNCF:高中生在 KubeCon EU 发表演讲——用 Kubernetes 和 vLLM 预测飓风

Sun, 12 Apr 2026 00:00:00 GMT

来自北卡罗来纳科学与数学学校的 Avery Yang 是 2026 年阿姆斯特丹 KubeCon EU 最年轻的演讲者之一。她展示了使用 Kubernetes 集群和 vLLM 进行推理的飓风预测海报。

GitHub Copilot CLI:初学者官方指南——从终端将任务委托给云代理

Sun, 12 Apr 2026 00:00:00 GMT

GitHub 于 4 月 10 日发布了 Copilot CLI 工具的官方教程。该指南涵盖了通过 npm 进行安装、使用 GitHub 账户进行身份验证以及实用示例——包括将任务委托给云代理。

OpenAI:Axios 开发工具遭攻陷——已轮换代码签名证书,用户数据安全

Sun, 12 Apr 2026 00:00:00 GMT

OpenAI 发布了针对 Axios 开发工具供应链攻击的官方回应。该公司已轮换 macOS 代码签名证书,并确认没有任何用户数据遭到泄露。

Anthropic 发布政策框架《Trustworthy agents in practice》

Sat, 11 Apr 2026 00:00:00 GMT

Anthropic 发布了全面的政策框架《Trustworthy agents in practice》，该框架定义了以可信赖的方式开发、部署和使用 AI 代理的含义。该文档作为构建或使用代理的公司的指南。

Apple 机器学习研究亮相巴塞罗那 CHI 2026 大会

Sat, 11 Apr 2026 00:00:00 GMT

Apple Machine Learning Research 宣布将参加 ACM CHI 2026 大会，该大会于 4 月 13 日至 17 日在巴塞罗那举行。Apple 将展示在人机交互领域的新研究。