2026年4月30日星期四

15 条新闻 — 🔴 2 重要 , 🟡 12 值得关注 , 🟢 1 有趣

🤖 模型 (4)

🔴 🤖 模型 2026年4月30日 · 2 分钟阅读

BioMysteryBench：Mythos Preview 解决连专家都无法解答的生物信息学难题，Opus 4.6 在人类可解任务上达到 77.4%

Anthropic 于 2026 年 4 月 29 日发布了 BioMysteryBench，这是一个包含 99 个专业生物信息学任务的评估框架，使用来自实验数据的客观基准真值。Claude Opus 4.6 在 76 个人类可解问题上达到约 77.4% 的准确率，在 23 个超人类任务上达到 23.5%；而 Mythos Preview 解决了人类专家小组无法解答的部分问题——研究人员将此描述为 AI 在生物科学领域的分水岭时刻。

🔴 🤖 模型 2026年4月30日 · 2 分钟阅读

NVIDIA Nemotron 3 Nano Omni：30B-A3B MoE 多模态模型，吞吐量是同类开源模型的 9 倍

NVIDIA 于 2026 年 4 月 28 日推出了 Nemotron 3 Nano Omni，这是一款开源 30B-A3B 混合专家模型，在单一架构中统一了视觉、音频、语言、视频、文档和 GUI 截图处理能力，上下文窗口达 256K。与其他开源全模态模型相比，吞吐量高出 9 倍，同时保持相同的交互性。该模型在文档、视频和音频理解六个排行榜上名列第一，可通过 Hugging Face、OpenRouter、build.nvidia.com 及 25 余个合作伙伴平台获取，早期采用者包括 Palantir、Foxconn 和 Eka Care。

🟡 🤖 模型 2026年4月30日 · 2 分钟阅读

ArXiv：带有思维链的标准Transformer无法在TC^0复杂度之外进行推理——信号柱词元实现长度可泛化的图灵模拟

Kraus、Sarrof、Yao、Koller和Hahn的新ArXiv预印本表明，在长度可泛化学习的更严格要求下，带有思维链推理的标准Transformer无法解决TC^0复杂度以外的问题。思维链的实证成功并不意味着在实践中具有理论上的图灵完备性。提出的解决方案——动态词汇扩展加信号柱词元——以线性思维链开销实现了长度可泛化的图灵机模拟。

🟡 🤖 模型 2026年4月30日 · 2 分钟阅读

PyTorch AutoSP：基于编译器的工具自动将训练代码转换为序列并行，支持100k+词元上下文

PyTorch于2026年4月29日发布了AutoSP——一个集成在DeepSpeed/DeepCompile中的基于编译器的工具，可自动将标准单GPU Transformer训练代码转换为序列并行形式。它消除了为训练100k+词元上下文的大语言模型而手动实现词元分区和通信集合操作的需求。由UIUC SSAIL实验室、Anyscale和Snowflake联合开发。

📦 开源 (1)

🟢 📦 开源 2026年4月30日 · 2 分钟阅读

IBM Granite 4.1：在150亿词元上训练的3B/8B/30B Apache 2.0开源模型家族，稠密8B可与32B MoE媲美

IBM于2026年4月29日在HuggingFace博客发布了Granite 4.1模型家族的构建细节——3B、8B和30B稠密变体，采用Apache 2.0许可证。在约15T词元上通过5阶段流水线策略训练，使用GRPO+DAPO损失的4阶段强化学习。Granite 4.1-8B Instruct在大多数基准测试上与前代Granite 4.0-H-Small（32B-A9B MoE）持平或超越——表明稠密模型在相同激活参数预算下可达到MoE质量。

🤝 智能体 (5)

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

ArXiv Odysseys：卡内基梅隆大学真实网络智能体基准测试显示，顶尖前沿模型在长程任务上仅达到44.5%成功率和1.15%轨迹效率

卡内基梅隆大学研究人员Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried和Ruslan Salakhutdinov于2026年4月27日发布了ArXiv预印本Odysseys——一个包含200个真实浏览会话长程网络任务的基准测试，在真实互联网上运行。基于评分标准的评估（每个任务平均6.1个评分标准）显示，最强的前沿模型仅达到44.5%的成功率和1.15%的轨迹效率，揭示了当前网络智能体的巨大缺陷。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

AWS Bedrock AgentCore：为企业治理提供带有 IAM、OAuth 2.0 JWT 和 CloudWatch 可观测性的无服务器 MCP 代理

AWS 于 2026 年 4 月 29 日发布了在 Amazon Bedrock AgentCore Runtime 上将自定义 MCP 代理部署为无服务器工作负载的参考架构。该代理部署在 AI 智能体与上游 MCP 服务器之间，可注入治理控制——输入验证、PII 编辑、审计日志和速率限制——无需修改现有系统。该架构使用 FastMCP 框架进行动态工具发现，支持 IAM/SigV4 和 OAuth 2.0 JWT 认证，并与 CloudWatch 和 OpenTelemetry 集成。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

AWS Bedrock AgentCore Memory：命名空间级别三种长期记忆架构模式与IAM访问控制

AWS于2026年4月29日发布了Bedrock AgentCore Memory服务中智能体长期记忆组织的参考架构模式。三种关键命名空间模式覆盖不同用例：用于偏好和事实的Actor-Scoped、用于对话摘要的Session-Scoped，以及用于跨会话经验泛化的Episodic with Reflection Hierarchy。IAM条件键在命名空间级别实现严格的访问控制。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

LangChain 为 Deep Agents 推出 harness 配置文件：GPT-5.3 Codex 在 tau2 基准上从 33% 跃升至 53%，Opus 4.7 从 43% 升至 53%

LangChain 于 2026 年 4 月 29 日推出了适用于 Deep Agents 的 harness 配置文件系统，允许相同代码在不修改的情况下与 Anthropic、OpenAI 和 Google 模型协同工作。配置文件自动应用模型专属的系统提示、工具和中间件。在 tau2 基准测试中，GPT-5.3 Codex 的准确率从 33% 升至 53%，Claude Opus 4.7 从 43% 升至 53%——研究人员得出结论：统一的 harness 无法对每个模型都达到最优效果。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

Mistral Medium 3.5 + Vibe：128B稠密开放权重模型与异步云端编程智能体，每百万词元$1.5/$7.5

Mistral AI发布了Mistral Medium 3.5——一款拥有256k上下文窗口、在SWE-Bench Verified上得分77.6%的128亿参数稠密模型，采用修改版MIT许可证开放权重。随模型一同推出的还有Vibe——一个可通过CLI或Le Chat启动的异步云端编程智能体平台，以及面向企业工作流的Le Chat Work mode预览版。模型定价为输入$1.5/百万词元，输出$7.5/百万词元。

🏥 实践应用 (3)

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Anthropic Claude for Creative Work：支持 Blender、50 余款 Adobe Creative Cloud 工具、Autodesk Fusion、Ableton、SketchUp 和 Splice

Anthropic 于 2026 年 4 月 28 日宣布与 Blender、Autodesk Fusion、Adobe（50 余款 Creative Cloud 工具）、Ableton、Splice、Affinity 和 Canva、Resolume Arena 及 SketchUp 合作，推出 Claude 专业创意软件连接器。Claude 可为 Blender 编写 Python 脚本、实时控制 Resolume 供 VJ 使用、在 Affinity 中自动化批量资产处理，以及搜索 Splice 样本目录。Anthropic 还作为赞助商加入了 Blender Development Fund，三所学术机构——RISD、Ringling College 和 Goldsmiths——将开设让学生学习与 Claude 协作的课程。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Google ERA：用于科学研究的AI系统在住院预测上达到CDC顶级水平，解决了悬而未决的宇宙学问题，并每10分钟监测一次CO2

Google Research于2026年4月29日发布了ERA（经验研究辅助系统）——一个将大语言模型与计算工具相结合以加速科学研究的内部AI系统。来自不同领域的四个具体成果：在COVID/流感/RSV住院预测CDC排行榜上位居榜首、六个宇宙弦引力辐射新解、每10分钟监测大气CO2的神经网络，以及斑马鱼可解释神经回路。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

EvalEval联盟：AI评估成为新的计算瓶颈——GAIA单次运行$2,829，HAL排行榜$40,000，学术审计人员在遇到技术瓶颈前先碰壁于预算

EvalEval联盟（Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen）于2026年4月29日在HuggingFace博客发布分析，显示AI模型评估成本已激增。单次GAIA运行$2,829，HAL排行榜$40,000（k=8可靠性$320,000），PaperBench每个智能体约$9,500。静态基准测试可压缩100-200倍，智能体基准测试仅2-3.5倍——独立审计人员面临问责障碍。

💬 社区 (1)

🟡 💬 社区 2026年4月30日 · 2 分钟阅读

CNCF 项目 AI 使用状况：Claude Code 和 GitHub Copilot 领跑，三分之二的项目缺乏正式 AI 政策

CNCF TAG Developer Experience 于 2026 年 4 月 29 日发布了一项调查的初步结果，调查对象为近 100 个云原生开源项目的 133 名贡献者。Claude Code 和 GitHub Copilot 跻身市场领导者之列，近 50% 的贡献者使用集成在 IDE 或 CLI 中的 AI，只有 10% 仍依赖需要手动复制粘贴的基础聊天机器人。关键发现：67% 的项目没有正式的 AI 政策，不足 4% 禁止使用 AI，超过半数认为 AI 贡献应强制披露。

🛡️ 安全 (1)

🟡 🛡️ 安全 2026年4月30日 · 2 分钟阅读

ArXiv：针对跨语言越狱攻击的无训练防护在精心策划的基准测试上达到AUC 0.99，但在分布偏移时降至0.60-0.70

Alanova、Minko、Sadiekh和Kokuykin团队于2026年4月28日发布了ArXiv预印本，提出通过语义码本对跨语言越狱攻击进行无训练防护。该方法将请求的多语言嵌入与已知英语越狱提示的固定基础进行比较。在精心策划的基准测试上AUC达到0.99，但在分布偏移的异构攻击下降至AUC 0.60-0.70，显示了该方法的局限性。

← 前一天后一天 →