2026年4月30日星期四

15 条新闻 — 🔴 2 重要 , 🟡 12 值得关注 , 🟢 1 有趣

← 前一天 后一天 →

🤖 模型 (4)

🔴 🤖 模型 2026年4月30日 · 2 分钟阅读

BioMysteryBench:Mythos Preview 解决连专家都无法解答的生物信息学难题,Opus 4.6 在人类可解任务上达到 77.4%

编辑插图:AI 智能体借助科学仪器分析 RNA-seq 测序数据

Anthropic 于 2026 年 4 月 29 日发布了 BioMysteryBench,这是一个包含 99 个专业生物信息学任务的评估框架,使用来自实验数据的客观基准真值。Claude Opus 4.6 在 76 个人类可解问题上达到约 77.4% 的准确率,在 23 个超人类任务上达到 23.5%;而 Mythos Preview 解决了人类专家小组无法解答的部分问题——研究人员将此描述为 AI 在生物科学领域的分水岭时刻。

🔴 🤖 模型 2026年4月30日 · 2 分钟阅读

NVIDIA Nemotron 3 Nano Omni:30B-A3B MoE 多模态模型,吞吐量是同类开源模型的 9 倍

编辑插图:多模态 AI 模型在统一架构中处理视觉、音频和文本

NVIDIA 于 2026 年 4 月 28 日推出了 Nemotron 3 Nano Omni,这是一款开源 30B-A3B 混合专家模型,在单一架构中统一了视觉、音频、语言、视频、文档和 GUI 截图处理能力,上下文窗口达 256K。与其他开源全模态模型相比,吞吐量高出 9 倍,同时保持相同的交互性。该模型在文档、视频和音频理解六个排行榜上名列第一,可通过 Hugging Face、OpenRouter、build.nvidia.com 及 25 余个合作伙伴平台获取,早期采用者包括 Palantir、Foxconn 和 Eka Care。

🟡 🤖 模型 2026年4月30日 · 2 分钟阅读

ArXiv:带有思维链的标准Transformer无法在TC^0复杂度之外进行推理——信号柱词元实现长度可泛化的图灵模拟

编辑插图:Transformer架构中思维链断裂处与信号柱符号

Kraus、Sarrof、Yao、Koller和Hahn的新ArXiv预印本表明,在长度可泛化学习的更严格要求下,带有思维链推理的标准Transformer无法解决TC^0复杂度以外的问题。思维链的实证成功并不意味着在实践中具有理论上的图灵完备性。提出的解决方案——动态词汇扩展加信号柱词元——以线性思维链开销实现了长度可泛化的图灵机模拟。

🟡 🤖 模型 2026年4月30日 · 2 分钟阅读

PyTorch AutoSP:基于编译器的工具自动将训练代码转换为序列并行,支持100k+词元上下文

编辑插图:词元分布在多个GPU核心上,带有编译器符号

PyTorch于2026年4月29日发布了AutoSP——一个集成在DeepSpeed/DeepCompile中的基于编译器的工具,可自动将标准单GPU Transformer训练代码转换为序列并行形式。它消除了为训练100k+词元上下文的大语言模型而手动实现词元分区和通信集合操作的需求。由UIUC SSAIL实验室、Anyscale和Snowflake联合开发。

📦 开源 (1)

🤝 智能体 (5)

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

ArXiv Odysseys:卡内基梅隆大学真实网络智能体基准测试显示,顶尖前沿模型在长程任务上仅达到44.5%成功率和1.15%轨迹效率

编辑插图:网页连接成带有评分标准的长任务网络

卡内基梅隆大学研究人员Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried和Ruslan Salakhutdinov于2026年4月27日发布了ArXiv预印本Odysseys——一个包含200个真实浏览会话长程网络任务的基准测试,在真实互联网上运行。基于评分标准的评估(每个任务平均6.1个评分标准)显示,最强的前沿模型仅达到44.5%的成功率和1.15%的轨迹效率,揭示了当前网络智能体的巨大缺陷。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

AWS Bedrock AgentCore:为企业治理提供带有 IAM、OAuth 2.0 JWT 和 CloudWatch 可观测性的无服务器 MCP 代理

编辑插图:智能体与工具之间具有代理层的无服务器架构

AWS 于 2026 年 4 月 29 日发布了在 Amazon Bedrock AgentCore Runtime 上将自定义 MCP 代理部署为无服务器工作负载的参考架构。该代理部署在 AI 智能体与上游 MCP 服务器之间,可注入治理控制——输入验证、PII 编辑、审计日志和速率限制——无需修改现有系统。该架构使用 FastMCP 框架进行动态工具发现,支持 IAM/SigV4 和 OAuth 2.0 JWT 认证,并与 CloudWatch 和 OpenTelemetry 集成。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

AWS Bedrock AgentCore Memory:命名空间级别三种长期记忆架构模式与IAM访问控制

编辑插图:具有命名空间分区和访问密钥的智能体分层记忆

AWS于2026年4月29日发布了Bedrock AgentCore Memory服务中智能体长期记忆组织的参考架构模式。三种关键命名空间模式覆盖不同用例:用于偏好和事实的Actor-Scoped、用于对话摘要的Session-Scoped,以及用于跨会话经验泛化的Episodic with Reflection Hierarchy。IAM条件键在命名空间级别实现严格的访问控制。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

LangChain 为 Deep Agents 推出 harness 配置文件:GPT-5.3 Codex 在 tau2 基准上从 33% 跃升至 53%,Opus 4.7 从 43% 升至 53%

编辑插图:具有可互换配置文件的智能体框架,适用于不同的语言模型

LangChain 于 2026 年 4 月 29 日推出了适用于 Deep Agents 的 harness 配置文件系统,允许相同代码在不修改的情况下与 Anthropic、OpenAI 和 Google 模型协同工作。配置文件自动应用模型专属的系统提示、工具和中间件。在 tau2 基准测试中,GPT-5.3 Codex 的准确率从 33% 升至 53%,Claude Opus 4.7 从 43% 升至 53%——研究人员得出结论:统一的 harness 无法对每个模型都达到最优效果。

🟡 🤝 智能体 2026年4月30日 · 2 分钟阅读

Mistral Medium 3.5 + Vibe:128B稠密开放权重模型与异步云端编程智能体,每百万词元$1.5/$7.5

编辑插图:云端平台上并行运行的编程智能体与异步沙箱容器

Mistral AI发布了Mistral Medium 3.5——一款拥有256k上下文窗口、在SWE-Bench Verified上得分77.6%的128亿参数稠密模型,采用修改版MIT许可证开放权重。随模型一同推出的还有Vibe——一个可通过CLI或Le Chat启动的异步云端编程智能体平台,以及面向企业工作流的Le Chat Work mode预览版。模型定价为输入$1.5/百万词元,输出$7.5/百万词元。

🏥 实践应用 (3)

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Anthropic Claude for Creative Work:支持 Blender、50 余款 Adobe Creative Cloud 工具、Autodesk Fusion、Ableton、SketchUp 和 Splice

编辑插图:AI 助手连接 3D 建模、音频制作和平面设计

Anthropic 于 2026 年 4 月 28 日宣布与 Blender、Autodesk Fusion、Adobe(50 余款 Creative Cloud 工具)、Ableton、Splice、Affinity 和 Canva、Resolume Arena 及 SketchUp 合作,推出 Claude 专业创意软件连接器。Claude 可为 Blender 编写 Python 脚本、实时控制 Resolume 供 VJ 使用、在 Affinity 中自动化批量资产处理,以及搜索 Splice 样本目录。Anthropic 还作为赞助商加入了 Blender Development Fund,三所学术机构——RISD、Ringling College 和 Goldsmiths——将开设让学生学习与 Claude 协作的课程。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

Google ERA:用于科学研究的AI系统在住院预测上达到CDC顶级水平,解决了悬而未决的宇宙学问题,并每10分钟监测一次CO2

编辑插图:科学工具与AI网络连接成星形多领域星座

Google Research于2026年4月29日发布了ERA(经验研究辅助系统)——一个将大语言模型与计算工具相结合以加速科学研究的内部AI系统。来自不同领域的四个具体成果:在COVID/流感/RSV住院预测CDC排行榜上位居榜首、六个宇宙弦引力辐射新解、每10分钟监测大气CO2的神经网络,以及斑马鱼可解释神经回路。

🟡 🏥 实践应用 2026年4月30日 · 2 分钟阅读

EvalEval联盟:AI评估成为新的计算瓶颈——GAIA单次运行$2,829,HAL排行榜$40,000,学术审计人员在遇到技术瓶颈前先碰壁于预算

编辑插图:天平向评估成本一侧倾斜,超过训练成本

EvalEval联盟(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)于2026年4月29日在HuggingFace博客发布分析,显示AI模型评估成本已激增。单次GAIA运行$2,829,HAL排行榜$40,000(k=8可靠性$320,000),PaperBench每个智能体约$9,500。静态基准测试可压缩100-200倍,智能体基准测试仅2-3.5倍——独立审计人员面临问责障碍。

💬 社区 (1)

🛡️ 安全 (1)

← 前一天 后一天 →