2026年5月5日星期二

15 条新闻 — 🔴 3 重要 , 🟡 10 值得关注 , 🟢 2 有趣

← 前一天 后一天 →

🤖 模型 (4)

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

ArXiv AgentFloor:小型开放权重模型(0.27B-32B)能胜任短期智能体任务,GPT-5仅在长期规划上保持优势

编辑插图:不同大小模型位于不同级别的能力阶梯,工具使用评估的象征

Ranit Karmakar和Jayita Chatterjee发布了AgentFloor——由30个任务组成的确定性网络,分6个能力级别,用于评估16个开放权重模型(参数量0.27B至32B)及GPT-5。结论:小型模型对于短期、结构化的智能体任务已经足够,而前沿模型仅在受限长期规划上保持明显优势。

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

ArXiv Token Arena:统一能耗与认知的持续基准,揭示端点间每正确答案能耗6.2倍差距

编辑插图:测量AI推理端点能耗与认知的天平,多维基准的象征

Yuxuan Gao、Megan Wang和Yi Ling Yu于2026年5月1日发布了Token Arena——一个在端点层面(78个端点,12个模型系列)评估AI推理的持续基准平台。研究揭示,同一模型在不同端点上的数学/代码基准成绩差异可达12.5分,尾部延迟差异可达数量级,每正确答案能耗差异可达6.2倍。平台在CC BY 4.0许可下发布结果。

🟡 🤖 模型 2026年5月5日 · 2 分钟阅读

NIST CAISI:DeepSeek V4 Pro是迄今最强中国AI模型,但落后美国前沿约8个月

编辑插图:标示8个月差距的时间线上的AI模型,象征独立评估

美国NIST下属人工智能标准与创新中心(CAISI)于2026年5月1日发布了对DeepSeek V4 Pro模型的独立评估。结论:这是迄今评估过的最强中国AI模型,但在综合能力上落后美国前沿约8个月。评估使用未公开的基准测试,涵盖五个领域:网络安全、软件工程、自然科学、抽象推理和数学。

🟢 🤖 模型 2026年5月5日 · 2 分钟阅读

arXiv:2605.02572: 长时域使LLM训练不稳定 — ICML 2026论文提出“时域泛化”解决方案

编辑插图:破裂的水平线,神经节点和数据流在此汇聚

ICML 2026接收论文通过实证方法证明,增加任务时域长度会由于探索和信用分配问题导致LLM训练严重不稳定。提出的解决方案:在训练时缩短时域,同时在推理阶段引入显式的“时域泛化”机制。该论文为前沿模型训练中的任务时域扩展建立了首批实证规律。

⚖️ 监管 (1)

🤝 智能体 (3)

🟡 🤝 智能体 2026年5月5日 · 2 分钟阅读

ArXiv GUI-SD:首个面向GUI定位的在线自蒸馏框架,在六个基准上超越GRPO强化学习

编辑插图:带有GUI元素特权视觉上下文的师生动态,自蒸馏的象征

Yan Zhang、Daiqing Wu和Huawen Shen发布了GUI-SD——首个专为GUI定位设计的在线自蒸馏(OPSD)框架,这是AI智能体将自然语言指令映射到界面元素视觉坐标的能力。系统使用特权视觉上下文(边界框和高斯软掩码)及熵引导蒸馏。在六个代表性GUI定位基准上,GUI-SD持续超越基于GRPO的强化学习方法。

🟡 🤝 智能体 2026年5月5日 · 2 分钟阅读

AWS Bedrock AgentCore Optimization进入预览:从生产追踪到A/B测试的自动化循环,基于OpenTelemetry追踪

编辑插图:围绕AI智能体的生产、评估和A/B测试闭环,优化的象征

AWS于2026年5月4日发布了AgentCore Optimization预览版——这是一个自动化循环,可从生产追踪中生成系统提示词和工具描述的具体改进建议、针对测试集的批量评估,以及具有统计显著性的A/B测试。该系统收集每次模型调用、工具调用和推理步骤的OpenTelemetry兼容追踪,将手动猜测修改替换为基于生产数据的结构化优化周期。

🟡 🤝 智能体 2026年5月5日 · 2 分钟阅读

AWS SageMaker AI 推出9项内置技能的智能体微调工作流,集成Kiro与Claude Code

编辑插图:未来感机械臂被9个模块和芯片网络环绕

亚马逊于2026年5月4日在SageMaker AI中推出了智能体引导工作流,内置9项智能体技能,涵盖从用例规范到模型部署的完整模型定制生命周期。系统支持SFT、DPO和RLVR训练方法,可在JupyterLab环境中与Kiro(默认)和Claude Code集成,声称能将数月的专业ML工作压缩至数天完成。

🔧 硬件 (1)

🏥 实践应用 (2)

💬 社区 (2)

🛡️ 安全 (2)

← 前一天 后一天 →