2026年4月18日星期六

13 条新闻 — 🔴 2 重要 , 🟡 7 值得关注 , 🟢 4 有趣

🤖 模型 (4)

🟡 🤖 模型 2026年4月18日 · 2 分钟阅读

AWS Nova蒸馏用于视频语义搜索：节省95%成本，推理速度提升一倍

AWS演示了模型蒸馏如何将大型Nova Premier模型的智能转移到更小的Nova Micro用于视频搜索路由。结果是推理成本节省95%，延迟降低50%（833毫秒而非1741毫秒），LLM-as-judge评分保持质量（5分中的4分）。整个训练使用了从Nova Premier生成的10000个合成样本。

🟡 🤖 模型 2026年4月18日 · 3 分钟阅读

AWS Nova多模态嵌入用于视频搜索：混合方法将召回率从51%提升至90%

AWS Nova多模态嵌入是一种新架构，可同时在统一的1024维向量空间中处理视频的视觉、音频和文本内容，无需转换为文本。语义嵌入与BM25词汇搜索的结合产生了90%的Recall@5，相比基线组合模式嵌入的51%——在所有指标上提升了30至40个百分点。

🟡 🤖 模型 2026年4月18日 · 2 分钟阅读

NVIDIA Nemotron OCR v2：每秒34.7页，单模型支持五种语言，比PaddleOCR快28倍

NVIDIA在HuggingFace上发布了Nemotron OCR v2，这是一款多语言OCR模型，在单个A100 GPU上每秒处理34.7页。这比PaddleOCR v5快28倍。该模型在单一架构中支持英语、中文、日语、韩语和俄语，无需语言检测。在1220万张合成图像上训练完成，模型和数据集在NVIDIA Open Model许可证和CC-BY-4.0下提供。

🟢 🤖 模型 2026年4月18日 · 2 分钟阅读

ArXiv AC/DC：通过模型与任务协同进化自动发现专业化LLM

AC/DC是一个在ICLR 2026上提出的新框架，通过模型合并同时进化LLM模型，并通过合成数据进化任务。发现的模型群体展示了比手工策划模型更广泛的专业知识覆盖范围，无需明确针对基准测试进行优化。模型能以更少的GPU内存超越更大的同类模型，代表了LLM持续开发的新范式。

📦 开源 (1)

🔴 📦 开源 2026年4月18日 · 2 分钟阅读

Google Gemma 4：四款开源模型，31B dense排名竞技场第三，Apache 2.0许可证

Gemma 4是Google新一代开源模型，共有四个变体：适用于移动设备的E2B、适用于边缘设备的E4B、拥有38亿活跃参数的26B MoE以及31B dense模型。31B在开源模型竞技场排名第三，据称超越了20倍参数量的模型，26B MoE排名第六。所有模型均为多模态（文本、图像、视频、音频），支持140种语言，上下文长度最高256K tokens，并以Apache 2.0许可证发布。

🤝 智能体 (2)

🟡 🤝 智能体 2026年4月18日 · 2 分钟阅读

LangChain 与 Cisco 展示 Agentic Engineering：Bug 发现时间缩短 93%，开发效率提升 65%

Agentic Engineering 是一种让 AI 智能体群接管整个软件生命周期（而不仅仅是编写代码）的方法。LangChain 与 Cisco 工程师 Renuka Kumar 和 Prashanth Ramagopal 于 2026 年 4 月 17 日发布了包含 Leader 和 Worker 智能体的参考架构。在 Cisco 的试点项目中，共有 70 名用户、512 个会话参与，Bug 根因发现时间缩短了 93%，开发工作流执行时间缩短了 65%。

🟢 🤝 智能体 2026年4月18日 · 2 分钟阅读

HuggingFace 发布 Ecom-RLVE-Gym：8 个环境和 12 轴课程，用于强化学习训练电商智能体

Owlgebra AI 团队于 2026 年 4 月 16 日在 HuggingFace 博客发布了 Ecom-RLVE-Gym 项目——一个包含 8 个可验证电商对话智能体训练环境的开放框架，使用算法奖励而非 LLM 评判。系统采用包含 200 万商品的目录、Qwen 3 8B 模型和 12 轴自适应课程，逐步提高任务难度，以应对监督微调在复杂多步骤流程中的局限性。

🏥 实践应用 (5)

🔴 🏥 实践应用 2026年4月18日 · 2 分钟阅读

Anthropic Claude Design：由Claude Opus 4.7驱动的可视化协作工具，用于设计、演示文稿和原型

Claude Design是Anthropic Labs推出的新产品，将Claude Opus 4.7转化为一个协作式可视化创作工具，可用于创建设计稿、原型、演示文稿和单页文档。该系统自动读取代码库和设计文件中的设计规范，支持内联评论和滑块调整，并可直接将成果移交给Claude Code进行实现。自2026年4月17日起，该产品以研究预览版形式向Pro、Max、Team和Enterprise订阅用户开放。

🟡 🏥 实践应用 2026年4月18日 · 2 分钟阅读

Anthropic：基础设施噪声使智能体基准测试结果偏差高达6个百分点

Anthropic的研究人员证明，RAM配置和CPU余量可使智能体编码基准测试结果相差6个百分点——这比排行榜顶级模型之间的差距还要大。他们测试了Terminal-Bench 2.0和SWE-bench。建议：在评估配置未记录和对齐之前，3个百分点以下的优势值得质疑。

🟡 🏥 实践应用 2026年4月18日 · 2 分钟阅读

GitHub Copilot CLI 推出自动模型选择：付费用户享受 10% 倍率折扣

GitHub 于 2026 年 4 月 17 日宣布，Copilot CLI 工具的 AI 自动模型选择功能已面向所有 Copilot 计划正式发布（GA）。该系统根据管理员策略，将请求动态路由到 GPT-5.4、GPT-5.3-Codex、Sonnet 4.6 和 Haiku 4.5 等模型。付费用户在使用 Auto 模式时，可享受模型倍率 10% 的折扣——原本 1x 倍率的模型仅消耗 0.9 个 Premium 请求。

🟡 🏥 实践应用 2026年4月18日 · 3 分钟阅读

PyTorch与Meta：通过40多项优化实现超过90%的有效训练时间，MegaCache将PT2编译时间缩短40%

Meta发布了如何在2025年底为其推荐模型的离线训练实现超过90%的有效训练时间（ETT）。方法包括PyTorch生态系统中超过40项新优化、将PT2编译时间缩短40%的MegaCache、每个任务节省30分钟的独立模型发布，以及异步检查点。这些改进已通过PyTorch和TorchRec开源。

🟢 🏥 实践应用 2026年4月18日 · 2 分钟阅读

AWS为Amazon Bedrock引入按IAM主体进行细粒度成本归因

Amazon Bedrock现在按IAM主体——调用API的特定用户、角色或联合身份——跟踪推理成本。该功能无需额外付费即可与AWS Cost and Usage Reports（CUR 2.0）和Cost Explorer集成。支持四种访问场景：直接IAM用户、应用程序角色、联合身份验证和LLM网关代理模式。在所有商业AWS区域可用。

💬 社区 (1)

🟢 💬 社区 2026年4月18日 · 2 分钟阅读

Apple在里约ICLR 2026：40多个海报展示，iPad Pro上的MLX演示，SHARP 3D生成和MANZANO统一模型

Apple ML发布了在2026年4月23日至27日于里约热内卢举办的ICLR 2026会议上展示的研究概览。公司赞助本次会议，并在204号展台展示通过MLX框架在Apple Silicon上进行本地LLM推理以及在iPad Pro上运行SHARP 3D模型。展示了40多个海报和一个口头报告'To Infinity and Beyond——Tool-Use Unlocks Length Generalization'。

← 前一天后一天 →