AWS Nova蒸馏用于视频语义搜索:节省95%成本,推理速度提升一倍
AWS演示了模型蒸馏如何将大型Nova Premier模型的智能转移到更小的Nova Micro用于视频搜索路由。结果是推理成本节省95%,延迟降低50%(833毫秒而非1741毫秒),LLM-as-judge评分保持质量(5分中的4分)。整个训练使用了从Nova Premier生成的10000个合成样本。
13 条新闻 — 🔴 2 重要 , 🟡 7 值得关注 , 🟢 4 有趣
AWS演示了模型蒸馏如何将大型Nova Premier模型的智能转移到更小的Nova Micro用于视频搜索路由。结果是推理成本节省95%,延迟降低50%(833毫秒而非1741毫秒),LLM-as-judge评分保持质量(5分中的4分)。整个训练使用了从Nova Premier生成的10000个合成样本。
AWS Nova多模态嵌入是一种新架构,可同时在统一的1024维向量空间中处理视频的视觉、音频和文本内容,无需转换为文本。语义嵌入与BM25词汇搜索的结合产生了90%的Recall@5,相比基线组合模式嵌入的51%——在所有指标上提升了30至40个百分点。
NVIDIA在HuggingFace上发布了Nemotron OCR v2,这是一款多语言OCR模型,在单个A100 GPU上每秒处理34.7页。这比PaddleOCR v5快28倍。该模型在单一架构中支持英语、中文、日语、韩语和俄语,无需语言检测。在1220万张合成图像上训练完成,模型和数据集在NVIDIA Open Model许可证和CC-BY-4.0下提供。
AC/DC是一个在ICLR 2026上提出的新框架,通过模型合并同时进化LLM模型,并通过合成数据进化任务。发现的模型群体展示了比手工策划模型更广泛的专业知识覆盖范围,无需明确针对基准测试进行优化。模型能以更少的GPU内存超越更大的同类模型,代表了LLM持续开发的新范式。
Agentic Engineering 是一种让 AI 智能体群接管整个软件生命周期(而不仅仅是编写代码)的方法。LangChain 与 Cisco 工程师 Renuka Kumar 和 Prashanth Ramagopal 于 2026 年 4 月 17 日发布了包含 Leader 和 Worker 智能体的参考架构。在 Cisco 的试点项目中,共有 70 名用户、512 个会话参与,Bug 根因发现时间缩短了 93%,开发工作流执行时间缩短了 65%。
Owlgebra AI 团队于 2026 年 4 月 16 日在 HuggingFace 博客发布了 Ecom-RLVE-Gym 项目——一个包含 8 个可验证电商对话智能体训练环境的开放框架,使用算法奖励而非 LLM 评判。系统采用包含 200 万商品的目录、Qwen 3 8B 模型和 12 轴自适应课程,逐步提高任务难度,以应对监督微调在复杂多步骤流程中的局限性。
Claude Design是Anthropic Labs推出的新产品,将Claude Opus 4.7转化为一个协作式可视化创作工具,可用于创建设计稿、原型、演示文稿和单页文档。该系统自动读取代码库和设计文件中的设计规范,支持内联评论和滑块调整,并可直接将成果移交给Claude Code进行实现。自2026年4月17日起,该产品以研究预览版形式向Pro、Max、Team和Enterprise订阅用户开放。
Anthropic的研究人员证明,RAM配置和CPU余量可使智能体编码基准测试结果相差6个百分点——这比排行榜顶级模型之间的差距还要大。他们测试了Terminal-Bench 2.0和SWE-bench。建议:在评估配置未记录和对齐之前,3个百分点以下的优势值得质疑。
GitHub 于 2026 年 4 月 17 日宣布,Copilot CLI 工具的 AI 自动模型选择功能已面向所有 Copilot 计划正式发布(GA)。该系统根据管理员策略,将请求动态路由到 GPT-5.4、GPT-5.3-Codex、Sonnet 4.6 和 Haiku 4.5 等模型。付费用户在使用 Auto 模式时,可享受模型倍率 10% 的折扣——原本 1x 倍率的模型仅消耗 0.9 个 Premium 请求。
Meta发布了如何在2025年底为其推荐模型的离线训练实现超过90%的有效训练时间(ETT)。方法包括PyTorch生态系统中超过40项新优化、将PT2编译时间缩短40%的MegaCache、每个任务节省30分钟的独立模型发布,以及异步检查点。这些改进已通过PyTorch和TorchRec开源。
Amazon Bedrock现在按IAM主体——调用API的特定用户、角色或联合身份——跟踪推理成本。该功能无需额外付费即可与AWS Cost and Usage Reports(CUR 2.0)和Cost Explorer集成。支持四种访问场景:直接IAM用户、应用程序角色、联合身份验证和LLM网关代理模式。在所有商业AWS区域可用。