📦 开源

38 条新闻

🟢 📦 开源 2026年5月23日 · 3 分钟阅读

Kedro:1.2.0版本带来@experimental装饰器和LangGraph智能体starter用于GenAI管道

编辑插图:带 LangGraph 编排桥和 Mermaid 图的管道节点

Linux Foundation AI项目Kedro发布了1.2.0版本以及Kedro-Viz 12.3.0。新的@experimental装饰器允许标记处于开发中的API,starter项目support-agent-langgraph演示了与LangGraph编排和Langfuse/Opik提示管理工具的集成。Kedro-Viz获得了Mermaid图表和节点预览可扩展性,以改善管道调试。

🟡 📦 开源 2026年5月21日 · 2 分钟阅读

Stability AI:Stable Audio 3.0发布开放权重模型,支持最长6分钟生成

Editorial illustration: Stability AI Stable Audio 3开放权重模型系列,支持6分钟生成和修复功能

Stability AI于2026年5月20日发布Stable Audio 3.0——包含4个音频模型(Small SFX、Small、Medium、Large)的系列,其中3个为开放权重并已在Hugging Face上线。最大亮点是支持最长6分钟的音频生成(前版本仅支持47秒),以及音频修复、因果延续和LoRA微调功能。公司声明所有模型均使用经许可的数据进行训练。

🟢 📦 开源 2026年5月20日 · 1 分钟阅读

LangChain:修复智能体的智能体——LangSmith Engine的构建方式

Editorial illustration:

LangChain发布了LangSmith Engine技术详解——一款分析生产AI智能体错误并提出具体修复方案的自主元智能体。Engine端到端自动化错误检测、评估器生成和回归测试。

🟡 📦 开源 2026年5月19日 · 1 分钟阅读

PyTorch: ExecuTorch MLX Delegate在Apple Silicon GPU上实现3–6倍模型推理加速

Editorial illustration: PyTorch团队发布ExecuTorch MLX Delegate,利用Apple MLX框架在Apple Silicon GPU上实现3至6倍推理加速

PyTorch团队发布了实验性ExecuTorch MLX Delegate——一个利用Apple MLX框架和Metal GPU内核在Apple Silicon芯片上实现3至6倍吞吐量提升的后端。支持Llama 3.2、Qwen 3、Phi-4 mini、Whisper和Voxtral实时流式转录。

🟢 📦 开源 2026年5月19日 · 1 分钟阅读

GitHub: Copilot Spaces API现已全面开放

Editorial illustration: GitHub宣布Copilot Spaces REST API正式全面开放,使团队可以通过编程方式创建和管理上下文感知的AI工作区

GitHub宣布Copilot Spaces的REST API正式全面开放,使团队可以通过编程方式创建、配置和删除上下文感知的AI工作区。新接口对管理大量Spaces而无需依赖手动工作流程的组织特别有用。

🟡 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15041 CAST 框架:基于案例的 LLM 工具使用校准在 BFCLv2 上提升5.85个百分点,推理长度减少26%

Editorial illustration: LLM agent s case library prikazom i tool call validation indicators.

CAST 是2026年5月14日发布于 arXiv 的论文,作者为 Renning Pang、Tian Lan、Leyuan Liu、Piao Tong、Sheng Cao 和 Xiaosong Zhang,提出了用于 LLM 工具使用的基于案例的校准框架。该方法将历史执行轨迹视为强化学习的结构化信息——在 BFCLv2 基线上实现了最高5.85个百分点的执行准确率提升,并将平均推理长度减少了26%。

🟢 📦 开源 2026年5月18日 · 3 分钟阅读

arXiv:2605.15706 可微分智能体混合:动态路由智能体激活在9个基准测试中达SOTA

Editorial illustration: neural network routing graf s LLM agentima i sparse activation indicator-ima.

可微分智能体混合(Differentiable Mixture-of-Agents)是由Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo和Bin Yang于2026年5月15日发布的arXiv论文,提出了一种用于多智能体LLM协作的可微分路由机制。系统在推理步骤中动态选择并激活智能体,取代固定拓扑结构,在9个基准测试中达到SOTA,并通过预测熵自监督实现无需外部标注的测试时自适应。

🟢 📦 开源 2026年5月18日 · 3 分钟阅读

arXiv:2605.15100 双维度一致性:在五项基准测试中将token消耗减少10倍同时保持准确性

Editorial illustration: paralelni reasoning paths s confidence score badge-ovima i pruning ikonom.

双维度一致性是2026年5月14日发布于 arXiv 的论文,作者为 Rongman Xu、Yifei Li、Tianzhe Zhao、Yanrui Wu、Bo Li 和 Hang Yan,旨在解决推理时扩展效率问题。该框架结合了置信度加权贝叶斯协议和趋势感知分层剪枝——在五项基准测试中,与强基线相比,token消耗减少逾10倍,同时保持或提升了准确性。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15015 小型私有语言模型:在教育评估设计中取得有竞争力的结果,并建议采用人机协作方式

Editorial illustration: učionica scena s small LM ikonama, Bloom's taxonomy piramidom i human reviewer prikazom.

《小型私有语言模型作为教育评估设计的团队成员》是2026年5月14日发布于 arXiv 的论文,作者为 Chris Davis Jaldi、Anmol Saini、Shan Zhang、Noah Schroeder、Cogan Shimizu 和 Eleni Ilkou。在生成符合教学法的评估问题方面,对小型模型与大型替代方案进行了系统比较——小型模型取得了有竞争力的结果,同时具备隐私优势,但作者强调模型评估显示出系统性不一致,并建议采用人机协作方式。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

arXiv:2605.15109 遍历上下文:智能体 GraphRAG 必须记录已访问但未引用的实体以实现真正的溯源

Editorial illustration: knowledge graph s istaknutim traversal pathom i citation badge anotacijama uz uncited node-ove.

《邻域为何重要》是2026年5月14日发布于 arXiv 的论文,作者为 Riccardo Terrenzi、Maximilian von Zastrow 和 Serkan Ayvaz(已被 IJCAI-ECAI 2026 GENAIK 和 NORA 联合工作坊接收)。作者认为,智能体 GraphRAG 系统必须将引用忠实度视为轨迹层面的问题——真正的溯源不仅涵盖被引证据,还包括影响模型推理的已访问但未引用的实体。

🟢 📦 开源 2026年5月18日 · 2 分钟阅读

xAI SDK Python v1.13.0:prepare_extension() 为系列生成视频片段提供批量视频扩展支持

Editorial illustration: serija video frameova s batch processing ikonom i xAI SDK kod snippet vizualizacijom.

xAI SDK Python v1.13.0 于2026年5月16日发布(提交者 @double-di,PR #141),新增了用于批量视频扩展的 prepare_extension() 方法。该功能在 v1.10.0 引入的视频 API 基础上增加了批处理能力——开发者现在可以在一次调用中为一系列视频片段准备扩展参数,而无需为每个片段单独依次处理。

🟢 📦 开源 2026年5月16日 · 2 分钟阅读

arXiv:2605.15132 APWA:并行代理工作流的分布式架构——无跨通信的非干扰子问题

编辑插图:具有无干扰并行子分支的分布式智能体架构。

APWA分布式并行代理工作流架构是Evan Rose、Tushin Mallick、Matthew D. Laws、Cristina Nita-Rotaru和Alina Oprea于2026年5月15日在arXiv发表的新多智能体系统架构论文。该系统将代理工作流分解为在独立资源上执行、无需跨通信的非干扰子问题。APWA在先前系统完全失败的任务上实现了扩展。

🟢 📦 开源 2026年5月16日 · 3 分钟阅读

arXiv:2605.14968 GraphFlow:临床试点完成率97.08%,通过形式可验证的可视化工作流实现

Editorial illustration: 带有验证检查和合同注释的工作流图。

GraphFlow是MedFlow Inc.的Drewry H. Morris V、Luis Valles和Reza Hosseini Ghomi于2026年5月15日在arXiv上发布的新型可靠智能体AI可视化工作流系统。该系统通过形式可验证的图即规范方法解决累积错误问题(10步流程90%单步可靠性仅成功35%)。为期一年的三个站点临床试点执行了8,728次工作流运行,早期原型完成率达97.08%。

🟡 📦 开源 2026年5月15日 · 2 分钟阅读

arXiv:2605.15040 Orchard: 开源智能体框架通过三种专用训练方案在 SWE-bench Verified 上达到 67.5%

编辑插图:带有三列训练方案与沙盒运行时图标的智能体框架示意图。

Orchard 是一个新的开源智能体建模框架,由 Baolin Peng、Wenlin Yao 及 12 位联合作者于 2026 年 5 月 14 日发布在 arXiv 上。该框架将轻量级环境层与三种专用训练方案相结合——SWE(软件工程)、GUI(视觉语言)和 Claw(个人助理)。Orchard-SWE 变体经强化学习训练后在 SWE-bench Verified 上达到 67.5%,成为编码智能体领域最先进的开源方案。

🟡 📦 开源 2026年5月15日 · 2 分钟阅读

LangChain: Labs自主代理研究项目——合作伙伴Harvey、NVIDIA、Prime Intellect、Fireworks和Baseten

编辑插图:研究实验室,附代理反馈循环和合作伙伴品牌图标。

LangChain Labs是由Harrison Chase于2026年5月14日宣布的新应用研究项目,旨在从运营数据——生产追踪、用户反馈和评估结果——中自主改进代理。LangSmith作为收集追踪信号的骨干系统。初始合作伙伴包括Harvey(法律AI)、NVIDIA(GPU/基础设施)、Prime Intellect(分布式计算)、Fireworks(推理)和Baseten(部署)。

🟡 📦 开源 2026年5月14日 · 1 分钟阅读

LangChain: LangSmith Engine自动化智能体调试——错误聚类、根因分析与PR及评估器推荐

编辑插图:带有根因分析和PR图标的智能体追踪聚类。

LangSmith Engine是LangChain于2026年5月13日发布的新平台,可自动化AI智能体的生产反馈循环。引擎分析来自生产运行的追踪数据、按模式聚类错误、定位代码中的根本原因,并生成具体的拉取请求建议和评估器定义。目标是从手动调试转向持续自动化改进。

🟡 📦 开源 2026年5月14日 · 1 分钟阅读

PyTorch: 2.12版本带来设备无关torch.accelerator.Graph、MX量化及100倍更快的linalg.eigh

编辑插图:PyTorch标志及跨CUDA与XPU加速器分布的计算图。

PyTorch 2.12是PyTorch框架于2026年5月13日发布的新生产版本,包含2926个提交和457名贡献者。主要特性:torch.accelerator.Graph设备无关API支持CUDA、XPU及第三方后端;torch.export支持Microscaling MX量化(MXFP4/6/8);linalg.eigh通过cuSolver在CUDA上提速最高100倍;以及CUDA Graphs内的torch.cond支持。TorchScript已被正式移除。

🟡 📦 开源 2026年5月13日 · 2 分钟阅读

LangChain: LangGraph Delta Channels 通过增量检查点将长时间运行智能体的存储减少 41 倍

编辑插图:数据流通过 delta 节点压缩,展示存储指标。

LangGraph Delta Channels 是 LangChain 于 2026 年 5 月 12 日发布的新状态更新机制,解决了长时间运行智能体中存储呈 O(N²) 增长的问题。与每步保存完整快照不同,Delta Channels 记录增量变更并每 50 步定期做一次完整快照。基准测试显示存储减少 41 倍;此更新已在 Deep Agents v0.6 和 LangGraph v1.2 中提供。

🟡 📦 开源 2026年5月13日 · 1 分钟阅读

PyTorch: ExecuTorch 扩展至 Arm Cortex-A、Cortex-M 与 Ethos-U85 NPU 边缘 AI 推理

编辑插图:搭载 Arm 芯片和神经网络图形的边缘设备。

ExecuTorch on Arm 是 PyTorch 基金会于 2026 年 5 月 12 日发布的新计划,将 ExecuTorch 运行时扩展至 Arm Cortex-A 和 Cortex-M CPU 以及 Ethos-U NPU 加速器。OPT-125M Transformer 和 MobileNetV2 模型可在 Raspberry Pi 5 和配备 256 个 MAC 单元的 Ethos-U85 上运行,Arm Education 仓库提供边缘 AI 部署的实践实验室。

🟡 📦 开源 2026年5月7日 · 1 分钟阅读

AMD: vLLM-ATOM插件无需修改vLLM源码即可集成Instinct优化

Editorial illustration: vLLM-ATOM插件无需修改vLLM源码即可集成Instinct优化

AMD发布vLLM-ATOM开源插件,无需修改任何源码即可将Instinct GPU优化集成到vLLM生产框架中。插件通过Python entry_points机制自动激活,支持包括Kimi-K2.5和DeepSeek V3/R1在内的dense和MoE模型,并使用AITER内核实现融合MoE和flash attention。

🔴 📦 开源 2026年5月6日 · 2 分钟阅读

Allen Institute: MolmoAct 2 是首个开源机器人基础模型,超越 GPT-5 和 Gemini 2.5 Pro

编辑插图:实验室中装有 Franka 机械臂的双手机器人正打开一个箱子,象征开源 MolmoAct 2 基础模型

MolmoAct 2 是 Allen Institute for AI 于 5 月 5 日发布的开源机器人基础模型。该模型在具身推理基准测试中达到 63.8/100,超越 GPT-5 和 Gemini 2.5 Pro,推理速度提升 37 倍,是首个内置双臂协调能力的基础模型。

🟢 📦 开源 2026年4月30日 · 2 分钟阅读

IBM Granite 4.1:在150亿词元上训练的3B/8B/30B Apache 2.0开源模型家族,稠密8B可与32B MoE媲美

编辑插图:花岗岩块与翻开的书,象征开放权重许可证

IBM于2026年4月29日在HuggingFace博客发布了Granite 4.1模型家族的构建细节——3B、8B和30B稠密变体,采用Apache 2.0许可证。在约15T词元上通过5阶段流水线策略训练,使用GRPO+DAPO损失的4阶段强化学习。Granite 4.1-8B Instruct在大多数基准测试上与前代Granite 4.0-H-Small(32B-A9B MoE)持平或超越——表明稠密模型在相同激活参数预算下可达到MoE质量。

🟡 📦 开源 2026年4月29日 · 2 分钟阅读

Marco-MoE:开源多语言MoE模型仅激活5%参数,超越激活参数量多3-14倍的密集模型

编辑插图:带有不同语言字形的专家模块星座围绕中央路由器

Marco-MoE是由Jiang、Zhao等人于2026年4月28日发布的新型开源稀疏混合专家模型系列。模型每个令牌仅激活约5%的总参数,通过从密集模型升级改造在5万亿令牌上训练,Instruct版本超越激活参数量多3至14倍的密集竞争对手。权重、数据集和训练方案均已公开发布。

🟡 📦 开源 2026年4月28日 · 2 分钟阅读

OpenAI发布Privacy Filter:15亿参数、Apache 2.0许可证、128K上下文,单次扫描检测八类PII,达到SOTA水平

文档敏感部分通过软件过滤器自动隐藏的风格化示意图,以抽象层和类别标签表示。

OpenAI发布了Privacy Filter——一个拥有15亿参数(5000万活跃参数)、12.8万token上下文、Apache 2.0许可证的开源个人身份信息检测器。单次扫描即可检测八类PII,在PII-Masking-300k基准测试中达到SOTA水平,支持多种语言。

🟢 📦 开源 2026年4月28日 · 3 分钟阅读

ONNX v1.21.0发布,引入Opset 26:新增CumProd和BitCast运算符、2位类型支持及Python 3.14自由线程实验

分层神经网络图的抽象图示,突出显示新运算符和2位张量的数字标识,象征Opset 26版本。

Linux Foundation AI & Data Foundation于2026年4月27日发布了ONNX v1.21.0——引入包含CumProd和BitCast运算符的Opset 26、2位类型支持、实验性Python 3.14自由线程,以及整数除法一致性和编译器安全性改进。

🟡 📦 开源 2026年4月24日 · 2 分钟阅读

Google DeepMind Decoupled DiLoCo:跨地理分布数据中心的AI训练网络带宽降低20倍

编辑插图:开源工具 — open-source

Google DeepMind发布了Decoupled DiLoCo,一种用于AI模型训练的分布式架构。它将8个数据中心之间所需的网络带宽从198 Gbps降至0.84 Gbps,同时在高故障率场景下将吞吐量从27%提升至88%。

🟡 📦 开源 2026年4月24日 · 2 分钟阅读

vLLM集成DeepSeek V4,KV缓存缩小8.7倍:标准GPU硬件实现百万令牌上下文

编辑插图:vLLM DeepSeek V4压缩——KV缓存模块

vLLM与DeepSeek同日发布了V4-Pro和V4-Flash模型的完整集成,相比V3.2在百万令牌上下文下KV缓存减少8.7倍。稀疏注意力与积极压缩的结合,使标准GPU硬件上的模型服务成为可能。

🟢 📦 开源 2026年4月24日 · 2 分钟阅读

Allen AI:OlmoEarth嵌入向量仅凭60个像素实现F1得分0.84的地景分割

编辑插图:开源工具 — open-source

Allen人工智能研究所发布了OlmoEarth Studio,提供三种规模的模型(Nano、Tiny、Base)用于卫星图像嵌入向量。这些模型仅凭60个标注像素便可实现地景分割F1得分0.84,同时支持变化检测与PCA可视化。

🟡 📦 开源 2026年4月23日 · 2 分钟阅读

Apple在ICLR 2026发布ParaRNN:并行训练非线性RNN实现665倍加速

编辑插图:开源工具 — open-source

Apple在本周于里约热内卢举办的ICLR 2026大会上发布了五篇机器学习研究论文,其中最受瞩目的是ParaRNN——一种支持非线性递归神经网络并行训练的方法,相比顺序方式实现了665倍加速,使RNN可扩展至数十亿参数,与Transformer形成竞争。

🟡 📦 开源 2026年4月23日 · 2 分钟阅读

Linux Foundation发布RGAF指南,涵盖35个负责任AI开源工具

编辑插图:开源工具 — open-source

Linux Foundation AI & Data发布了一份实践指南,通过九个负责任AI维度展示如何实施RGAF(负责任生成式AI框架),配备35个具体开源工具目录,并与NIST AI RMF、EU AI法案、ISO/IEC 42001和OECD原则保持一致。

🟢 📦 开源 2026年4月22日 · 2 分钟阅读

WorldDB:融合向量数据库与世界图谱的AI智能体记忆引擎

编辑插图:向量数据库与节点图谱通过本体论连接构成智能体记忆系统

WorldDB是一款面向AI智能体的全新记忆引擎,将向量数据库与嵌套世界图谱和本体论相结合。它在写入时协调知识并防止智能体记忆中的矛盾,在LongMemEval-s基准测试中达到96.40%的准确率。

🟡 📦 开源 2026年4月21日 · 2 分钟阅读

Allen Institute BAR:模块化后训练与专家混合架构在OLMo 2 7B上数学提升7.8分

展示模块化MoE系统的编辑插图,路由组件将查询分配给不同专家

BAR(Branch-Adapt-Route)是Allen Institute for AI提出的一种新型模块化后训练方法,支持独立训练各领域专家——数学、代码、工具使用、安全——并将其融合为统一的专家混合模型。在OLMo 2 7B上的结果:平均得分49.1,数学提升7.8分,代码提升4.7分,优于基准重训练。

🟡 📦 开源 2026年4月21日 · 2 分钟阅读

AMD FLy:无需训练的推测解码在Llama-3.3-405B上实现5.21×加速,精度超99%

推测解码的编辑插图——草稿模型提议令牌,目标模型并行验证

AMD FLy是一种全新的免训练推测解码方法,通过语义接受草稿令牌,在Llama-3.3-405B上实现4.80×至5.21×加速,在Llama-3.1-70B上实现2.74×加速,精度超过99%,无需对模型进行额外训练。

🔴 📦 开源 2026年4月18日 · 2 分钟阅读

Google Gemma 4:四款开源模型,31B dense排名竞技场第三,Apache 2.0许可证

Gemma 4是Google新一代开源模型,共有四个变体:适用于移动设备的E2B、适用于边缘设备的E4B、拥有38亿活跃参数的26B MoE以及31B dense模型。31B在开源模型竞技场排名第三,据称超越了20倍参数量的模型,26B MoE排名第六。所有模型均为多模态(文本、图像、视频、音频),支持140种语言,上下文长度最高256K tokens,并以Apache 2.0许可证发布。

🟢 📦 开源 2026年4月17日 · 2 分钟阅读

HuggingFace:多模态嵌入与重排序模型训练指南

HuggingFace发布了通过Sentence Transformers库对多模态嵌入和重排序模型进行微调的详细指南。重点是将文本和图像整合到共同的嵌入空间,从而实现跨异构数据的语义搜索。主要应用于处理文档、表格、图像和扫描件混合物的RAG系统。

🟢 📦 开源 2026年4月17日 · 1 分钟阅读

HuggingFace:面向Claude Code的Transformers-to-MLX skill带来Apple Silicon模型移植的AI辅助

HuggingFace发布了一个15,000词的Transformers-to-MLX skill,使用Claude Code将Transformers模型移植到Apple Silicon的MLX-LM平台。该skill包含独立验证结果的测试框架,消除了LLM幻觉问题,同时解决了AI代理将拉取请求数量增加10倍的开源项目中日益增长的挑战。

🟢 📦 开源 2026年4月16日 · 1 分钟阅读

LangChain:我们如何利用深度代理让文档自我测试

LangChain构建了一个使用深度代理(Deep Agents)的文档自动化测试系统,防止文档中出现过时的代码示例。该系统使用多种技能(skills)将内联代码片段迁移到独立测试文件,通过GitHub Actions运行它们,并重新生成经过验证的片段,确保文档始终反映API的实际状态。

🟡 📦 开源 2026年4月10日 · 1 分钟阅读

Waypoint-1.5:AI在普通RTX 3090上生成交互式720p世界

Overworld发布了Waypoint-1.5,这是一款实时视频世界模型,可在RTX 3090和Apple Silicon Mac等消费级GPU上以720p/60fps分辨率生成交互式虚拟环境。该模型的训练数据比前代多出约100倍,并在HuggingFace上开源可用。