🤖 24 AI
🟢 🤖 模型 2026年4月18日星期六 · 2 分钟阅读

ArXiv AC/DC:通过模型与任务协同进化自动发现专业化LLM

为什么重要

AC/DC是一个在ICLR 2026上提出的新框架,通过模型合并同时进化LLM模型,并通过合成数据进化任务。发现的模型群体展示了比手工策划模型更广泛的专业知识覆盖范围,无需明确针对基准测试进行优化。模型能以更少的GPU内存超越更大的同类模型,代表了LLM持续开发的新范式。

作者Andrew Dai、Boris Meinardus、Ciaran Regan、Yingtao Tian和Yujin Tang发布了新框架AC/DC,全称**“通过任务能力协同进化发现新型LLM专家”。该论文被ICLR 2026**会议接收,代表了一种完全放弃独立训练轮次的LLM开发新方式。

它解决的问题

传统上,当团队想要扩展LLM的能力时,必须为每个新领域运行独立的训练轮次。想要医疗专家?独立运行。法律模型?再一次。金融?第三次。每次都需要超参数、数据、评估、回归测试。

AC/DC消除了那种手动干预集合。作者声称**“开放性——通过模型和任务的协同进化——可以在单次运行中发现具有不断新颖能力的模型”**。

框架的工作原理

AC/DC同时进化两个组件:

模型——通过模型合并技术。不是从头训练单个模型,而是合并多个现有模型(通过各种权重组合),测试产生的群体。

任务——通过合成数据生成。每个任务本身也在进化——生成新的、更复杂的、更细微的旧任务变体,整个任务群体将模型推向新的利基。

关键是两个过程相互连接。模型在合成任务上竞争。任务自我适应,使某些模型在另一些失败的地方成功。如此循环——无需人工干预。

结果

作者报告了几个重要发现:

  • 发现的群体展示了比手工策划模型更广泛的专业知识覆盖范围
  • 模型以更少的GPU内存超越更大的同类模型
  • 在任务设计和模型能力方面展示了持续创新
  • 多智能体最佳N选择场景中提高了性能

重要的是注意结果中没有什么——没有声称在具体基准测试上的主导性。作者明确不追求SOTA。相反,他们表明AC/DC模型群体具有更丰富的功能多样性

新的开发范式

作者将AC/DC定位为**“LLM开发的深刻新范式”**。不再是以下循环:

  1. 识别用例
  2. 策划数据
  3. 运行训练
  4. 评估
  5. 迭代

而是:

  1. 运行框架
  2. 让它自己发现利基

这是大胆的定位。生产团队通常需要可预测性——开放性听起来很浪漫但是否足够健壮仍是问题。

ICLR 2026背景

AC/DC是ICLR 2026上同一研究方向的多篇2026年论文之一——关于通过进化自动发现AI能力的研究。相关研究与进化计算中早期的”新颖性搜索”方法有关,适用于AI。

作者没有提到具体的公司或企业部署,这表明这主要是处于前生产阶段的研究工作。尽管如此,该框架令人着迷,因为它为AI系统自我探索可能专业知识空间开辟了道路——工程师无需预先定义他们想要获得什么。

对于追踪AI开发长期趋势的人来说,AC/DC是重要的数据点。对于当前的生产系统——几乎肯定不能直接应用,但代表了该领域在未来几年可能移动的方向。

🤖

本文由人工智能基于一手来源生成。