SkillOpt:微软研究院将智能体指令文件视为可训练参数
微软研究院发布 SkillOpt——一个通过迭代正向-反向循环优化智能体技能文件、无需微调模型权重的系统。在 52 个评估单元上达到最优或持平结果,GPT-5.5 在经过技能优化后,六项基准测试的平均准确率从 58.8% 提升至 82.3%。
本文由人工智能基于一手来源生成。
微软研究院发布了 SkillOpt——一个解决此前大多被忽视的问题的系统:如何在不触动模型权重的情况下系统性地改善 AI 智能体的行为。SkillOpt 不采用微调,而是将指令和技能文件视为可训练参数,并对智能体接收的指令文本应用优化循环。
正向-反向-更新:一个循环的工作原理
该过程在三个步骤中循环进行:
正向传播(Forward pass) — 冻结的目标模型使用当前版本的技能文件执行任务。模型中没有任何内容被改变;唯一记录的是轨迹——一系列动作和中间结果。
反向传播(Backward pass) — 独立的优化器模型分析轨迹并识别模式:哪些有效,哪些无效,智能体在哪里偏离了正轨。基于此分析,它提出有限的文本编辑:添加一句话、删除一条指令、替换一种表述。
更新步骤(Update step) — 提议的编辑通过验证关卡。只有能提升留出验证数据表现的编辑才被接受。被拒绝的编辑进入下一次优化器调用的反馈回路,而在每个 epoch 层面还会进行较慢的元更新,以整合长期积累的经验。
防止提示漂移(prompt drift)的机制——即技能文件因累积编辑而退化为无意义内容的情况——是最优版本选择:每次编辑必须优于当前版本,而不仅仅是不同。
52 个评估单元:一致性是核心发现
研究人员在 6 项基准测试(SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench、ALFWorld)× 7 个模型 × 3 种执行模式上测试了 SkillOpt,共计 52 个评估单元。在所有 52 个单元上,SkillOpt 均达到了与相关基准相比最优或持平的结果。
最大幅度的提升数据,均在 GPT-5.5 上测得:
| 基准测试 | 优化前 | 优化后 | 提升 |
|---|---|---|---|
| 六项基准平均 | 58.8% | 82.3% | +23.5 pp |
| SpreadsheetBench | 41.8% | 80.7% | +39.0 pp |
| OfficeQA | 33.1% | 72.1% | +39.0 pp |
| LiveMathematicianBench | 37.6% | 66.9% | +29.3 pp |
特别值得关注的是 OfficeQA 优化数据:39 个百分点的提升仅通过技能文件中的一次编辑实现。这表明现有指令中存在高权重错误——会系统性地使智能体偏离方向的表述。
紧凑性与可迁移性
最终技能文件中位长度约为 920 个 token,每个案例有 1 到 4 次被接受的编辑。紧凑性并非偶然——验证关卡会自然过滤掉不带来可量化改进的冗余编辑。
可迁移性在多个层面上得到了记录。针对一个执行环境(如 Codex)的优化带来了 +24.8 pp 的提升,同样的技能在 Claude Code 执行环境中无需重新优化即带来了 +19.1 pp。一次跨环境迁移记录了 +59.7 pp 的提升——意味着在某一平台上使用优化技能的智能体,在完全不同的平台上也超越了自身基准。
这与提示工程有何不同?
手动提示工程(prompt engineering)是迭代性的,但并非系统化的。工程师凭直觉修改指令,没有每次编辑的量化反馈,也没有防止性能退化的机制。SkillOpt 将这一过程正规化:每次变更都经过测量,每个步骤都可审计,而最终成果——优化后的技能文件——可以版本控制、共享,并应用于任何兼容的模型。
对于已经拥有智能体基础设施的组织,其含义十分明确:模型无需变得更好,智能体就能变得更好。只需系统性地优化模型接收的文本即可。
常见问题
- SkillOpt 运行是否需要对模型进行微调(fine-tuning)?
- 不需要。模型权重完全冻结——SkillOpt 仅修改智能体接收的文本技能文件。
- 优化后的技能文件有多大?
- 优化后技能文件的中位长度约为 920 个 token,每次优化过程仅有 1 到 4 次被接受的文本编辑。
- 学到的技能可以在不同模型之间迁移吗?
- 可以。优化后的技能已被证明可在不同大小的模型和不同执行环境之间迁移,其中一次跨环境迁移带来了 59.7 个百分点的提升。