LangChain:微调后的Qwen-3.5-35B作为轨迹评判器,比前沿模型便宜10至100倍
LangChain展示了微调后的Qwen-3.5-35B如何充当轨迹评判器——一种评估代理生产轨迹并发现用户察觉到的错误的模型。通过在Fireworks基础设施上进行LoRA微调并使用约1400个示例,该模型在chat-langchain数据集上达到96.1%的准确率,相比Claude Opus的91.6%更高,且成本低10至100倍。在一个领域微调后,它在另一个领域超越了前沿模型,显示出跨域迁移能力。
本文由人工智能基于一手来源生成。
LangChain展示了微调后的Qwen-3.5-35B如何在轨迹评判器的角色中替代昂贵的前沿模型——成本大幅降低。
什么是轨迹评判器,它解决什么问题?
轨迹评判器是一种评估代理生产轨迹(traces)的AI模型,用于发现用户察觉到的错误——更正、拒绝和重复请求。轨迹评判器取代了人工团队手动审查数千次交互,可以自动标记有问题的会话。挑战在于,当轨迹量增大时,使用前沿模型执行这项工作的成本变得高昂。
LangChain如何训练模型?
LangChain以Qwen-3.5-35B为基础,通过Fireworks的托管SFT基础设施进行了LoRA微调。LoRA(低秩适应)是一种只修改少量附加参数而非整个模型的微调方法,使训练成本更低。SFT(有监督微调)是对标注示例的监督学习。训练集规模较小——来自chat-langchain领域的约707个示例和来自Fleet平台的727个示例。
模型的准确率和成本表现如何?
微调后的模型在chat-langchain数据集上达到96.1%的准确率,相比Claude Opus的91.6%和GPT-4.5的98.9%。关键结果是跨域迁移:在chat-langchain数据上微调的模型在Fleet数据上超越了所有前沿模型(90.8%对比Claude Opus的90.2%)。同时,成本低10至100倍,随着轨迹量增加节省更多。
何时可用?
LangChain宣布将在未来几周向选定用户推出,一至两个月后广泛提供。这一方法展示了小型、专业化、微调模型从通用前沿模型手中接管狭窄、重复性评估任务的模式。
常见问题
- 什么是轨迹评判器?
- 一种评估代理生产轨迹并发现用户察觉到的错误(如更正、拒绝和重复请求)的AI模型。
- 微调后的模型准确率如何?
- 在chat-langchain数据集上达到96.1%,相比Claude Opus的91.6%更高;在另一个领域超越了所有前沿模型。
- 便宜多少?
- 比前沿模型便宜10至100倍,随着轨迹量增加节省更多。