LangChain：Qwen轨迹评判器，成本低10至100倍

LangChain展示了微调后的Qwen-3.5-35B如何充当轨迹评判器——一种评估代理生产轨迹并发现用户察觉到的错误的模型。通过在Fireworks基础设施上进行LoRA微调并使用约1400个示例，该模型在chat-langchain数据集上达到96.1%的准确率，相比Claude Opus的91.6%更高，且成本低10至100倍。在一个领域微调后，它在另一个领域超越了前沿模型，显示出跨域迁移能力。

LangChain展示了微调后的Qwen-3.5-35B如何在轨迹评判器的角色中替代昂贵的前沿模型——成本大幅降低。

什么是轨迹评判器，它解决什么问题？

轨迹评判器是一种评估代理生产轨迹（traces）的AI模型，用于发现用户察觉到的错误——更正、拒绝和重复请求。轨迹评判器取代了人工团队手动审查数千次交互，可以自动标记有问题的会话。挑战在于，当轨迹量增大时，使用前沿模型执行这项工作的成本变得高昂。

LangChain如何训练模型？

LangChain以Qwen-3.5-35B为基础，通过Fireworks的托管SFT基础设施进行了LoRA微调。LoRA（低秩适应）是一种只修改少量附加参数而非整个模型的微调方法，使训练成本更低。SFT（有监督微调）是对标注示例的监督学习。训练集规模较小——来自chat-langchain领域的约707个示例和来自Fleet平台的727个示例。

模型的准确率和成本表现如何？

微调后的模型在chat-langchain数据集上达到96.1%的准确率，相比Claude Opus的91.6%和GPT-4.5的98.9%。关键结果是跨域迁移：在chat-langchain数据上微调的模型在Fleet数据上超越了所有前沿模型（90.8%对比Claude Opus的90.2%）。同时，成本低10至100倍，随着轨迹量增加节省更多。

何时可用？

LangChain宣布将在未来几周向选定用户推出，一至两个月后广泛提供。这一方法展示了小型、专业化、微调模型从通用前沿模型手中接管狭窄、重复性评估任务的模式。

常见问题

什么是轨迹评判器？

一种评估代理生产轨迹并发现用户察觉到的错误（如更正、拒绝和重复请求）的AI模型。

微调后的模型准确率如何？

在chat-langchain数据集上达到96.1%，相比Claude Opus的91.6%更高；在另一个领域超越了所有前沿模型。

便宜多少？

比前沿模型便宜10至100倍，随着轨迹量增加节省更多。

LangChain：微调后的Qwen-3.5-35B作为轨迹评判器，比前沿模型便宜10至100倍

什么是轨迹评判器，它解决什么问题？

LangChain如何训练模型？

模型的准确率和成本表现如何？

何时可用？

常见问题

来源

相关新闻