LangChain:修复智能体的智能体——LangSmith Engine的构建方式
LangChain发布了LangSmith Engine技术详解——一款分析生产AI智能体错误并提出具体修复方案的自主元智能体。Engine端到端自动化错误检测、评估器生成和回归测试。
本文由人工智能基于一手来源生成。
LangChain发布了LangSmith Engine的详细技术概述——这是一款自主智能体,能分析生产AI智能体中的错误并提出具体修复方案。
什么是LangSmith,什么是LangSmith Engine?
LangSmith是一个AI智能体工程平台,为生产中的智能体群提供可观测性、评估和管理功能。LangSmith Engine是构建在该平台之上的元智能体:持续审查已部署智能体的追踪数据,检测反复出现的错误模式,并自动建议评估器和回归测试用例。
简而言之:这是一个唯一工作就是改进其他智能体的智能体。
「改进智能体的智能体」架构如何运作?
Engine通过多阶段流水线工作。首先,它将数千条追踪压缩为紧凑的轨迹(角色、工具名称、延迟、字符数)以避免超出上下文窗口。然后,筛选子智能体快速将每条追踪分类为干净或可疑,而调查子智能体仅深入分析标记的案例。
错误被限定在预定义的类别列表中——agent_looping、incorrect_tool_args、missing_tool、pii_leak——以保持质量控制。对于发现的每个问题,Engine生成一个评估器(基于代码或LLM作为评判者),使用test_evaluator工具在真实追踪上验证它,并以严重程度将其提交到问题看板。
为何这对开发团队重要?
此前,调试AI智能体需要手动审查日志和主观判断。Engine端到端自动化了这一过程:从检测到建议带有断言的回归测试。管理智能体群的团队可以在无需手动审查数百条追踪的情况下识别系统性问题。这种方法是元智能体如何成为MLOps基础设施标准组件的良好示例。
常见问题
- LangSmith Engine与LangSmith平台有何不同?
- LangSmith是AI智能体可观测性和评估平台。LangSmith Engine是构建在该平台之上的元智能体,自主审查追踪数据、检测反复出现的错误模式,并自动建议评估器和回归测试用例。
- Engine如何在不超出上下文的情况下过滤数千条追踪?
- Engine将追踪压缩为紧凑轨迹(角色、工具名称、延迟、字符数),然后筛选子智能体快速分类每条追踪,而调查子智能体仅深入分析标记案例。
- LangSmith Engine自动检测哪些错误类别?
- 错误限定于预定义类别:agent_looping、incorrect_tool_args、missing_tool和pii_leak。对于发现的每个问题,Engine生成评估器,在真实追踪上验证,并以严重程度提交到问题看板。