LangChain 하네스 프로파일：tau2 벤치 +20pp 향상

LangChain은 2026년 4월 29일 Deep Agents를 위한 하네스 프로파일 시스템을 선보였습니다. 이를 통해 동일한 코드가 수정 없이 Anthropic, OpenAI, Google 모델과 함께 작동할 수 있습니다. 프로파일은 모델별 시스템 프롬프트, 도구, 미들웨어를 자동으로 적용합니다. tau2 벤치마크에서 GPT-5.3 Codex는 33%에서 53%로, Claude Opus 4.7은 43%에서 53%로 정확도가 향상되었으며, 연구자들은 단일 하네스가 모든 모델에 최적일 수 없다고 결론 내렸습니다.

LangChain은 2026년 4월 29일 Deep Agents 라이브러리를 위한 하네스 프로파일 시스템을 선보였습니다. 이 시스템은 에이전트가 프로덕션 환경에서 LLM을 교체하기 시작하면서 나타난 문제를 해결합니다. 한 모델에 최적으로 작동하는 시스템 프롬프트, 도구, 미들웨어의 통합 설정은 보통 다른 모델과 함께 사용할 때 성능이 저하됩니다. LangChain은 하네스를 공유해서는 안 된다고 결론 내리며, 각 모델에는 자체 프로파일이 필요합니다.

하네스 프로파일은 Deep Agent에서 무엇을 변경하나요?

프로파일은 세 가지를 캡슐화하는 설정입니다. 모델별 시스템 프롬프트(구조, 톤, 예시), LLM이 가장 잘 이해하는 형식의 도구 세트, 그리고 미들웨어 로직(예: 도구 결과가 다음 턴으로 반환되는 방법)입니다. 개발자는 코드에서 프로파일만 교체하면 되고 호출 코드는 그대로 유지됩니다. 현재 내장 프로파일은 Anthropic, OpenAI, Google 모델을 지원하며, 커뮤니티는 다른 공급업체를 위한 자체 프로파일을 기여할 수 있습니다.

tau2 벤치마크에서의 개선은 얼마나 정확한가요?

LangChain은 장기 에이전트를 위한 표준 평가 도구인 tau2 벤치마크에서 전후 비교 테스트를 실시했습니다. GPT-5.3 Codex의 정확도는 33%에서 53%로 상승(+20 퍼센트포인트) 했으며, Claude Opus 4.7은 43%에서 53%로(+10 퍼센트포인트) 상승했습니다. 두 모델 모두 같은 정확도로 마무리되지만 서로 다른 출발점에서 시작했습니다. 기본 LangChain 하네스가 어느 모델에도 최적이지 않았음을 보여주기 때문에 두 경우 모두 향상 폭이 상당합니다.

이것이 멀티 모델 파이프라인에 어떤 의미가 있나요?

LangChain의 코멘트가 모든 것을 요약합니다. “A single harness can’t be optimal for every model.” 프로덕션 환경에서 여러 모델을 병렬로 사용하는 개발팀(예: 추론에 Claude, 코딩에 GPT, 멀티모달 작업에 Gemini)은 이제 코드를 재작성하지 않고도 동일한 Deep Agents 아키텍처를 사용하여 수십 퍼센트포인트의 향상을 얻을 수 있습니다. 이 접근법은 에이전트를 위한 인프라 레이어라는 더 넓은 업계 트렌드와 맞아떨어집니다. 이번 주 AWS Bedrock AgentCore, Anthropic Claude Code, Mistral Vibe는 공급업체 유연성을 유지하면서 에이전트 스택을 표준화하는 같은 방향으로 나아가고 있습니다.

자주 묻는 질문

LangChain Deep Agents의 하네스 프로파일이란 무엇인가요?

모델별 시스템 프롬프트, 도구 세트, 미들웨어 옵션을 포함하는 설정입니다. 개발자는 사용하는 LLM에 따라 프로파일을 선택하며, 동일한 호출 코드가 수정 없이 Anthropic, OpenAI, Google 모델과 함께 작동합니다.

하네스 프로파일은 성능을 얼마나 향상시키나요?

tau2 벤치마크에서 GPT-5.3 Codex는 33%에서 53%로(+20 퍼센트포인트), Claude Opus 4.7은 43%에서 53%로(+10 퍼센트포인트) 향상되었습니다. 두 모델 모두 같은 정확도로 마무리되지만 서로 다른 출발점에서 시작했습니다.

단일 하네스가 작동하지 않는 이유는 무엇인가요?

다양한 모델은 시스템 프롬프트, 도구 형식, 미들웨어 로직에 다르게 반응합니다. Anthropic 모델은 구조화된 XML 지시를 선호하고, OpenAI는 function calling 스키마와 잘 맞으며, Google 모델에는 자체 형식이 있습니다. 프로파일은 이 모든 것을 모델별로 조정합니다.

LangChain Deep Agents 하네스 프로파일：GPT-5.3 Codex, tau2 벤치마크에서 33%에서 53%로, Opus 4.7은 43%에서 53%로 도약

하네스 프로파일은 Deep Agent에서 무엇을 변경하나요?

tau2 벤치마크에서의 개선은 얼마나 정확한가요?

이것이 멀티 모델 파이프라인에 어떤 의미가 있나요?

자주 묻는 질문

출처

관련 뉴스