LangChain Deep Agents 하네스 프로파일:GPT-5.3 Codex, tau2 벤치마크에서 33%에서 53%로, Opus 4.7은 43%에서 53%로 도약
LangChain은 2026년 4월 29일 Deep Agents를 위한 하네스 프로파일 시스템을 선보였습니다. 이를 통해 동일한 코드가 수정 없이 Anthropic, OpenAI, Google 모델과 함께 작동할 수 있습니다. 프로파일은 모델별 시스템 프롬프트, 도구, 미들웨어를 자동으로 적용합니다. tau2 벤치마크에서 GPT-5.3 Codex는 33%에서 53%로, Claude Opus 4.7은 43%에서 53%로 정확도가 향상되었으며, 연구자들은 단일 하네스가 모든 모델에 최적일 수 없다고 결론 내렸습니다.
LangChain은 2026년 4월 29일 Deep Agents 라이브러리를 위한 하네스 프로파일 시스템을 선보였습니다. 이 시스템은 에이전트가 프로덕션 환경에서 LLM을 교체하기 시작하면서 나타난 문제를 해결합니다. 한 모델에 최적으로 작동하는 시스템 프롬프트, 도구, 미들웨어의 통합 설정은 보통 다른 모델과 함께 사용할 때 성능이 저하됩니다. LangChain은 하네스를 공유해서는 안 된다고 결론 내리며, 각 모델에는 자체 프로파일이 필요합니다.
하네스 프로파일은 Deep Agent에서 무엇을 변경하나요?
프로파일은 세 가지를 캡슐화하는 설정입니다. 모델별 시스템 프롬프트(구조, 톤, 예시), LLM이 가장 잘 이해하는 형식의 도구 세트, 그리고 미들웨어 로직(예: 도구 결과가 다음 턴으로 반환되는 방법)입니다. 개발자는 코드에서 프로파일만 교체하면 되고 호출 코드는 그대로 유지됩니다. 현재 내장 프로파일은 Anthropic, OpenAI, Google 모델을 지원하며, 커뮤니티는 다른 공급업체를 위한 자체 프로파일을 기여할 수 있습니다.
tau2 벤치마크에서의 개선은 얼마나 정확한가요?
LangChain은 장기 에이전트를 위한 표준 평가 도구인 tau2 벤치마크에서 전후 비교 테스트를 실시했습니다. GPT-5.3 Codex의 정확도는 33%에서 53%로 상승(+20 퍼센트포인트) 했으며, Claude Opus 4.7은 43%에서 53%로(+10 퍼센트포인트) 상승했습니다. 두 모델 모두 같은 정확도로 마무리되지만 서로 다른 출발점에서 시작했습니다. 기본 LangChain 하네스가 어느 모델에도 최적이지 않았음을 보여주기 때문에 두 경우 모두 향상 폭이 상당합니다.
이것이 멀티 모델 파이프라인에 어떤 의미가 있나요?
LangChain의 코멘트가 모든 것을 요약합니다. “A single harness can’t be optimal for every model.” 프로덕션 환경에서 여러 모델을 병렬로 사용하는 개발팀(예: 추론에 Claude, 코딩에 GPT, 멀티모달 작업에 Gemini)은 이제 코드를 재작성하지 않고도 동일한 Deep Agents 아키텍처를 사용하여 수십 퍼센트포인트의 향상을 얻을 수 있습니다. 이 접근법은 에이전트를 위한 인프라 레이어라는 더 넓은 업계 트렌드와 맞아떨어집니다. 이번 주 AWS Bedrock AgentCore, Anthropic Claude Code, Mistral Vibe는 공급업체 유연성을 유지하면서 에이전트 스택을 표준화하는 같은 방향으로 나아가고 있습니다.
자주 묻는 질문
- LangChain Deep Agents의 하네스 프로파일이란 무엇인가요?
- 모델별 시스템 프롬프트, 도구 세트, 미들웨어 옵션을 포함하는 설정입니다. 개발자는 사용하는 LLM에 따라 프로파일을 선택하며, 동일한 호출 코드가 수정 없이 Anthropic, OpenAI, Google 모델과 함께 작동합니다.
- 하네스 프로파일은 성능을 얼마나 향상시키나요?
- tau2 벤치마크에서 GPT-5.3 Codex는 33%에서 53%로(+20 퍼센트포인트), Claude Opus 4.7은 43%에서 53%로(+10 퍼센트포인트) 향상되었습니다. 두 모델 모두 같은 정확도로 마무리되지만 서로 다른 출발점에서 시작했습니다.
- 단일 하네스가 작동하지 않는 이유는 무엇인가요?
- 다양한 모델은 시스템 프롬프트, 도구 형식, 미들웨어 로직에 다르게 반응합니다. Anthropic 모델은 구조화된 XML 지시를 선호하고, OpenAI는 function calling 스키마와 잘 맞으며, Google 모델에는 자체 형식이 있습니다. 프로파일은 이 모든 것을 모델별로 조정합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.