arXiv:2605.15040 Orchard: 오픈소스 에이전트 프레임워크가 세 가지 전문 레시피로 SWE-bench Verified 67.5% 달성
Orchard는 Baolin Peng, Wenlin Yao 및 12명의 공동 저자가 2026년 5월 14일 arXiv에 발표한 새로운 오픈소스 에이전트 모델링 프레임워크입니다. 이 프레임워크는 경량 환경 레이어와 세 가지 전문 훈련 레시피(SWE 소프트웨어 엔지니어링, GUI 비전 언어, Claw 개인 어시스턴트)를 결합합니다. Orchard-SWE 변형은 RL 훈련 후 SWE-bench Verified에서 67.5%를 달성하여 코딩 에이전트 분야의 최첨단 오픈소스 솔루션이 되었습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Baolin Peng, Wenlin Yao 및 12명의 공동 저자가 2026년 5월 14일 arXiv에 Orchard를 발표했습니다. 확장 가능한 에이전트 모델링을 위한 오픈소스 프레임워크입니다. 이 연구는 오픈소스 인프라의 공백을 채우는 것을 목표로 합니다. 클로즈드소스 에이전트가 벤치마크를 지배하는 가운데, 오픈 커뮤니티에는 오케스트레이션뿐만 아니라 훈련을 가능하게 하는 고품질 스택이 필요합니다.
Orchard 아키텍처는 무엇을 제공합니까?
프레임워크는 세 가지 구성 요소로 이루어져 있습니다.
- Orchard Env — 「재사용 가능한 프리미티브」를 사용하여 다양한 작업 유형에 걸친 샌드박스 라이프사이클을 관리하는 경량 환경 레이어입니다. 무거운 오케스트레이션이 필요 없습니다.
- 세 가지 전문 레시피 — SWE(소프트웨어 엔지니어링 작업), GUI(비전 언어 인터페이스), Claw(개인 어시스턴트 시나리오). 각 레시피는 해당 작업 유형에 최적화되어 있습니다.
- 훈련 혁신 — 크레딧 할당 SFT(불완전한 궤적에서 학습) 및 Balanced Adaptive Rollout(에이전트 훈련을 위한 새로운 RL 알고리즘).
이 접근 방식은 LangChain/CrewAI의 전통과 아키텍처적으로 다릅니다. 워크플로 관리(에이전트가 도구를 호출하고 상태를 관리하는 방식)에 집중하는 대신, Orchard는 확장 가능한 에이전트 훈련을 주요 기능으로 위치시킵니다.
SWE-bench 67.5% 결과는 구체적으로 무엇을 의미합니까?
Orchard-SWE 변형은 RL 훈련 후 SWE-bench Verified에서 67.5%를 달성했습니다. SWE-bench Verified는 문제 있는 테스트 케이스를 제거한 엄선된 서브셋으로, 실제 코딩 작업에 대한 엄격한 벤치마크입니다. 따라서 이 숫자는 중요한 의미를 가집니다. 오픈소스 모델이 백엔드에 클로즈드소스 프론티어 모델 없이 SWE-bench Verified에서 60% 이상을 달성하는 것은 드문 일입니다. Orchard-SWE는 오픈소스 훈련 스택과 오픈 가중치 모델로 이를 달성했습니다.
세 가지 레시피는 어떻게 병렬로 작동합니까?
SWE 레시피는 에이전트를 소프트웨어 엔지니어링에 특화하여 훈련합니다. 코드베이스를 읽고, PR을 작성하고, 셸 도구를 사용하고, 디버그합니다. GUI 레시피는 브라우저/데스크톱 인터페이스에서 작동하는 비전 언어 에이전트를 훈련합니다. 클릭, 스크롤, 스크린샷 읽기, 애플리케이션 탐색을 수행합니다. Claw 레시피는 개인 어시스턴트 작업을 대상으로 합니다. 파일 관리, 스케줄링, 다단계 사용자 의도 처리 등입니다.
멀티 도메인 접근 방식은 Orchard를 벤더 전용 스택(Anthropic Computer Use, OpenAI Codex CLI)의 대안으로 위치시킵니다. 하나의 프레임워크, 세 가지 도메인, 오픈소스입니다.
오픈소스 에이전트 에코시스템에서의 위치
이번 발표는 에이전트 관련 릴리스가 잇따른 한 주에 맞춰 전개됩니다. LangChain Labs(5월 14일, 응용 연구 프로그램), GitHub Copilot App 기술 프리뷰(5월 14일), IBM Forward Deployed Units(5월 14일) 등입니다. Orchard는 학술 연구의 균형추로서, 커뮤니티에 벤더 통제를 받지 않는 오픈소스 기반을 제공합니다. 훈련 레시피와 Orchard-SWE 가중치가 공개될 가능성이 높으며, 이는 오픈소스 커뮤니티가 향후 몇 달 내에 클로즈드소스 에이전트 벤치마크를 따라잡는 길을 열어줄 것입니다.
자주 묻는 질문
- Orchard는 LangChain이나 CrewAI와 무엇이 다릅니까?
- 기존 오케스트레이션 프레임워크(LangChain, CrewAI)는 워크플로 관리에 집중합니다. 즉, 에이전트가 도구를 호출하고 상태를 관리하는 방식에 초점을 맞춥니다. Orchard는 워크플로 오케스트레이션만이 아닌 실제 모델 최적화를 포함한 확장 가능한 에이전트 훈련을 주요 기능으로 위치시킵니다.
- Orchard 프레임워크의 아키텍처는 어떻습니까?
- 세 가지 구성 요소로 이루어집니다. Orchard Env(다양한 작업 유형에 걸친 샌드박스 라이프사이클 관리), 세 가지 전문 레시피(SWE, GUI, Claw), 그리고 훈련 혁신으로 불완전한 궤적에서 학습하는 크레딧 할당 SFT와 RL을 위한 Balanced Adaptive Rollout이 있습니다.