인컨텍스트 Prompt가 LangGraph·CrewAI 능가함을 실증

인컨텍스트 프롬프팅은 전체 절차적 워크플로우를 프레임워크를 통한 오케스트레이션 대신 시스템 프롬프트에 직접 내장하는 아키텍처 접근 방식입니다. 조건당 200회 대화를 사용한 ArXiv 연구는 이 접근 방식이 여행 예약, Zoom 기술 지원, 보험 청구 처리의 세 가지 도메인에서 LangGraph, CrewAI, Google ADK, OpenAI Agents SDK를 능가한다는 것을 보여줍니다.

Simon Dennis, Michael Diamond, Rivaan Patil, Kevin Shabahang, Hao Guo 팀은 2026년 4월 30일 ArXiv에 도발적인 제목의 논문을 발표했습니다: “인컨텍스트 프롬프팅이 절차적 작업에서 에이전트 오케스트레이션을 구식으로 만들다”. 그들이 옹호하는 주장은 오늘날 프론티어 모델의 고급 능력이 대규모 클래스의 절차적 다중 턴 작업에서 외부 오케스트레이션 프레임워크를 불필요하게 만든다는 것입니다.

왜 인컨텍스트 프롬프팅이 오케스트레이션보다 우수한가?

인컨텍스트 접근 방식은 전체 절차적 워크플로우 — 단계 목록, 분기 조건, 출력 형식, 에스컬레이션 — 를 단일 모델의 시스템 프롬프트에 직접 내장합니다. 오케스트레이션 프레임워크(LangGraph, CrewAI, Google ADK, OpenAI Agents SDK)는 동일한 워크플로우를 그래프 노드로 분해하고 모델 호출을 독립적인 조정 로직에 위임합니다. 저자들은 프론티어 모델이 이제 단일 호출 내에서 복잡한 절차를 따를 수 있는 충분한 “자기 오케스트레이션” 능력을 가지고 있는 반면, 그래프 기반 컨텍스트 전환은 실패율을 높이는 손실을 도입한다고 주장합니다.

세 가지 도메인과 구체적인 결과

실험은 세 가지 도메인(여행 예약, Zoom 기술 지원, 보험 청구 처리)에서 수행되었으며, 각 조건당 200회 대화와 다섯 가지 품질 기준의 LLM-as-judge 평가가 이루어졌습니다. 인컨텍스트 베이스라인은 4.53~~5.00을 달성했고, 가장 근접한 오케스트레이터 LangGraph는 4.17~~4.84로 뒤처졌습니다. 실패율 차이가 더 두드러졌습니다: 인컨텍스트는 도메인별 11.5%, 0.5%, 5%인 반면 오케스트레이션은 24%, 9%, 17%였습니다.

에이전트 구축에 대한 의미

연구의 결론은 오케스트레이션 프레임워크가 보편적으로 불필요하다는 것이 아닙니다 — 병렬 흐름, 외부 메모리, 여러 독립적인 에이전트가 필요한 작업에서는 여전히 역할이 있습니다. 그러나 명확한 단계를 가진 구조화된 절차적 작업의 경우, 이 연구는 아키텍처의 단순성 — 잘 작성된 단일 시스템 프롬프트 — 이 그래프 노드보다 더 신뢰할 수 있음을 시사합니다. 2026년 에이전트 스택에 대한 시사점은 에이전트 설계의 첫 번째 단계가 프레임워크에 손을 뻗기 전에 인컨텍스트 프롬프트를 통한 문제 해결 시도여야 한다는 것입니다.

자주 묻는 질문

어떤 프레임워크가 비교되었습니까?

LangGraph, CrewAI, Google ADK, OpenAI Agents SDK가 워크플로우를 시스템 프롬프트에 직접 내장하는 인컨텍스트 베이스라인과 비교되었습니다.

결과의 범위는 어느 정도입니까?

인컨텍스트 접근 방식은 1~5 척도에서 4.53~5.00을 달성했고, 오케스트레이션 프레임워크는 4.17~4.84에 머물렀습니다. 실패율 차이는 더 두드러졌습니다: 도메인별 11.5%/0.5%/5% 대 24%/9%/17%.

ArXiv 연구: 인컨텍스트 프롬프팅이 절차적 작업에서 LangGraph, CrewAI, Google ADK, OpenAI Agents SDK 초과

왜 인컨텍스트 프롬프팅이 오케스트레이션보다 우수한가?

세 가지 도메인과 구체적인 결과

에이전트 구축에 대한 의미

자주 묻는 질문

출처

관련 뉴스