에이전트 하네스로서의 코드: 패러다임 전환 (arXiv:2605.18747)

UIUC와 NVIDIA의 41명 연구자들이 코드는 단순히 LLM의 출력이 아니라 에이전트 하네스——추론, 행동, 검증을 단일 프레임워크에 통합하여 신뢰할 수 있는 AI 시스템을 구축하는 운영 기반——라고 주장합니다.

UIUC, NVIDIA 및 협력 기관의 41명 연구자 팀이 AI 시스템에서 코드의 역할을 재개념화하는 검토 논문을 발표했습니다: 코드는 LLM이 생성하는 것만이 아닙니다——코드는 에이전트가 생각하고, 행동하고, 자신의 결론을 검증하는 인프라입니다.

에이전트 하네스란 무엇입니까?

LLM의 고전적인 사용에서 모델은 쿼리를 받고 텍스트를 반환합니다. 에이전트 하네스 패러다임에서 코드는 서로 얽힌 세 가지 기능을 담당합니다. 하네스 인터페이스로서 에이전트와 환경 사이의 인터페이스를 정의합니다——어떤 행동이 가능한지, 상태를 어떻게 모델링하는지, 에이전트가 피드백 신호를 어떻게 받는지를 명확히 합니다. 하네스 메커니즘으로서 재현 및 감사 가능한 실행 가능 프레임워크 내에서 계획, 메모리 관리, 도구 사용을 가능하게 합니다. 다중 에이전트 기반으로서 공유 코드가 여러 에이전트 간의 조정 매체가 됩니다——한 에이전트가 공유 코드를 공통의 진실 언어로 사용하여 다른 에이전트의 결론을 검토, 테스트, 반박할 수 있습니다.

이 3계층 아키텍처는 코드 실행 오류가 실패가 아닌 신호임을 의미합니다. 샌드박스에서 AssertionError 또는 TypeError를 받은 LLM은 모호한 주관적 평가가 아닌 추론 수정에 사용할 수 있는 결정적 피드백을 얻습니다.

왜 이것이 패러다임 전환입니까?

이전 프레임워크는 「추론」(LLM이 텍스트에서 하는 것)과 「행동」(에이전트가 환경에서 하는 것)을 분리했습니다. 이 논문은 그것이 거짓 경계라고 주장합니다——실행 가능한 코드는 둘을 통합합니다. 에이전트가 해 공간을 검색하는 Python 루프를 작성할 때 동시에 계획(코드 구조), 행동(실행), 검증(assert 문, 테스트)을 수행합니다. 생각과 검증 사이에 일시 중지가 없습니다.

연구자들은 이것이 가장 단순한 코드 어시스턴트부터 구현된 로봇까지 적용된다고 강조합니다: 모든 도메인에서 코드는 에이전트 행동을 재현 가능하고, 이전 가능하며, 감사 가능하게 만드는 공통 분모입니다. 코드는 세 가지 조건을 동시에 충족하는 유일한 형식적 기반이라고 그들은 주장합니다.

아직 열린 문제는 무엇입니까?

저자들은 여섯 가지 중요한 과제를 식별합니다. 에이전트 평가는 여전히 추론 프로세스 자체의 품질이 아닌 작업 메트릭에 과도하게 의존합니다. 불완전한 피드백 조건에서의 검증——샌드박스가 모든 엣지 케이스를 다룰 수 없는 경우——은 해결되지 않은 채로 있습니다. 회귀 방지가 특히 강조됩니다: 새로운 기술을 배운 에이전트가 기존 기술을 저하시키지 않도록 어떻게 보장합니까? 다중 에이전트 환경에서 공유 코드를 통한 일관된 전역 상태 관리는 근본적인 동기화 문제를 제기합니다. 마지막으로 안전 중요 응용에서는 인간 감독이 하네스 자체에 포함되어야 합니다——이는 절차적 문제가 아닌 아키텍처 문제입니다.

이 논문은 에이전트를 구축하는 연구자와 엔지니어에게 독특한 프레임워크를 제공합니다: 「어떤 LLM을 사용해야 하는가」라고 묻는 대신, 「코드가 모델과 현실 세계 사이의 신뢰할 수 있는 매체가 되도록 하네스를 어떻게 구조화하는가」라는 질문이 더 적절합니다.

자주 묻는 질문

에이전트 하네스란 무엇이며 코드가 이상적인 이유는 무엇입니까?

에이전트 하네스는 LLM에 추론 구조, 행동 도구, 결과 검증 메커니즘을 제공하는 운영 기반입니다. 코드는 형식적으로 정확하고 기계 실행 가능하며, 에이전트가 추론과 검증 루프를 닫는 데 필요한 상태, 행동, 피드백을 자연스럽게 설명하기 때문에 이상적입니다.

실행 가능한 코드는 LLM 추론을 어떻게 향상합니까?

LLM이 검증할 수 없는 자유 텍스트를 생성하는 대신, 코드는 모델에 단계의 명시적 기록(계획)을 강제하고, 샌드박스에서의 실행(검증)을 가능하게 하며, 정확성에 대한 결정적 신호를 반환합니다. 실행 오류는 신호입니다——실패가 아닙니다. 이를 통해 추론이 잠재 공간에서 감사 및 수정 가능한 공간으로 이동합니다.

에이전트 하네스로서의 코드 패러다임은 어떤 도메인을 다룹니까?

연구자들은 코드 어시스턴트, GUI/OS 자동화, 구현된 에이전트(로봇, 시뮬레이션), 과학적 발견, 개인화된 시스템, DevOps, 엔터프라이즈 워크플로에서의 응용을 분석했습니다. 공통점은 항상 같습니다——실행 가능한 코드가 LLM과 환경 사이의 인터페이스.

arXiv:2605.18747: 운영 기반으로서의 코드——AI 에이전트의 새로운 패러다임

에이전트 하네스란 무엇입니까?

왜 이것이 패러다임 전환입니까?

아직 열린 문제는 무엇입니까?

자주 묻는 질문

출처

관련 뉴스