AgentFloor：소형 모델로 루틴 에이전트 작업은 충분

Ranit Karmakar와 Jayita Chatterjee가 AgentFloor를 발표했습니다——6개 능력 수준으로 구성된 30개 작업의 결정론적 네트워크로, 0.27B에서 32B 범위의 16개 오픈웨이트 모델과 GPT-5를 평가했습니다. 결론: 소형 모델은 단기적이고 구조화된 에이전트 작업에 이미 충분하며, 프런티어 모델은 제약이 있는 장기 계획에서만 명확한 우위를 유지합니다.

Ranit Karmakar와 Jayita Chatterjee는 2026년 5월 1일 ArXiv에 논문 **「AgentFloor: 소형 오픈웨이트 모델이 도구 사용 사다리를 얼마나 올라갈 수 있는가?」**를 발표했습니다. 논문의 목표: 실제 에이전트 작업에서 소형 오픈웨이트 모델의 한계를 실증적으로 확인하고, 더 비싼 프런티어 모델이 가치 있는 때를 특정하는 것입니다.

AgentFloor 벤치마크의 구조는?

AgentFloor는 6개 능력 수준으로 구성된 30개 작업의 결정론적 네트워크입니다. 수준은 다음을 커버합니다:

지시 따르기（기초적인 읽기와 실행）
도구 사용（단일 도구 호출, 명확한 입력）
다단계 조율（도구 호출 시퀀스）
지속적 제약이 있는 장기 계획（실행 중에 변화하는 작업）
복잡성을 단계별로 구분하는 두 가지 중간 수준

네트워크의 결정론성은 중요합니다: 결과가 재현 가능하고 벤치마크 무작위성의 산물이 아닙니다. 이는 AgentFloor를 표준 에이전트 벤치마크가 흔히 갖는 노이즈 없이 모델을 비교하는 순수한 측정 도구로 만듭니다.

0.27B에서 32B 매개변수 범위의 16개 오픈웨이트 모델과 프런티어 참조로서의 GPT-5가 평가되었습니다. 16개 모델의 구체적인 목록은 공개 요약에 기재되지 않았지만, 범위는 소형 온디바이스 모델부터 소비자용 GPU에서 실행 가능한 중형 오픈웨이트 LLM까지를 커버합니다.

저자들이 발견한 것은?

주요 발견은 간략히 표현됩니다: 「소형 오픈웨이트 모델은 이미 충분합니다」, 루틴 도구 사용에 대해. 강력한 오픈웨이트 모델（아마도 14B-32B 매개변수 범위）은 단기적이고 구조화된 작업에서 GPT-5와 동등한 성능을 보입니다.

차이는 지속적 제약이 있는 장기 계획에서만 명확해집니다——에이전트가 수십 단계를 통해 컨텍스트를 유지하고, 메타 상태（예: 남은 예산）를 추적하며, 제약이 변화함에 따라 전략을 조정해야 하는 작업. 그곳에서 GPT-5가 여전히 앞서갑니다.

이는 하이브리드 아키텍처를 엔터프라이즈 에이전트의 합리적인 설계로 확인하는 패턴입니다:

소형 모델（0.27B-7B）로 루틴 작업——검사, 일회성 검색, 포맷팅
중형 모델（14B-32B）로 표준 도구 호출과 단기 조율
프런티어 모델（GPT-5 수준）은 제약이 있는 장기 계획이 필요한 작업에만

이는 에이전트 시스템의 비용 구조에 무엇을 의미하는가?

엔터프라이즈 예산에 미치는 영향은 큽니다. 일반적인 에이전트 워크플로우는 80-90%의 호출을 루틴에 사용합니다——데이터 가져오기, 응답 포맷팅, 조건 분기. 이 80-90%를 로컬 7B-32B 오픈웨이트 모델로 리디렉션할 수 있다면, 인프라 비용이 전면적인 프런티어 배포 대비 한 자릿수 수준으로 떨어집니다.

프런티어 모델은 실제로 차이를 만드는 10-20%의 호출에만 예약됩니다. 이는 일부 기술 회사에서 이미 실천하고 있는 설계이지만, AgentFloor는 경계가 어디에 있는지와 어떤 모델을 선택할지에 대한 첫 번째 정량적 근거를 제공합니다.

논문은 ArXiv에서 ID 2605.00334로 이용 가능합니다.

자주 묻는 질문

AgentFloor가 측정하는 세 가지 능력 수준은 무엇입니까?

여섯 가지 수준: 지시 따르기, 도구 사용, 다단계 조율, 지속적 제약이 있는 장기 계획, 그리고 복잡성을 단계별로 구분하는 두 가지 중간 수준. 네트워크는 이 여섯 수준에 분산된 30개의 결정론적 작업을 포함합니다.

평가된 모델의 범위는 무엇입니까?

0.27B에서 32B 매개변수 범위의 16개 오픈웨이트 모델과 프런티어 참조로서의 GPT-5입니다. 16개 모델의 구체적인 목록은 공개 요약에 기재되지 않았지만, 소형 온디바이스 모델부터 소비자용 GPU에서 실행 가능한 중형 오픈웨이트 LLM까지의 스펙트럼을 커버합니다.

프런티어 모델이 여전히 우위를 갖는 때는 언제입니까?

지속적 제약이 있는 장기 계획에서입니다——에이전트가 수십 단계에 걸쳐 컨텍스트를 유지하고 제약이 변화함에 따라 전략을 조정해야 하는 작업. 단기적이고 구조화된 작업에서는 격차가 크게 줄어듭니다.

ArXiv AgentFloor：소형 오픈웨이트 모델(0.27B-32B)이 단기 에이전트 작업에 충분, GPT-5는 장기 계획에서만 우위

AgentFloor 벤치마크의 구조는?

저자들이 발견한 것은?

이는 에이전트 시스템의 비용 구조에 무엇을 의미하는가?

자주 묻는 질문

출처

관련 뉴스