ArXiv AgentFloor:소형 오픈웨이트 모델(0.27B-32B)이 단기 에이전트 작업에 충분, GPT-5는 장기 계획에서만 우위
Ranit Karmakar와 Jayita Chatterjee가 AgentFloor를 발표했습니다——6개 능력 수준으로 구성된 30개 작업의 결정론적 네트워크로, 0.27B에서 32B 범위의 16개 오픈웨이트 모델과 GPT-5를 평가했습니다. 결론: 소형 모델은 단기적이고 구조화된 에이전트 작업에 이미 충분하며, 프런티어 모델은 제약이 있는 장기 계획에서만 명확한 우위를 유지합니다.