ArXiv AgentFloor:小型オープンウェイトモデル(0.27B-32B)が短期エージェントタスクに十分、GPT-5は長期計画のみで優位を維持
Ranit KarmakarとJayita ChatterjeeがAgentFloorを発表しました——6つの能力レベルに構成された30タスクの決定論的ネットワークで、0.27Bから32Bのパラメーター範囲の16のオープンウェイトモデルとGPT-5を評価しています。結論:小型モデルは短期・構造化されたエージェントタスクには既に十分であり、フロンティアモデルは制約のある長期計画においてのみ明確な優位を維持します。