🟡 🤖 モデル 2026年5月5日火曜日 · 3 分で読めます ·

ArXiv AgentFloor:小型オープンウェイトモデル(0.27B-32B)が短期エージェントタスクに十分、GPT-5は長期計画のみで優位を維持

編集イラスト:異なるレベルに異なるサイズのモデルが配置された能力のはしご、ツール使用評価の象徴

Ranit KarmakarとJayita ChatterjeeがAgentFloorを発表しました——6つの能力レベルに構成された30タスクの決定論的ネットワークで、0.27Bから32Bのパラメーター範囲の16のオープンウェイトモデルとGPT-5を評価しています。結論:小型モデルは短期・構造化されたエージェントタスクには既に十分であり、フロンティアモデルは制約のある長期計画においてのみ明確な優位を維持します。

🤖

この記事はAIにより一次情報源から生成されました。

Ranit KarmakarとJayita Chatterjeeは2026年5月1日にArXivで論文**「AgentFloor: How Far Up the Tool-Use Ladder Can Small Open-Weight Models Go?」**を発表しました。論文の目的は、実際のエージェントタスクにおける小型オープンウェイトモデルの限界を実証的に確認し、より高価なフロンティアモデルが見合う場面を特定することです。

AgentFloorベンチマークの構造は?

AgentFloorは30タスクの決定論的ネットワークで、6つの能力レベルに構成されています。レベルは以下をカバーします:

  • 命令遵守(基本的な読み取りと実行)
  • ツール使用(単一のツールコール、明確な入力)
  • マルチステップ協調(ツールコールのシーケンス)
  • 持続的な制約のある長期計画(実行中に変化するタスク)
  • 複雑さを段階付ける2つの中間レベル

ネットワークの決定論性は重要です:結果は再現可能であり、ベンチマークのランダム性の産物ではありません。これにより、AgentFloorは標準的なエージェントベンチマークにしばしば存在するノイズなしでモデルを比較する純粋な測定ツールになります。

0.27Bから32Bのパラメーター範囲の16のオープンウェイトモデルと、フロンティア参照としてのGPT-5が評価されました。16モデルの具体的なリストは公開要旨には記載されていませんが、範囲は小型のオンデバイスモデルからコンシューマーGPUで動作可能な中型オープンウェイトLLMまでをカバーします。

著者たちは何を発見したか?

主な発見は簡潔に表現できます:「小型のオープンウェイトモデルは既に十分です」、ルーティンなツール使用について。強力なオープンウェイトモデル(おそらく14B-32Bのパラメーター範囲)は短期・構造化されたタスクでGPT-5と同等のパフォーマンスを示します

差は持続的な制約のある長期計画においてのみ明確になります——エージェントが数十ステップを通じてコンテキストを維持し、メタ状態(例:残り予算)を追跡し、制約が変わるにつれて戦略を調整する必要があるタスクです。そこではGPT-5が依然としてリードしています。

これはハイブリッドアーキテクチャをエンタープライズエージェントの合理的なデザインとして確認するパターンです:

  • 小型モデル(0.27B-7B)でルーティン——チェック、ワンショット検索、フォーマット
  • 中型モデル(14B-32B)で標準的なツールコールと短期協調
  • フロンティアモデル(GPT-5レベル)は制約のある長期計画を必要とするタスクにのみ

これはエージェントシステムのコスト構造にとって何を意味するか?

エンタープライズ予算への影響は重要です。典型的なエージェントワークフローは80-90%の呼び出しをルーティンに使います——データ取得、応答のフォーマット、条件分岐。この80-90%をローカルの7B-32Bオープンウェイトモデルにリダイレクトできれば、インフラコストはオールフロンティアのデプロイメントと比べて丸一桁下がります。

フロンティアモデルは実際に差をもたらす10-20%の呼び出しのみのために残されます。これはすでにいくつかのテック企業が実践しているデザインですが、AgentFloorは境界がどこにあり、どのモデルを選ぶかという議論の最初の定量的な根拠を提供しています。

論文はArXivでID 2605.00334として公開されています。

よくある質問

AgentFloorが測定する3つの能力レベルは何ですか?
6つのレベル:命令遵守、ツール使用、マルチステップ協調、持続的な制約のある長期計画、さらに複雑さを段階付ける2つの中間レベル。ネットワークには6つのレベルに分散した30の決定論的タスクが含まれます。
評価されたモデルの範囲は?
0.27Bから32Bのパラメーター範囲の16のオープンウェイトモデル、プラスフロンティア参照としてのGPT-5。16モデルの具体的なリストは公開要旨には記載されていませんが、小型のオンデバイスモデルからコンシューマーGPUで動作可能な中型オープンウェイトLLMまでのスペクトルをカバーします。
フロンティアモデルが依然として優位を持つのはいつですか?
持続的な制約のある長期計画においてです——エージェントが数十ステップにわたってコンテキストを維持し、制約が変わるにつれて戦略を調整する必要があるタスクです。短期の構造化されたタスクでは差が大幅に縮まります。