🟡 🤝 エージェント 公開日: · 2 分で読めます ·

arXiv:2605.06642:StraTA——階層的GRPOを用いたエージェントRLがALFWorldで93.1%を達成

arXiv:2605.06642 ↗

Editorial illustration: 2605.06642: StraTA — agentic RL s hijerarhijskim GRPO postiže 93.1% na ALFWorldu

StraTA frameworkはエージェントRL訓練に階層的GRPOロールアウト設計を導入します。モデルはまず高レベルの戦略を生成し、その枠組みの中でアクションを実行します。結果:ALFWorld 93.1%、WebShop 84.2%、SciWorld 63.5%。SciWorldではクローズドソースのフロンティアシステムを上回り、軌跡抽象が反応型エージェントの弱点を解決することを証明しました。

🤖

この記事はAIにより一次情報源から生成されました。

「StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction」(Xueら、arXiv:2605.06642)は2026年5月7日に発表され、アクションを実行する前に明示的な戦略計画を通じてLLMエージェントをRL訓練する新しいアプローチを提示しています。上海AIラボとオックスフォード大学のチームは、1つのベンチマークでクローズドソースのフロンティアシステムを上回る結果を達成しました。

階層的GRPOはどのように機能するのですか?

GRPO(Group Relative Policy Optimization)は、独立したバリューモデルなしにバッチ内のサンプルグループを比較することでポリシーを最適化するRLアルゴリズムです。StraTA はこれを3つのコンポーネントを通じて階層的に適用します。Strategy Samplingが初期状態からコンパクトな戦略計画を生成し、Conditioned Action Executionがその枠組み内でアクションを実行し、Joint Trainingが戦略生成とアクション選択を同時に最適化します。

ベンチマークは何を示していますか?

ALFWorldベンチマーク(テキストの家事タスク)でStraTA は93.1%の成功率を達成します。WebShopベンチマーク(シミュレートされたオンラインショッピング)では84.2%、SciWorld(科学実験)では63.5%の総合スコアに達します。著者らはSciWorldの結果が「クローズドソースのフロンティアモデルを上回る」と強調しており、これはオープンなRLアプローチでは稀なことです。

なぜ軌跡抽象が重要なのですか?

明示的な軌跡レベルの計画は、反応型LLMエージェントの2つの根本的な弱点を解決します。限られた探索能力と、長い意思決定シーケンスを通じたクレジット割り当ての悪さです。モデルがアクション空間を「さまよう」代わりに、戦略がコヒーレントな計画に固定します。多様な戦略探索と批判的自己評価の追加メカニズムがさらに堅牢性を高めます。エージェントシステム開発にとって、StraTA は階層的分解が単なるアーキテクチャの改善ではなく、効率的なRL学習の基盤であることを示唆しています。

よくある質問

GRPOとは何ですか?
GRPO(Group Relative Policy Optimization)は、独立したバリューモデルを必要とせず、同じバッチ内のサンプルグループを比較することでポリシーを最適化するRLアルゴリズムです。StraTA内の階層的変体は、戦略とアクションの2つのレベルでGRPOを適用します。
StraTA は何を解決しますか?
古典的なLLMエージェントは反応型で動作します——計画なしに次のアクションを選択するため、長い意思決定シーケンスを通じたクレジット割り当てが困難です。StraTA は抽象化レイヤーを導入します。モデルはまず戦略的な計画を生成し、その計画内でステップを実行します。
どのベンチマークが使用されましたか?
チームは3つのベンチマークでフレームワークを評価しました。ALFWorld(テキスト環境タスク)、WebShop(オンラインショッピング)、SciWorld(科学実験)です。達成した結果は93.1%、84.2%、63.5%で、SciWorldスコアはクローズドソースのフロンティアモデルを上回ります。