ArXiv AEM:マルチターンRL エージェントの適応的エントロピー変調がSWE-bench Verifiedで+1.4%を達成
AEM(Adaptive Entropy Modulation)は教師なし学習のトレーニング手法で、マルチターン対話全体のエントロピーを動的に変調することで、LLMエージェントの強化学習における探索と活用のバランスを改善する。1.5Bから32Bパラメータのモデルでテストされ、SWE-bench Verifiedベンチマークで最先端ベースラインに統合した際に1.4%の改善を達成する。
この記事はAIにより一次情報源から生成されました。
Haotian Zhao、Yuxin Zhang、Songlin Zhouらの著者チームがAEM(Adaptive Entropy Modulation)を発表した。これはマルチターンタスクの不安定なトレーニングを直接解決する、強化学習(RL)によるエージェントLLMの教師なしトレーニング手法だ。
AEMが解決する問題とは?
マルチターンエージェントタスクの標準的なRL手法はトレーニングが不安定になりやすい。エージェントは会話の早期ステップと後期ステップで異なる方法で探索と活用のバランスをとる必要があるからだ。早期ステップではエージェントはまだタスクの全体像を探索中であり、後期ステップではすでにシグナルを持ち、最良の解決策を活用する必要がある。固定されたRLハイパーパラメータはこのダイナミクスを捉えられない。
標準的なトークンレベルのエントロピーボーナスはうまく機能しない。個々のトークンのエントロピーは、マルチターンの意味でシステムがどの程度「探索しているか」の不良な代理指標だからだ。
適応的変調の仕組みは?
AEMは個々のトークンではなく応答レベルでエントロピーを分析する。著者たちは2つのシグナルに導かれた探索から活用への自然な移行を可能にする実用的な代理指標を導出する:
- Advantage——応答がベースラインポリシーよりどれだけ優れているかの評価
- Relative response surprisal——現在のモデルにとって応答がどれほど「予想外」か
このシステムは教師なしである——「いつ探索すべきか」の手動アノテーションを必要とせず、自律的にトレーニング状態を測定する。
どのモデルとベンチマークか?
実験は15億から320億パラメータのモデルをカバーする。主な評価はプログラミングタスクにおけるエージェントLLMの業界標準であるSWE-bench Verifiedで行われる。
結果:AEMを最先端ベースラインに統合すると1.4%の絶対的な改善を達成する。これは堅実だが劇的ではない改善であり——追加の教師信号や基礎的なRL定式化の変更なしに得られることに意義がある。
このトレンドが示すものは?
AEMはArXivで過去2週間にエージェントシステムのRLトレーニングに関する5本目の論文だ——以前のLatent-GRPOやExploration Hackingと並ぶ。この分野はマルチターントレーニングの安定化に集中的に取り組んでおり、これは信頼性の高い本番エージェントの前提条件だ。AEMの教師なしアプローチは、必要量の手動アノテーション付きトレーニングデータを収集できない研究室にとって特に魅力的だ。
よくある質問
- LLMのRLトレーニングにおけるエントロピーとは何か?
- 次のトークンまたは応答選択における不確実性の尺度——エントロピーが高いほど多様なオプションを探索し、低いほど学習済みパターンを活用することを意味する。
- なぜAEMはトークンレベルではなく応答レベルでエントロピーを変調するのか?
- トークンレベルのエントロピーはマルチターンエージェント行動の質と相関が低い。応答レベルの分析は、探索から活用への移行タイミングを示すより精確な代理指標を提供する。
- SWE-bench Verifiedとは何か?
- ソフトウェアエンジニアリングタスクにおけるエージェントLLMを評価する業界標準ベンチマーク——実際のGitHub issueのソリューションを検証する。