arXiv:2605.16233: FORGE――ファインチューニングなしでAIエージェントが共有メモリを獲得する手法
arXiv:2605.16233は、モデルの重みを一切更新せずにLLMエージェントが集団的な経験の共有を通じて共有メモリを構築するFORGEを提案しています。ネットワーク防御タスクCybORG CAGE-2においてゼロ基準より1.7〜7.7倍の性能向上を達成し、能力の低いモデルで特に顕著な改善が見られました。
この記事はAIにより一次情報源から生成されました。
カールトン大学とカナダ国防省の研究チームがFORGE(Failure-Optimized Reflective Graduation and Evolution)を発表しました。これは、モデルのパラメータを一切変更せずにLLMエージェントが集団的にメモリを構築・共有するシステムです。参照ネットワーク防御タスクにおける結果では、ゼロ基準と比較して1.7〜7.7倍の性能向上が示されています。
課題:柔軟性を犠牲にする高コストな学習
LLMエージェントを改善する標準的なアプローチはファインチューニングです。これは勾配降下法アルゴリズムを使用して、特定のデータセットでニューラルネットワークの数十億のパラメータを更新するプロセスです。このプロセスにはGPU時間、ラベル付きサンプル、そしてトレーニング時点でのモデルの固定が必要です。新しいドメインやタスクごとに新たな学習ラウンドが必要になります。
FORGEは別のアプローチを取ります。モデル自体を変更する代わりに、共有メモリ――自然言語の形でエージェントのプロンプトに注入される共通のテキストルールとデモンストレーションのベース――を構築します。
FORGEはどのようにファインチューニングを回避するのか
システムは2つの連結したサイクルで動作します。内側のループは、失敗したエピソードを観察することで再利用可能な「知識アーティファクト」を生成します――テキストのヒューリスティック(Rules)または成功した行動の具体的なデモンストレーション(Examples)です。外側のループは、進化フェーズ間で最良のエージェントのメモリを集団全体に伝播し、収束に達したエージェントは「卒業」して固定されます。
重要なメカニズムはまさに集団ブロードキャストです。知識は一つのエージェントに閉じ込められず、集団的に共有されます。研究者はシミュレーション環境CybORG CAGE-2でGemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick、Qwen3-235Bをテストしました。これは30ステップの視野を持つ確率的POMDPネットワーク防御タスクで、防御者はB-line攻撃者に対応します。
結果:能力の低いモデルが最も恩恵を受ける
FORGEは孤立したReflexionベースラインを29〜72%上回り、壊滅的なエラー率を約**1%**に引き下げました(ゼロベースラインでの極めて低い報酬と比較して)。興味深いことに、Rulesバリアントは同等の結果を得つつ約40%少ないトークンで済む一方、Examplesバリアントはテストした4モデルのうち3つで優位です。
特に重要な知見は、能力の低い基盤モデルが不均衡なほど大きな利益を得るという点です。FORGEは実質的に、小規模モデルの限られた能力を、集団的に構築された経験によって補います。これにより、強力なモデルのデプロイが経済的またはレイテンシの観点から困難な場面で、ドメイン知識を共有メモリにカプセル化できるという用途への扉が開かれます。
この研究は、サイバー防衛などの専門的なドメインでは、特にドメインルールが急速に変化する場合に、集団的メモリが高コストなファインチューニングの効果的な代替手段になり得ることを示唆しています。
よくある質問
- FORGEとは何ですか?
- FORGE(Failure-Optimized Reflective Graduation and Evolution)はLLMエージェントのメモリ進化手法です。モデルのパラメータを変更する代わりに、テキストメモリ――ルールとデモンストレーション――を構築し、エージェントのプロンプトに注入して集団全体で共有します。
- なぜエージェントにファインチューニングが不要なのですか?
- FORGEは集団的な経験共有を活用します。グループ内のあるエージェントが有用なヒューリスティックやデモンストレーションを学ぶと、その知識は進化フェーズ間において共有メモリメカニズムを通じて他のすべてのエージェントに伝播されます。勾配更新はなく、知識はネットワークの重みではなく自然言語として保持されます。
- FORGEはどのモデルでテストされましたか?
- Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick、Qwen3-235Bでテストされました。能力の低いモデルが相対的により大きな改善を示しており、FORGEが基盤モデルの能力不足を補完できることが示唆されています。