SEAエージェント：形式的安全保証付きの自己改善

SEA（Self-Evolving Agents with Anytime-Valid Certificates）アーキテクチャは、形式的な学習理論的保証を維持しながらエージェントが自身のパラメータを更新できるようにする。5つの検証メカニズムと監査可能な証明書が各自己修正をリアルタイムで承認または却下し、SWE-bench Verified評価では強力なベースモデル上で+4〜+5のインスタンス解決を達成した。

研究者のBiswa Senguptaは2026年7月1日、AI エージェント開発における根本的な緊張を解決するSEA（Self-Evolving Agents with Anytime-Valid Certificates）アーキテクチャを発表した。形式的な安全保証を犠牲にせずに自己修正を可能にするという課題だ。

監視なき自己修正の問題

自身の重みや制御メカニズムを更新できるエージェントは、古典的な学習理論の基本的な前提を破る。エージェントが自身の学習データを自ら生成し、そのデータの質を自ら評価する場合、標準的な統計的フレームワークは機能しなくなる——変更が有益であることを確認する独立した評価者がいない。

これまでのアプローチは、自己修正を禁止する（適応の可能性を失う）か、制御されない自己改善を受け入れる（予測不可能な動作を受け入れる）かのいずれかで問題を解決してきた。

SEA：形式的ゲートを持つアーキテクチャ

SEAはこの緊張を3つのレベルで解決する。

第一に、「ブラストラジウス」の制限：すべての自己修正は凍結されたベースモデルを囲むステアリングアダプターのみに限定される。モデルの基本的な重みは決して変更されない——これは完全に間違った自己修正のシナリオでも、モデルの基本的な能力が損なわれないことを意味する。

第二に、外部評価者を必要とせずに各修正の承認または拒否のシグナルを生成する5つの検証メカニズム：

Best-of-N選択 — 複数の候補修正を比較する
マイクロステップ探索 — 適応空間の細粒度探索
自己記述オラクル — エージェントが自身の修正のためのテストを構築する
探索レイヤー制御 — 探索の深さと方向の監視
自己修正 — リアルタイムの回帰検出と修正

「Anytime-valid証明書」とは何か？

第三の柱は統計的なものだ。SEAは各提案された自己修正に対して監査可能な証明書を発行するanytime-valid統計ゲートを使用する。証明書は修正が事前に決定されたエラー予算を超えないことを確認する——評価期間の終わりだけでなく、プロセスの任意の時点で。

「Anytime-valid」は評価がいつ停止されても結論が有効であることを意味する——事前に決められたステップ数は不要だ。これはエージェントがリアルタイムで動作し、自己修正に関する決定を継続的に行わなければならないデプロイシナリオで重要だ。

SWE-bench Verifiedでの結果

SEAは4つのベースモデルを通じて52インスタンスのSWE-bench Verifiedサブセットでテストされた。主要な発見：ベースモデルの質が支配的な要因——SEAは強いモデルの能力を増幅するが、弱いモデルの弱点を隠すことはしない。

強いベースモデルでno-op制御と比較して、SEAは**+4〜+5の追加解決インスタンス**を達成する。具体的な結果：GLMが24から28の解決インスタンスに改善、GPTが29から34に改善。イベントログは、検証メカニズムがテスト中にパフォーマンスの回帰を積極的に防いだことを確認した。

研究者たちは、タスクのコストにより評価は1回の反復で実施され、実行間の分散の確認は将来の研究に委ねられると注記している。

SEAは自己改善と安全管理が対立していないことを示している——形式的な認証はオペレーショナルエージェントの境界内で実用的かつ有用だ。

よくある質問

SEAはこれまでの自己改善エージェントと何が違うか？

SEAは自由な自己修正を許可しない——すべての変更は監査可能な証明書を発行し、事前に決定されたエラー予算を超える修正をブロックするanytime-valid統計ゲートを通過する。

「ブラストラジウス」はどう制限されるか？

SEAはすべての変更を凍結されたベースモデルを囲むステアリングアダプターに限定し、潜在的に有害な自己編集がモデルの基本的な重みを変更できないようにする。

SEAはSWE-bench評価でどれほどパフォーマンスを改善したか？

4つのベースモデルでテストされた52インスタンスのSWE-bench Verifiedサブセットで、SEAは強いベースモデルで+4〜+5の追加解決インスタンスを達成した——GLMが24から28、GPTが29から34に改善した。

SEA：リアルタイムの形式的安全保証を持つ自己修正エージェント

監視なき自己修正の問題

SEA：形式的ゲートを持つアーキテクチャ

「Anytime-valid証明書」とは何か？

SWE-bench Verifiedでの結果

よくある質問

出典

関連ニュース