GitHub：支配節点解析でAIエージェント検証、精度100%

GitHubが非決定論的AIエージェント向けの検証フレームワークを発表しました。コンパイラ理論の支配節点解析（Dominator Analysis）を借用し、Copilot Coding Agentの2〜10回の成功実行からどのステップが必須でどれがオプションかを学習し、エージェントのバグと真のプロダクトリグレッションの区別で100%の精度を達成します。

GitHubの研究チームは、CI/CDパイプラインにおけるAIエージェントの非決定論的な動作問題を解決するために、**コンパイラ理論の支配節点解析（Dominator Analysis）**を借用した検証フレームワークを発表しました。従来のテストは決定論的な実行パスを前提としていましたが、Copilot Coding Agentのようなエージェントは異なる有効な実行経路を辿ることが多く、環境のバリエーション（ローディング画面、タイミングのずれ、UIレンダリングの差異）が偽陰性を生み出します。

支配節点解析とはどのようなものか、エージェントにどう適用されるか？

支配節点解析（Dominator Analysis）はコンパイラ理論の技術です——実行グラフにおいて、Bへの全成功経路がAを通過しなければならない場合、状態AはBを「支配する」と言います。GitHubのフレームワークは2〜10回の成功したエージェントトレースを取得し、プレフィックスツリーアクセプター（PTA）——観察された状態をノード、エージェントの行動をエッジとする有向グラフ——に変換して、支配集合を計算し、必須の制御点とオプションノイズを分離します。

システムは3層の状態等価性評価を使用します。視覚的指標（知覚ハッシュ、SSIM）、タイムスタンプを無視しながら欠落したUIコントロールを記録するマルチモーダルLLMによる意味論的分析、そして等価性が確実な場合のみの保守的な状態マージです。

エージェント自己評価と比較してどんな効果が測定されたか？

VS Code拡張機能の内部テストセットでは、支配節点解析を使ったPTAアプローチが**精度100%、適合率100%、再現率100%**を達成しているのに対し、エージェント自身の評価は精度82.2%、適合率83.3%、再現率60%にとどまります。差は再現率が最も顕著で——約40ポイント——エージェントが自らのミスを頻繁に見落とすことを意味します。

さらに重要なのは、エージェントの自己評価が偽警報検出でF1スコア0%であるのに対し、構造的フレームワークはエージェントの実行エラーと真のプロダクトリグレッションの区別で52.2%のF1を達成していることです。実際には、タイミングが変化しただけでプロダクトの実際の動作は変わっていない場合に、CIシステムが開発者に偽のバグを追わせることがなくなります。

フレームワークの現在の限界は何か？

システムは学習に成功トレースが必要（コールドスタート問題）、意味的等価性のためにマルチモーダルLLMへのアクセスが必要、またローディング画面の長すぎる表示のような時間的違反にはまだ対応できません。計画中の開発には、時間的・否定的制約の検出、スクリーンショットの概念への階層的抽象化、リアルタイムモデル更新のオンライン学習が含まれます。

著者のGaurav Mittal（Microsoft Code AI）とReshabh Kumar Sharma（UWの博士学生）は中心的主張を強調しています。「ブラックボックスを評価するためにブラックボックスモデルは必要ない——開発者が検査できる構造的保証が必要だ。」

よくある質問

支配節点解析とは何ですか？

支配節点解析（Dominator Analysis）はコンパイラ理論の技術で、実行グラフにおいてBへの到達前にAを必ず通過する場合、AがBを「支配する」と言います。ここではエージェントのトレースに適用し、必須の制御点と偶発的なバリエーションを分離します。

フレームワークの学習に必要なトレース数はいくつですか？

2〜10回の成功したエージェント実行があれば十分です。システムはプレフィックスツリーアクセプター（PTA）を構築し、意味的に等価な状態をマージして、最小の「基準真実」モデルを抽出します。

CI/CDパイプラインにおける主な利点は何ですか？

環境のバリエーション（ローディング画面、タイミング、UIレンダリング）による偽陰性の削減です。エージェントの自己評価は偽警報検出のF1が0%であるのに対し、構造的フレームワークは52.2%に達します。

GitHub：コンパイラ理論の支配節点解析でエージェント動作を検証、精度100% vs エージェント自己評価82%

支配節点解析とはどのようなものか、エージェントにどう適用されるか？

エージェント自己評価と比較してどんな効果が測定されたか？

フレームワークの現在の限界は何か？

よくある質問

出典

関連ニュース