ArXiv：Hodoscope — 事前定義されたエラーカテゴリなしでAIエージェントを監視

どのような種類のエラーを探しているか事前にわからない場合、AIエージェントをどのように監視すればよいのでしょうか？Hodoscopeはまさにこの問題を解決します——可能なエラーのカテゴリを定義する必要なく、AIエージェントの不審な行動を検出します。

教師なしアプローチ

特定の既知の問題を探す従来のツールとは異なり、Hodoscopeは教師なしアプローチを採用しています。エージェントのグループ間で行動の分布を比較し、統計的に有意な偏差を自動的に特定します。あるグループが他のグループと著しく異なる行動を示す場合、システムはそれをレビュー対象としてフラグを立てます。

具体的な成果

Hodoscopeはテストで印象的な結果を達成しました：

Commit0ベンチマークで以前は未知だった脆弱性を発見——整理されていないgit履歴により、エージェントがアクセスすべきでない情報にアクセスできていました
ImpossibleBenchおよびSWE-benchベンチマークでの既知のエクスプロイトの再現に成功しました
ランダムサンプリングと比較して、必要な人的レビューを6〜23倍削減しました
発見されたパターンは、自動評価のためのLLMベースの審査員の精度も向上させました

なぜこれが重要なのか？

AI安全性は現在、可能な脅威の手動定義に依存していますが、新しいタイプのエージェントは予想されなかった行動を示す可能性があります。Hodoscopeは、事前に準備されたものだけでなく、未知の問題を発見できるプロアクティブな監視への転換を表しています。AIエージェントが実際のシステムにアクセスしながら、ますます複雑なタスクを引き受ける中で、これは特に重要です。

ArXiv：Hodoscope — 事前定義されたエラーカテゴリなしでAIエージェントを監視

教師なしアプローチ

具体的な成果

なぜこれが重要なのか？

出典

関連ニュース