AgentTrust：AIエージェントのためのランタイムセーフティ

AgentTrustはオープンソースのランタイムシステムで、AIエージェントのツール呼び出し（ファイル操作、SQLクエリ、シェルコマンド）を実行前に傍受し、4つの判定の1つを返します。930のテストシナリオで95〜97%の精度を達成し、シェル難読化攻撃では約93%の精度を示しました。

arXivで公開された新しい論文は、AIエージェントとそのツールの間に置かれ、実行前に各呼び出しをリアルタイムで評価するランタイムセキュリティレイヤー「AgentTrust」を紹介しています。このシステムは、エージェントがオペレーティングシステムや外部サービスへの広範なアクセスを得た場合に生じる脆弱性を標的としています。

AgentTrustは何を許可するか、どのように決定しますか？

各受信ツール呼び出しに対して、AgentTrustは許可、警告、ブロック、レビューの4つの判定の1つを返します。アーキテクチャはシェル難読化解除ノーマライザー、より安全な代替案を提案するSafeFixコンポーネント、多段階攻撃チェーンを検出するRiskChainディテクター、疑わしい入力向けのキャッシュ対応LLMアズジャッジレイヤーを組み合わせています。対応するツールにはファイル操作、SQLクエリ、シェルコマンドが含まれ、これらは本番エージェントシステムにおける最も一般的な攻撃面の3つです。

システムの精度はどれくらいですか？

評価は合計930のシナリオで実施されました。6つのリスクカテゴリにわたる300の内部シナリオと、実世界からの630の独立して構築されたアドバーサリアルシナリオです。本番ルールセットは内部ベンチマークで95.0%の判定精度、73.7%のリスクグレード精度を達成し、レイテンシは数ミリ秒の範囲です。630シナリオのセットでAgentTrustは96.7%の精度に達しており、単純なフィルターを通常回避するシェル難読化ペイロードでは約93%の精度を示しました。

オープンソース提供は何を意味しますか？

著者（Chenglin Yang）はAgentTrustをAGPL-3.0ライセンスで公開しており、派生作品に同じオープンソース共有を義務付けています。システムはMCPサーバー（Model Context Protocol——LLMから外部ツールを呼び出すためのオープン標準）として提供されるため、エージェントコードを変更することなくMCPをサポートするあらゆるエージェントに接続できます。これにより、既存のエージェントワークフローにランタイム制御を導入するための敷居が下がります。

よくある質問

AgentTrustは何を傍受しますか？

システムはAIエージェントのツール呼び出し（具体的にはファイル操作、SQLクエリ、シェルコマンド）を実行前に傍受し、リアルタイムで許可または停止を決定します。

AgentTrustはどのような判定を返しますか？

4つの可能な判定：許可（allow）、警告（warn）、ブロック（block）、人間レビューへ送信（review）です。また、より安全な代替案を提案するSafeFixコンポーネントもあります。

どのライセンスで利用できますか？

システムはAGPL-3.0オープンソースライセンスで公開され、MCPサーバーとして提供されるため、Model Context Protocolをサポートするすべてのエージェントと互換性があります。

arXiv:2605.04785: AgentTrustがAIエージェントのツール呼び出しを95〜97%の精度で傍受

AgentTrustは何を許可するか、どのように決定しますか？

システムの精度はどれくらいですか？

オープンソース提供は何を意味しますか？

よくある質問

出典

関連ニュース