Anthropicがポリシーフレームワーク『Trustworthy agents in practice』を発表

エージェント時代のポリシーフレームワーク

Anthropicは、研究/ポリシーセクションで「Trustworthy agents in practice」を公開しました。これは、AIエージェントを信頼できるものにするものは何か、そして企業がリスクを最小限に抑える方法でエージェントを構築および使用する方法を定義する包括的な文書です。

この発表は、AIエージェントが急速に商業化されている時期に行われました。Claude Cowork、OpenAI Codex、Microsoft Agent-Framework、AWS AgentCore、Anthropic Managed Agents — すべてが強力なエージェント機能を提供していますが、信頼性に関する問題は未解決のままです。

文書には何が含まれていますか？

Anthropicは、「信頼できる」エージェントをいくつかの次元で構造化しています。

予測可能性 — エージェントは一貫して振る舞い、エッジケースで即興することはありません
監査可能性 — すべての決定とアクションは事後に確認できます
境界 — エージェントに何が許可され、何が禁止されているかが明確に定義されています
エスカレーション — エージェントが人間に承認を求めなければならないルール
可逆性 — エージェントは可能な限り可逆的なアクションを実行します

なぜ今なのでしょうか？

Anthropicには直接的な商業的利害があります。Claude Mythosは、OSの脆弱性を自律的に発見して悪用できるAIを実証しています。Project Glasswingは、その機能を40の選ばれた組織にのみ配布しています。

Trustworthy agentsフレームワークはその戦略の伴走者です。Anthropicが世界で最も強力なエージェントを構築するのであれば、それらがどのように安全に使用されるかの基準を設定しなければなりません。そうでなければ、規制当局（EU AI法、NIST）が代わりに基準を設定することになります。そして、それは業界が望むよりも厳しいものになる可能性があります。

実践的な推奨事項

この文書は、次のような具体的な推奨事項のシリーズで締めくくられています。

エージェント開発者向け — パーミッションシステムとガードレールの設計方法
エンタープライズユーザー向け — デプロイ前にエージェントを評価する方法
規制当局向け — エンタープライズAI基準で求めるべきもの

Anthropicはこれまで、「機能としてのAI安全性」に対して一貫した声を発してきました。Trustworthy agents in practiceはその戦略の延長であり、将来の規制に影響を与える可能性のある文書です。

Anthropicがポリシーフレームワーク『Trustworthy agents in practice』を発表

エージェント時代のポリシーフレームワーク

文書には何が含まれていますか？

なぜ今なのでしょうか？

実践的な推奨事項

出典

関連ニュース