🟡 🛡️ セキュリティ 2026年4月25日土曜日 · 3 分で読めます

Anthropicが選挙安全措置を更新:Claude Opus 4.7とSonnet 4.6が政治的中立性評価で95〜96%を達成

編集イラスト:Anthropicの選挙安全措置——Claude中立性評価

なぜ重要か

Anthropicは2026年の米国中間選挙に向けた選挙安全措置の評価を更新しました。Claude Opus 4.7は95%、Sonnet 4.6は96%の政治的中立性テストスコアを獲得。600のプロンプトを基にしたテストで、コンプライアンス率は99.8〜100%でした。

Anthropicは2026年の米国中間選挙に向けた選挙安全措置の更新戦略を発表しました。これにはClaudeモデルOpus 4.7とSonnet 4.6の最新の政治的中立性評価が含まれています。最新モデルは政治的バランス評価で95%(Opus 4.7)と96%(Sonnet 4.6)を達成しました。この評価は、モデルが政治的スペクトルの両側の議論に対して同等の深さと分析的厳密さを提供するかどうかを測定するものです。

この発表は、2024年と2025年のディープフェイクキャンペーンや偽情報の自動拡散事件を受けて、AI企業に対してモデルが選挙サイクルで悪用されることを防ぐよう求める規制上の圧力が高まる中で行われました。

Anthropicは何を正確に測定しましたか?

評価は600のプロンプトに基づいています——正当な選挙リクエスト(政策解釈、候補者比較、選挙プロセスの説明)を表す300と、有害なリクエスト(偽情報の生成、声明の捏造、影響工作の試み)を表す300です。モデルは4つの主要基準でテストされました:政治的バランス、正当なリクエストへのコンプライアンス、有害なリクエストへの耐性、そしびウェブ検索の活性化。

コンプライアンステストでは、Opus 4.7が正当なリクエストに対して100%、Sonnet 4.6が**99.8%**を達成しました。両モデルとも99.8〜100%のケースで有害なリクエストを拒否しました。影響力工作への耐性——モデルを偏ったコンテンツの生成に誘導しようとする試み——はOpus 4.7が94%、Sonnet 4.6が90%でした。

自動分類器はどのように機能しますか?

Anthropicは専任の脅威インテリジェンスチームが支援する自動分類器を使用して、ポリシー違反の可能性を検出しています。分類器はリアルタイムでクエリをスキャンし、協調的な悪用の試みを示すパターン(政治的コンテンツの大量生成、候補者へのなりすまし、投票インフラに関する情報の抽出)をフラグ立てします。

分類器と並行して、企業は政治的中立性をモデルのキャラクタートレーニングプロセスとシステムプロンプトに組み込みました。これは、この行動が事後フィルタリングだけに依存するのではなく、モデルの「個性」の一部であることを意味します。

TurboVoteバナーとは何ですか?

ユーザーが選挙の実際の手続きについて質問する場合——有権者登録、投票場所、投票用紙——ClaudeはTurboVote(Democracy Worksの無党派サービス)へ誘導するバナーを表示します。このアプローチは業界のより広いトレンドを反映しています:AIモデルを選挙情報の権威ある情報源として位置付ける代わりに、大手企業は検証済みの非政府リソースへユーザーを誘導しています。

興味深いことに、2026年中間選挙に関連するクエリのウェブ検索は、Opus 4.7で92%、Sonnet 4.6で**95%**のケースで活性化しました。これはモデルがそのような質問の時間的感度を認識していることを示唆しています。

これはより広い文脈でどのような意味を持ちますか?

AnthropicのドキュメントはOpenAIとGoogleの2026年初頭のコミュニケーションパターンに倣い、企業が選挙準備評価を積極的に公表しています。規制枠組み——特にEUのDSAとAI法——は、選挙サイクル中の偽情報防止措置についての透明性を要求しています。

Claudeモデル上でアプリケーションを構築する開発チームにとって、これらの結果はAnthropicが選挙コンプライアンスの負担の一部を引き受けることを意味します。同時に、使用ポリシーがClaudeを欺瞞的な政治キャンペーンの実行、選挙コンテンツの捏造、投票に関する偽情報の拡散に使用することを明示的に禁止していることも再確認されます。これらの領域に入るアプリケーションはAPIキーの停止に直面します。

🤖

この記事はAIにより一次情報源から生成されました。