AISafetyBenchExplorerとは何ですか？

2018年から2026年の195のAIセーフティベンチマークの構造化カタログで、AIシステムのセキュリティ評価ツールの方法論、メトリクス、スコープの比較を可能にします。

ベンチマークの断片化が問題である理由は何ですか？

異なるベンチマークが同じ用語（「safety score」など）を完全に異なるものに使用しており、モデル間で結果を比較することが不可能になり、規制当局が統一された基準を設定することが困難になっています。

英語以外の言語をカバーするベンチマークはいくつありますか？

195のベンチマークのうちわずか30（15%）が英語以外の言語でモデルを評価しており、世界の大部分の言語のAIシステムの安全性がテストされていないことを意味します。

ArXiv：195のAIセーフティベンチマークのカタログが断片化と測定標準の弱さを明らかに

AIモデルの安全性について、私たちは実際どの程度把握しているのでしょうか？研究者のAbiodun Solankeが、8年間に公開された195の人工知能安全評価ベンチマークを文書化した初の包括的カタログであるAISafetyBenchExplorerを発表しました。その調査結果は、この分野が断片化、用語の不一致、ツールのメンテナンス不足に苦しんでいることを明らかにしています。

用語問題の規模はどの程度ですか？

あるベンチマークがモデルの「safety score」が92%だと言い、別のベンチマークが同じモデルが78%だと示すとき、ユーザーは両者が同じメトリクスを使用していると思い込みます。現実は異なります——「accuracy」、「safety score」、「harmful response rate」などの用語は、まったく異なる実装アプローチと脅威モデルを隠しています。

これは、「私たちのモデルはベンチマークXに基づいて安全です」というメーカーの主張が、そのベンチマークが実際に何を測定しているか、どのように測定しているか、どのシナリオをカバーしているかを理解することなしには限定的な価値しか持たないことを意味します。カタログはこの現象を「メトリクスマスク」——根本的な違いを隠す表面的な類似性——として識別しています。

ベンチマークは実際どの程度メンテナンスされていますか？

統計は憂慮すべきものです。カタログに収録された195のベンチマークのうち、実に137（70%）のGitHubリポジトリが非アクティブです——初期公開後に重要な更新がありません。これは評価ツールの大部分がモデルと新しい種類の攻撃の進化に追いついていないことを意味します。

さらに、195のベンチマークのうち94（48%）が「中程度の複雑さ」に分類されています——基本的な確認には十分ですが、マルチエージェントジェイルブレークや間接プロンプトインジェクションなどの高度な攻撃の評価には不十分です。今日のフロンティアモデルに関連する高度な脅威シナリオに対応するベンチマークはごく少数です。

言語カバレッジが重大な欠点である理由は何ですか？

おそらく最も憂慮すべき調査結果は言語的なものです：195のベンチマークのうち165（85%）が英語のみでモデルを評価しています。これは、クロアチア語、ドイツ語、日本語、その他何百もの言語を話すユーザーのAIシステムの安全性が大部分でテストされていないことを意味します。

これは欧州AIActの文脈で特に問題があります。同法は欧州市場で使用されるAIシステムの安全性評価を要求していますが——その評価のためのツールは欧州の言語をほとんどカバーしていません。カタログはメタデータスキームと複雑さの分類法を通じてより良いベンチマーク選択のためのインフラを提供していますが、根本的な問題は残っています：この分野には共通の測定標準と評価ツールの長期的なメンテナンスが必要です。

ArXiv：195のAIセーフティベンチマークのカタログが断片化と測定標準の弱さを明らかに

用語問題の規模はどの程度ですか？

ベンチマークは実際どの程度メンテナンスされていますか？

言語カバレッジが重大な欠点である理由は何ですか？

出典

関連ニュース