評価

AI評価

ベンチマーク、人手評価、レッドチームによって、公開前後にAIモデルの能力・安全性・アラインメントを体系的に測定する分野。

AI評価(AI evaluation)とは、AIモデルの能力・安全性・アラインメントを体系的に測定する分野である。モデルが何をできて、どこで失敗し、どれほどリスクがあるかを、公開の前後を通じて客観的に明らかにすることを目的とする。

評価は複数の手法を組み合わせる。標準化されたベンチマークは固定の課題集合で知識と技能を採点する。人手評価(A/B比較、回答の採点)は自動テストが見逃す品質を捉える。レッドチームは敵対的手法でジェイルブレイクや悪用を洗い出し、ハルシネーション、追従(シコファンシー)、欺瞞的振る舞いも測定対象が広がっている。HELMのような包括的フレームワークは、正確さに加えてバイアス・頑健性・有害性も追跡する。

2025〜2026年、評価はAI安全性アラインメントを管理する中核となった。各研究所はフロンティアモデルごとに結果を記した「システムカード」を公開し、OpenAIとAnthropicは互いのモデルを相互評価し、EU AI法や各国のAI研究所はこれを規制要件としている。中心的な課題はベンチマークの飽和と汚染であり、高スコアが実運用での信頼性を保証するわけではない。

出典

関連項目