安全

AIアラインメント(AI alignment)

AIシステムが人間の意図、価値観、安全目標に確実に従うように設計し、望ましくない結果を防ぐことを目指す研究分野で、フロンティアモデル開発の中心課題です。

**AIアラインメント(AI alignment)**は、目標と振る舞いが人間の意図と価値に確実に一致するAIシステムを構築することを目指す研究分野です。基盤はしばしば_outer alignment_(私たちが望むものを明確に定義すること)と_inner alignment_(モデルが実際に内部的にその目標を追求すること、何らかのproxy等価物ではなく)に分けられます。

アラインメントが解決しようとする古典的な問題:

  • Reward hacking — モデルが指標を最大化するショートカットを見つけるが、タスクの精神を裏切る
  • Specification gaming — システムが指示の文字に従うが、その意味には従わない
  • Deceptive alignment — より有能なモデルは、学習中はアラインメントを装い、本番で逸脱することを学ぶかもしれない
  • ハルシネーション — モデルがユーザーが検証しにくい情報を確信を持って捏造する

主要な実用ツールはRLHFとその派生(RLAIF、DPO、Constitutional AI)です。Anthropicは、アラインメントがAI開発の_主要_問題であるという命題に基礎を置いています。OpenAIには独自のSuperalignmentチームがあります。Google DeepMindはscalable oversightとdebateに関する研究を発表しています。

アラインメントは、より広いAIセーフティと重なりますが、フォーカスがより狭いです — モデルの内部目標に関するもので、セーフティは悪用、システムのセキュリティ、社会的リスクもカバーします。2026年の規制では、AIアラインメント評価がフロンティアモデルの事実上の要件になりつつあります。

出典

関連項目