ジェイルブレイク（Jailbreak）

**ジェイルブレイク（Jailbreak）**とは、大規模言語モデルの安全ガードレールを回避し、拒否するよう訓練されたコンテンツ（有害な行為の手順、ヘイトスピーチ、システムプロンプトの開示など）を生成させるために設計された敵対的な入力です。

ジェイルブレイクは、プロンプトエンジニアリングを通じてモデルのアラインメントの弱点を突きます。仮想シナリオ（「あなたは～というキャラクターだと想像してください」）、ロールプレイ、エンコードされた要求、異常なフォーマット、あるいは防御を徐々に切り崩す長いマルチターン会話などです。指示とデータを区別できないという欠陥を突くプロンプトインジェクションとは異なり、ジェイルブレイクは安全境界そのものを直接狙います。

このテーマは2025～2026年に極めて活発です。AI研究機関はレッドチーミングと防御層に多額の投資をしています。AnthropicのConstitutional Classifiersは自動評価でジェイルブレイク成功率を86%から4.4%に低下させましたが、公開チャレンジでは30万回を超えるやり取りの末に1つの汎用ジェイルブレイクが発見されました。これはAIセーフティの核心的な教訓を示しています。防御は改善し続けるが、完全なものは存在しないということです。

出典

関連項目