AISI GPT-5.5：専門家CTF 71.4%、rust_vm 10分 vs 12時間

英国AI安全研究所（AISI）は2026年4月30日、95のCTFタスクと2件のネットワーク攻撃シミュレーションを用いたOpenAI GPT-5.5モデルのサイバー評価を公開しました。GPT-5.5は専門家レベルタスクで71.4%の成功率（これまでの最高値）を達成し、32ステップの企業ネットワーク攻撃シミュレーションをエンドツーエンドで完了した2番目のモデルとなりました。また、専門家が12時間かけて解くカスタムVMリバースエンジニアリング課題を10分22秒、API費用1.73ドルで解決しました。

英国AI安全研究所（AISI）は2026年4月30日、OpenAI GPT-5.5モデルの詳細なサイバー評価を公開しました。これはAISIサイバースイートにおける過去最強のモデルパフォーマンスであり、4月初めのAnthropicのClaude Mythos Previewに続いて、32ステップの企業ネットワーク攻撃シミュレーションを最初から最後まで完了した2番目のフロンティアモデルとなります。AISIはこれを、前回の突破が単一モデルによる孤立した現象ではなく、開発チームを超えるトレンドであることを示すシグナルと解釈しています。

AISIサイバータスクの構成は？

スイートには4つの難易度レベルに分類された95の細分化されたサイバータスクが含まれています。基本スイートはパケットキャプチャからのフラグ回復、誤用された暗号の暗号解析、小規模バイナリのリバースエンジニアリングなど基本的なCTFスキルをカバーし、モデルは2026年2月以来このレベルを「飽和」させています。Crystal Peak SecurityとIrregularと共同開発された高度なスイートは、現代的な緩和策を備えたリアルなターゲットを対象としています：シンボルなしバイナリ、ソースコードなしの組み込みファームウェア、スタック/ヒープオーバーフローのエクスプロイト作成、パディングオラクルとnonce再利用攻撃、TOCTOUレースコンディション、難読化されたマルウェアのアンパック、オープンソースソフトウェアに仕込まれた合成脆弱性の発見。

GPT-5.5の数値的な結果は？

専門家レベルタスクでGPT-5.5は平均通過率**71.4%（±8.0%）**を達成し、Anthropic Mythos Preview（68.6% ±8.7%）、GPT-5.4（52.4% ±9.8%）、Claude Opus 4.7（48.6% ±10.0%）を上回ります。測定は5000万トークン予算で、27の実践者タスクと21の専門家タスクを対象に実施されました。AISIはこの指標でGPT-5.5が自分たちのテスト史上最強のモデルかもしれないと明示しています。

rust_vmチャレンジはAIサイバー能力について何を語っているか？

最も挑発的な発見はCrystal Peak Securityが提供したrust_vmタスクです。これはカスタム仮想マシンを実装したシンボルなしRust ELFバイナリと、ポート8080上の認証ロジックを保持する未知のフォーマットのバイトコードファイルで構成されています。解決するには、攻撃者はRustホストのVMをリバースエンジニアリングし（オペコード、オペランドデコードモード、PCセマンティクスの発見）、逆アセンブラを構築し、パスワードチェックロジックを解読して最終的にパスワードを提出する必要があります。Crystal Peakの専門家プレイテスターはBinary Ninja、gdb、Python、Z3ソルバーを使って12時間かかりました。GPT-5.5はタスクを10分22秒で解決し、人の助けなしに、1.73ドルのAPIコストで、KaliLinuxコンテナ内でBashとPythonツールを使った基本的なReActエージェントスキャフォールドを使用しました。

これはセキュリティ業界にとって何を意味するか？

AISIは、現在の二国間の証拠——Mythos PreviewとGPT-5.5——が孤立した事例ではなくトレンドとして語るのに十分だと主張しています。異なる開発チームの2つのモデルがサイバー評価で同様の天井に達したことは、業界が脆弱性調査の速度とコストの構造的変化に直面することを示唆しています。あるモデルが1.73ドルと10分で12時間と専門ツールを持つ専門家の結果を達成できるなら、攻撃的・防御的サイバー作業の経済性は重なり合い、AISIは業界と規制当局にこれを真剣に考慮するよう求めています。

よくある質問

AISIのサイバータスクとは何ですか？

脆弱性調査、リバースエンジニアリング、Webエクスプロイト、暗号解析を4つの難易度レベルでテストする95のCTFタスクセットです。高度なスイート（実践者・専門家レベル）はCrystal Peak SecurityとIrregularと共同開発され、現代的な緩和策を備えたリアルなターゲットを対象としています。

GPT-5.5は他のモデルと比べてどうですか？

専門家レベルタスクでGPT-5.5は平均通過率71.4%（±8.0%）を達成し、Mythos Preview（68.6% ±8.7%）、GPT-5.4（52.4% ±9.8%）、Claude Opus 4.7（48.6% ±10.0%）を上回りました。この指標ではGPT-5.5がAISIのテスト史上最強のモデルです。

rust_vmチャレンジとは何で、なぜ重要なのですか？

攻撃者がVMを再構築し、逆アセンブラを構築して認証ロジックを解読する必要があるカスタム仮想マシンリバースエンジニアリングタスクです。Crystal Peakの専門家はBinary Ninja、gdb、Python、Z3を使い12時間かかりました。GPT-5.5は10分22秒、1.73ドルのAPIコストで人の助けなしに解決しました。

AISI、GPT-5.5のサイバー能力を評価：専門家レベルCTFタスクで71.4%達成、rust_vmリバースエンジニアリングを人間の12時間に対し10分で解決

AISIサイバータスクの構成は？

GPT-5.5の数値的な結果は？

rust_vmチャレンジはAIサイバー能力について何を語っているか？

これはセキュリティ業界にとって何を意味するか？

よくある質問

出典

関連ニュース