英国AISI:AIエージェント評価はテスト時計算リソースを考慮すべき
英国AI安全研究所(AISI)は、固定トークン予算によるAIエージェント評価がフロンティアモデルの能力を系統的に過小評価することを示した。予算を100万から1000万トークンに増やすと、ソフトウェアエンジニアリングタスクで最大25%、数学テストで約22%の性能向上が見られる。AISIは規制当局に対し、ベンチマークスコアから計算予算を変数とした能力曲線への移行を求めている。
この記事はAIにより一次情報源から生成されました。
英国AI安全研究所(AISI)は、規制当局と安全性コミュニティに広範な影響を持つ研究を発表した。固定トークン予算で性能を測定する標準的なAIエージェント評価は、フロンティアモデルの実際の能力を系統的に過小評価している。ベンチマークの単一スコアではなく、エージェントの能力は曲線として理解すべきである——利用可能な計算予算に応じて性能がどう変化するかを追う関数として。
エージェントの能力はトークン予算に依存する
この研究は、特定のトークン予算でエージェントがどの程度の成果を達成するかを知るだけでは不十分であることを明確に示している。重要なのは、より多くのリソースを与えた場合にその性能がどう変化するかを理解することだ。ソフトウェアエンジニアリングタスクでは、予算を100万から1000万トークンに増やすことで約**25%の改善が得られた。数学・学術タスクでは約22%**の改善となる。この差は無視できない——タスクを完了できないモデルと、確実かつ一貫して解決できるモデルの差だ。
特に示唆に富む知見はサイバーセキュリティ分野から得られた。テストされた**全サイバーセキュリティタスクの約8%**は、1000万トークン以上の予算でのみ解決可能だった。低予算を使用する標準的な評価フレームワーク内では、これらのタスクは解決不可能に見える——規制当局と安全性研究者は、フロンティアモデルが持つ実際のリスクについて歪んだ認識を得ることになる。
既存の評価は実際に何を測定しているのか?
標準的なベンチマークテストは固定のトークン予算を選択し、エージェントがタスクセットを正常に解決する割合を測定する。このアプローチには根本的な方法論的問題がある。モデル間で比較可能ではなく、実際の能力の限界を確実に示すこともできない。
AISIは、あるフロンティアモデルの能力ホライゾン——モデルが確実に解決できる最も長いタスクとして定義——が、予算を250万から5000万トークンに増やすと40分から4時間に伸びることを測定した。同じ差は進歩速度の評価にも影響する。フロンティアのサイバー能力は250万トークン予算では4.7ヶ月ごとに倍増する。5000万トークン予算では、この倍増速度が**60%**加速する——評価の境界値をどこに設定するかによって、まったく異なる発展軌道を測定することになる。
計算要件は、熟練した人間が同じタスクを完了するのに必要な時間に応じてスケールし、指数が0.7から1.0のべき乗則に従う。専門家が1時間かかるタスクには数百万トークンが必要であり、週単位のプロジェクトには数十億トークンが必要となる。
新しいモデルはより多くの計算から不釣り合いに恩恵を受ける
安全性の観点から特に懸念される知見は、古いモデルと新しいモデルの間の非対称性だ。新しいフロンティアモデルは計算予算の増加から系統的により多くの恩恵を受け、それは3つの次元で現れる。
- リーチ — 同じ計算予算でより難しいタスクを解決できる
- 信頼性 — エッジケースや複雑なケースでより一貫して成功する
- 効率性 — 古い世代より少ないトークンで同じタスクを解決する
この組み合わせは、標準化されたテストが現在の能力を過小評価するだけでなく、モデル世代間の比較を歪めることを意味する。古いモデルは低予算では競争力があるように見えるが、新しいモデルは本番環境のユーザーが使用する実際の予算では大幅に上回る。この非対称性を考慮しない評価フレームワークは、相対的な進歩を系統的に誤って描写する。
固定予算の規制的影響
AISIは、直接的な政策的含意を持つ構造的問題を明示的に警告している。固定予算に基づくリスク評価は、主張するものを測定していない——より高い計算レベルでのみアクセス可能になる高価値・高リスクの能力を系統的に見逃す。単一の予算での評価は、モデル間の不均等な比較につながり、意思決定者をエージェントの過小評価に誘導し、リスクの実際の規模を隠す可能性がある。
AI規制フレームワークを策定する組織——各国政府から国際機関まで——は、モデルのベンチマークスコアが一義的な数値ではないことを考慮しなければならない。それは評価者が設定した計算予算の関数だ。その予算を明示的に指定せずには、モデル間の比較は方法論的に信頼できない。
AISIは能力曲線アプローチへの移行を提案する。予算ポイントの範囲にわたって性能を測定し、各モデルのリーチ・信頼性・効率性のプロファイルを特定し、完全な全体像に基づいてリスクに関する結論を導くべきだ。セキュリティチームへの含意は明確だ。評価で特定クラスの攻撃能力を示さなかったモデルは、評価者の予算制限の背後にその能力を隠していた可能性がある。
よくある質問
- テスト時計算とは何か、なぜ評価において重要なのか?
- テスト時計算とは、AIエージェントがタスクを解く際に使用する計算リソースの量をトークンで測ったものです。AISIは予算が大きいほど性能が直接向上することを示しており、能力は単一のベンチマークスコアではなく曲線として測定すべきだと主張しています。
- トークン予算を10倍にするとどれほどの改善が得られるか?
- 予算を100万から1000万トークンに増やすと、ソフトウェアエンジニアリングタスクで約25%、数学・学術タスクで約22%の性能向上が得られることがAISIの測定で示されています。
- なぜこれが規制当局にとって重要なのか?
- 固定予算に基づくリスク評価は、モデルの実際の能力を構造的に過小評価します。新しいモデルほど追加計算から不釣り合いに恩恵を受けるため、標準化されたテストが誤った安心感をもたらす可能性があります。