インフラ

テストタイム計算

推論時により多くの計算資源を投じ——回答前に長く思考させて——精度を高める手法。現代の推論モデルの基盤となる考え方。

テストタイム計算test-time compute)とは、推論時により多くの計算を投じ——最終的な回答の前に、より長く慎重な中間ステップの連なりをモデルに生成させて——解の質を高める手法です。推論時スケーリング、テストタイム・スケーリングとも呼ばれます。

従来のスケーリングはモデルと学習データを大きくするものでした。テストタイム計算は第二の軸を開きます。同じ学習済みモデルでも、問い合わせごとにより多くの「思考」を許すのです。これは、より長い思考連鎖、複数の候補回答をサンプリングして最良のものを選ぶ手法(自己整合性、検証)、あるいは解の木を探索する方法によって行われます。経験的に、投じる計算が多いほど、数学・コード・論理といった難問で精度が上がることが多いです。

このパラダイムは OpenAI o1(2024年)で主流となり、今日の推論モデルの基盤を成しています。代償はコストと遅延で、一度の回答が数倍のトークンを消費し、数秒から数分かかることもあります。2025〜2026年にかけて、ある点を超えると効果は飽和するため、各研究所は計算をタスクの難易度に応じて適応的に配分する研究を進めています。

出典

関連項目