arXiv:2606.25519: 量子化が推論を膨張させる — 低ビットモデルの隠れたコスト
INT4/INT3への言語モデルの量子化は回答精度を維持しますが、推論チェーンを延長し、期待される推論高速化を相殺します。Microsoftの研究者はCoT Token Inflation Ratioメトリクスを導入し、数学・コード・科学・エージェント的タスクでテストしました。
この記事はAIにより一次情報源から生成されました。
量子化とは何か、なぜ使用されるのか?
量子化、つまりモデルの重みのビット精度を16ビットまたは32ビットからINT4またはINT3に削減するプロセスは、大規模言語モデルの推論を高速化しメモリフットプリントを削減するための標準的な技法です。Microsoftの研究者(7名の著者、2026年6月24日発表)はこの技法が従来の評価では測定されていなかった隠れたコストを持つことを明らかにしています。
低ビットモデルの真のコストはどれくらいか?
INT4またはINT3精度への量子化は最終回答の精度を維持しますが、推論チェーン(モデルが最終回答の前に生成する中間ステップの連鎖)を大幅に延長させます。量子化されたモデルはフルの対応モデルよりも多くの中間ステップと意味的な繰り返しを生成し、これによりトークンあたりの高速化が生成されるトークン数の増加によって完全に相殺されます。
新しいメトリクス:CoT Token Inflation Ratio
研究者たちはCoT Token Inflation Ratioメトリクスを導入しました。これは量子化されたモデルとオリジナルモデルのchain-of-thoughtの長さの比率を測定します。テストは4つのタスクカテゴリで実施されました:数学的推論、コード生成、科学的Q&A、エージェント的なツール使用(ツール呼び出しを伴うタスク)。すべてのカテゴリで量子化が推論のトークン消費を増加させています。
解決策:プロンプトではなくトレーニング
3つの緩和アプローチ(プロンプト戦略、サンプリング技法、量子化対応トレーニング)を比較した結果、著者たちは量子化を認識したトレーニングのみが精度損失とトークン膨張の両方を同時に削減できると結論付けました。プロンプトとサンプリングの緩和は不十分でした。
実際的な示唆:量子化された推論モデルの評価は、精度だけでなく推論時のトークン消費も表示しなければなりません。それらは合わせて実際の効率を決定する2つの別々のコストだからです。
よくある質問
- なぜ量子化が推論チェーンを延長させるのですか?
- 低ビット精度はモデルの重みに微小な数値誤差を導入します。そのためモデルは不確実性を補うために追加の中間ステップや意味的な繰り返しを生成します。最終的に正確な回答に到達する場合でも同様です。
- 量子化されたモデルにおけるトークン膨張はどのように軽減できますか?
- 量子化対応トレーニングが最も効果的であることが示されています。プロンプト戦略やサンプリング技法の両方を上回り、精度損失とトークン膨張の両方を削減します。