arXiv:2605.19660:OScaR — INT2量子化KVキャッシュで3倍高速デコーディングを実現
研究者たちが大規模言語モデルのKVキャッシュ量子化の根本的な問題を解決するOScaRを発表しました。値ごとにわずか2ビットのINT2精度を使用し、ほぼ精度損失なしに3倍高速なデコーディング、5.3倍のメモリ削減、BF16 FlashDecoding-v2比4.1倍のスループット向上を達成しています。
この記事はAIにより一次情報源から生成されました。
メモリは現在、大規模言語モデルを本番環境で実行する際の最大のボトルネックの一つです。モデルが新しいトークンを生成するたびに、会話のコンテキスト全体にアクセスできる必要があります——KVキャッシュ(キー・バリューキャッシュ)として知られるこの一時メモリは、コンテキスト長に比例して増大し、GPU上で数十ギガバイトのRAMを占有することがあります。
なぜKVキャッシュの極端な圧縮はこれまで未解決の問題だったのですか?
標準的なアプローチは量子化——16ビット浮動小数点数の代わりに、値を小さなフォーマットで保存することです。INT4(4ビット)は許容可能な精度損失をもたらしますが、INT2(2ビット)はこれまで劇的な精度低下を招いていました。研究者たちは原因を特定していました。トークンノルムの不均衡——特定の次元が外れ値を持っており、2ビット表現ではこれらの値を正確に保存できないのです。
OScaR(Occam’s Razor)はエレガントな2段階アプローチでこれを解決します。チャネル化回転が値の分布を正規化し、次にオムニトークンスケーリングが各トークンごとに残りの変動をスケーリングします。その結果、著者によれば「ほぼ損失なし」の精度をベンチマークで達成するINT2量子化が実現します。
数値は具体的に何を示していますか?
BF16 FlashDecoding-v2(効率的な推論のデファクトスタンダード)との比較:
- 3.0倍高速なデコーディング — モデルの応答速度が3倍向上
- 5.3倍のメモリ削減 — 同じGPUでより長いコンテキストや並列リクエストの処理が可能
- 4.1倍のスループット向上 — 同じハードウェアでより多くのユーザーを処理可能
この手法はテキスト・マルチモーダル・オムニモーダルのモデルで動作し、コードはGitHubで公開されており、論文は2026年5月19日に査読に提出されました。
AIインフラへの実際の意義
クラウドでLLM推論を実行する企業にとって、これらの数値はコストに直接変換されます。同じGPUが同じレイテンシで4倍のリクエストを処理できるなら、クエリ当たりのコストは約75%低下します。OScaRが査読を通過し、より広範なモデルで同じ結果を示せば、FlashAttentionやspeculative decodingと並んで推論スタックの標準コンポーネントになる可能性があります。
よくある質問
- KVキャッシュとは何ですか?なぜ圧縮が難しいのですか?
- KVキャッシュ(キー・バリューキャッシュ)は、言語モデルが処理済みトークンのアテンション中間結果を保存する一時メモリです。これがないと、新しいトークンごとにコンテキスト全体の再計算が必要になります。圧縮の難しさは「トークムノルムの不均衡」にあります——一部の次元が極端に高い値を持っており、標準的な量子化アルゴリズムでは少ないビット数では正確に捉えられません。
- INT2量子化とは具体的に何を意味しますか?
- INT2量子化とは、KVキャッシュの各値を標準的な16ビットや32ビットではなく、わずか2ビットで保存することです。これは「極端な」圧縮であり、一般的なBF16形式と比較して8倍から16倍小さい表現です。OScaRは回転とスケーリングにより、この圧縮がモデルの精度にほとんど影響しないことを実現しています。
- OScaRはテキストモデルのみに対応していますか?
- いいえ——OScaRはテキスト・マルチモーダル・オムニモーダルの言語モデルに対応するよう設計されており、テキスト・画像・音声を組み合わせた現代のAIシステムの幅広いエコシステムに適用できます。