インフラ

量子化

モデル重みの数値精度を下げ(例:FP16からINT8やINT4へ)、精度の低下を最小限に抑えつつサイズを縮小し推論を高速化する手法。

量子化quantization)は、モデルの重みや活性化の数値精度を下げるモデル圧縮手法です。たとえば数値を16ビットや32ビットの浮動小数点(FP16、FP32)ではなく、8ビットや4ビットの整数(INT8、INT4)として格納します。

実際には、各数値はスケーリング係数を用いて、広い連続範囲からより小さな離散値の集合へ写像されます。これによりモデルサイズは2〜4倍縮小し、メモリ使用量が減り、推論が高速化します。整数演算は浮動小数点演算よりも消費電力と帯域幅がはるかに少ないためです。主な手法は2つあり、学習済みモデルに適用する学習後量子化(PTQ)と、学習中に精度低下を模擬して高い精度を得る量子化対応学習(QAT)があります。

2025〜2026年にかけて、量子化は控えめなハードウェアで大規模モデルを動かす鍵となっています。GGUF(llama.cpp)などの形式やGPTQ、AWQといった手法により、数百億パラメータのモデルが単一のコンシューマー向け GPU やローカルの AIアクセラレータ に収まり、オープンウェイトモデルへのアクセスが広く普及しています。

出典

関連項目