Cliff Tokens：1つのトークンがLLMを崩壊させる理由

Cliff Tokenとは、LLMの出力において数学的推論の成功確率が急落する単一トークンです。研究者たちは検出手法を開発し、最初のCliff Tokenを除去して再サンプリングすると精度がほぼ完璧なレベルに回復し、Cliff-DPOトレーニングで+6.6パーセントポイントの向上が得られることを示しました。

Cliff Tokenとは何か？

Cliff Token（文字通り「崖トークン」）とは、モデルがタスクを解くために使用する中間ステップの連鎖であるchain-of-thought出力における単一トークンで、正確な答えに到達する成功確率が急落する地点です。研究者のJaeyong Ko、Pilsung Kang、Yukyung Leeは、各トークン前後での回答成功率を比較する二比率z検定という統計的分析によって、これらの重要な点を特定しました。

なぜ1つのトークンがそれほど重要なのか？

この研究は7つのモデルと3つの数学的ベンチマーク（GSM1K、MATH500、AIME 2025）を対象としました。結果は驚くべきものです。最初のCliff Tokenのみを除去して再サンプリングすると、pass@64（64回の試行における正解率）がモデルによって0.71〜1.00だった元の値から1.0に回復します。この差は無視できるものではなく、不安定な推論ゾーンから完全に信頼できるゾーンへの移行を意味します。

分類と応用

著者たちは3種類のCliff Tokenを区別しています。決定論的（誤りが不可避）、不確実（モデルが躊躇する）、偶発的ミス（sampled-off）の3種類です。主要な発見：不確実なトークンと偶発的ミスのトークンに対する最適化が推論を改善する一方で、決定論的なものはトレーニングに反応しません。これに基づいてCliff-DPOが開発されました。これはGSM8Kデータセットで**+6.6パーセントポイントの精度向上**を達成する選好トレーニング手法であり、モデルアーキテクチャを変更することなく具体的な改善をもたらします。

よくある質問

Cliff Tokenとは何ですか、またなぜ重要なのですか？

Cliff Tokenとは、モデルのchain-of-thought出力において正確な完了の確率が急落する単一トークンです。まさに崖の縁のようなものです。これらの点を特定することで、数学的推論における失敗の正確なメカニズムが明らかになります。

Cliff-DPOはモデルの精度をどのように改善しますか？

Cliff-DPOはCliff Tokenありとなしのサンプルでモデルをトレーニングする選好最適化手法であり、GSM8Kデータセットで最大+6.6パーセントポイントの精度向上をもたらします。

arXiv:2606.25524: Cliff Tokens — 数学的推論の失敗を引き起こす単一トークン

Cliff Tokenとは何か？

なぜ1つのトークンがそれほど重要なのか？

分類と応用

よくある質問

出典

関連ニュース