Google：推論がLLMの知識を引き出す

Google Researchは、推論トレースがモデルの重みに保存された事実の想起を改善する2つのメカニズム（computational bufferとfactual priming）を特定しました。Gemini 2.5とQwen3-32Bでテストされています。

なぜモデルは自分が知っていることを忘れるのか？

大規模言語モデルは膨大な知識を重みに保存しています。いわゆるパラメトリック知識（外部データベースへのアクセスなしにモデルのパラメータに直接エンコードされた事実）です。しかし、ユーザーはモデルがトレーニングされたデータに関してさえも幻覚を起こすことを日常的に観察しています。Google Researchはその理由と、推論トレースがどのように状況を変えるかを明らかにしました。

知識想起を変える2つのメカニズム

Google Researchは、推論ステップ（推論トレース、モデルが最終回答の前に書き出す中間ステップの連鎖）がパラメトリック知識の想起を改善する2つの別々のメカニズムを特定しました。

Computational bufferは計算能力のレベルで機能します。ネットワークを通じた各追加のフォワードパスが、モデルに知識を検索するためのより多くのスペースを与えます。主要なデモンストレーション：「Let me think…」のような無意味な「フィラー」テキストでさえも、意味的な内容なしに処理を延長することで精度を改善します。

Factual primingは内容的に機能します。モデルは推論の途中で関連する中間的な事実を述べ、spreading activationの原理によって正確な最終回答を活性化します。このメカニズムは人間が連想チェーンを通じて名前を思い出す方法に類似しています。

Gemini 2.5とQwen3-32Bの結果

研究はGemini 2.5 Flash、Gemini 2.5 Pro、Qwen3-32Bモデルを対象に、パラメトリック知識からの事実的回答の精度を測定するように設計されたSimpleQA VerifiedとEntityQuestionsベンチマークを使用して実施されました。

主要な発見：推論トレース内の1つの幻覚された中間事実が、残りの推論が正確であっても最終回答の精度を大幅に低下させます。これは大声で考えるモデルが短いモデルよりも多く間違える場合がある理由を説明しています。悪い中間ステップがプライミングを誤った方向に向ける可能性があります。

実践への示唆

この発見には実際的な含意があります。事実の精度に依存するアプリケーションにとって、推論トレースの長さと質は装飾ではなく重要な要素です。プロンプトとシステムの設計者は最終回答だけでなく、モデルが何の中間事実を述べるかにも注意を払う必要があります。

よくある質問

パラメトリック知識とは何か、またなぜ想起が難しいのですか？

パラメトリック知識とは、外部データベースにアクセスすることなく、トレーニング中にモデルの重みに直接エンコードされた事実のことです。モデルがクエリのみに基づいて正しいニューラルパスを活性化しなければならないため、想起は不確実です。

computational bufferはモデルが正確なデータを記憶するのにどのように役立ちますか？

ネットワークを通じた各追加のフォワードパス（無意味な「Let me think」テキストでさえも）は、人間が考えるための一瞬を取るのに似た形で、モデルに知識を検索するためのより多くの計算能力を与えます。

Google Research：推論がLLMのパラメトリック知識を引き出す方法

なぜモデルは自分が知っていることを忘れるのか？

知識想起を変える2つのメカニズム

Gemini 2.5とQwen3-32Bの結果

実践への示唆

よくある質問

出典

関連ニュース