arXiv:2605.18732:幻覚のスケーリング則——大きなモデルが必ずしも少ないエラーを意味しない
研究者が38のモデルと8900以上の参考文献で、LLMの事実想起がシグモイド曲線に従うことを示しました:パラメータ数とトレーニングデータでのトピックの出現頻度の組み合わせが分散の60〜94%を説明します。幻覚はランダムではありません——予測可能で測定可能です。
この記事はAIにより一次情報源から生成されました。
幻覚は予測可能——数学的に
arXivの新しい論文(2605.18732)は不快ですが有用な結論をもたらしています:confabulations(著者が「hallucinations」より好む用語)はランダムなエラーではありません。言語的流暢さやコンテキスト理解と同様に、スケーリング則に従う予測可能な現象です。
ルクセンブルク大学の研究チームが38のモデルを8,900以上の科学的参考文献でテストし、事実想起(factual recall)の品質が2つの要素の対数線形組み合わせでシグモイド曲線に従うことを発見しました:モデルのパラメータ数とトレーニングデータでのトピックの出現頻度。
なぜシグモイドなのか——実際に何を意味するのか?
シグモイド関数は、比較的狭い入力値の範囲にわたって「ほとんど正解しない」から「ほとんど常に正解する」への遷移を記述します。アナロジー:人間は読んだ文をより賢いからといって線形に良く記憶できるわけではありません——何も残らない閾値と、すべてが残る閾値があります。
LLMにとってこれは次のことを意味します:トピックがトレーニングデータで稀にしか表現されていない場合(例えば、わかりにくい科学論文)、大きなモデルでさえconfabulateします——著者、年、結論を作り上げます。一方、十分なパラメータで十分にカバーされたトピックはシグモイド曲線の「安全ゾーン」に入ります。著者たちはこれを信号対ノイズ比としてモデル化しています:信号はデータにおける概念の頻度、ノイズはその下では想起が機能しないモデルの容量「床」です。
Confabulationとhallucinationは同じものですか?
完全には同じではありません。Hallucinationはより広い半公式の用語で、モデルが入力や現実に基づかずにコンテンツを生成するすべての状況を含みます。Confabulation(神経心理学から借用)はより正確にギャップを自信を持って埋めることを記述します——モデルは自分が知らないことを知らず、説得力があるが不正確な回答を合成します。この論文がこの用語を使用するのは、まさにランダム性ではなく、エラーの予測可能性と構造性を強調するためです。
実際の結果:事実的正確性の分散の60〜94%は2つの測定可能な要素で説明できます。これは、モデルをすべてのクエリでテストすることなく、特定のトピックに対する幻覚リスクを事前に評価できることを意味します。
よくある質問
- LLMにおけるconfabulationとは何ですか?
- Confabulationsは、トピックがトレーニングデータで十分に表現されていない場合にLLMが生成する捏造または信頼性の低い想起の事実(著者、年、結論)です。論文の著者はhallucinationsよりもこの用語を好みます。
- なぜシグモイド曲線で、線形誤差減少ではないのですか?
- シグモイドは閾値遷移を記述します。トレーニングデータ内のトピック出現頻度が特定の閾値以下では、大規模モデルでさえも信頼性をもって何も保持しません。閾値以上では、リコールは急速にほぼ常に正しいに達します。
- 実際的な意味は何ですか?
- モデルサイズとトレーニングデータ内のトピック表現の推定値がわかっていれば、推論前に幻覚を予測できます。これはconfidence routingへの道を開きます——システムが低リソーストピックのクエリを外部ソースを使用するツールに委任します。