arXiv:2605.06635:LLMエージェントは引用するが検証しない——リンク有効率94%以上、正確率は39〜77%
新研究が14のLLMモデルをディープリサーチタスクでテストし、大きな乖離を発見しました。リンク有効率は94%以上ですが、引用の事実正確率は39〜77%に過ぎません。重要な発見:ツール呼び出し数が2から150に増えると引用正確率が42%低下し、「検索が多いほど品質が上がる」という仮定を覆します。
この記事はAIにより一次情報源から生成されました。
「Cited but Not Verified」(Onwellerら、arXiv:2605.06635)は2026年5月7日に発表され、LLMディープリサーチエージェントにおける引用の表面的な品質と実際の事実信頼性の間の深刻な乖離を明らかにしました。チームはMarkdownレポートからインライン引用を抽出するASTパーサーを開発し、3つの次元で評価しました。URLの到達可能性、コンテンツの関連性、そして事実正確率です。
具体的な数字は?
フロンティアモデルはリンク有効率を94%以上、関連性を80%以上に維持しています——しかし元の資料に対する事実正確率はわずか39%から77%の範囲に留まります。つまり、引用されたリンクは存在し、主題的に関連していますが、エージェントがその横に書く主張を常に裏付けるわけではありません。
なぜ検索が増えると正確率が下がるのですか?
研究の最も重要な発見は、調査の深さと信頼性の間の逆相関関係です。ツール呼び出し数が2から150に増えると、ファクトチェック正確率は平均42%低下します。これは「より徹底したディープリサーチがより良い結果をもたらす」という直感的な仮定を覆します。実際には、より深い検索は誤りを積み重ね、個々のソースへのモデルの注意を分散させます。
ユーザーにとって何を意味するのか?
ディープリサーチエージェントを使用するジャーナリスト、研究者、企業にとって、この発見は警告を発しています。レポート内のリンクは、ソースがその主張を裏付けるという保証にはなりません。オープンソースモデルの半数未満がシングルショット方式で引用付きレポートを生成できました。研究は、特に法律や医療調査など高リスクタスクにおいては、重要な引用の手動検証が依然として必要であることを示唆しています。
よくある質問
- 「ファクトチェック正確率」とは何ですか?
- ファクトチェック正確率は、引用の内容がテキスト中でそれを参照する主張とどの程度一致しているかを測る指標です。つまり、引用されたソースがLLMが述べる内容を実際に裏付けているかどうかを確認します。これは単にリンクにアクセスできるかを確認することとは異なります。
- なぜ調査の深さが増すと正確率が下がるのですか?
- 研究者は、ツール呼び出し数が2から150に増えると、ファクトチェック正確率が平均42%低下することを示しました。考えられる原因として、累積誤差、個々のソースへの注意力の低下、そしてモデルが実際の検証なしに尤もらしい引用を生成する傾向が挙げられます。
- どのモデルがテストされましたか?
- チームは14のモデルをベンチマークしました。クローズドソースのフロンティアシステムとオープンソースモデルの組み合わせです。オープンソースモデルの半数未満が、シングルショット方式で引用付きレポートを生成することに成功しました。