arXiv:2605.06635：LLM 인용은 검증되지 않는다

새로운 연구가 딥 리서치 작업에서 14개의 LLM 모델을 테스트하여 큰 격차를 발견했습니다. 링크 유효율은 94% 이상이지만, 인용의 사실 정확도는 39~77%에 불과합니다. 핵심 발견: 도구 호출 수가 2회에서 150회로 증가하면 인용 정확도가 42% 떨어지며, 『검색이 많을수록 품질이 좋아진다』는 가정을 무너뜨립니다.

「Cited but Not Verified」(Onweller 외, arXiv:2605.06635)는 2026년 5월 7일에 발표되어, LLM 딥 리서치 에이전트의 인용 표면 품질과 실제 사실 신뢰성 사이의 심각한 격차를 드러냅니다. 팀은 Markdown 보고서에서 인라인 인용을 추출하는 AST 파서를 개발하여 세 가지 차원에서 평가했습니다. URL 접근 가능성, 콘텐츠 관련성, 그리고 사실 정확도입니다.

구체적인 수치는 무엇입니까?

프론티어 모델은 링크 유효율을 94% 이상, 관련성을 80% 이상으로 유지합니다——그러나 원본 자료에 대한 사실 정확도는 39%에서 77% 사이에 불과합니다. 즉, 인용된 링크는 존재하고 주제적으로 관련이 있지만, 에이전트가 그 옆에 쓰는 주장을 항상 뒷받침하지는 않습니다.

왜 검색이 많을수록 정확도가 낮아집니까?

연구의 가장 중요한 발견은 연구 깊이와 신뢰성 사이의 역관계입니다. 도구 호출 수가 2회에서 150회로 증가하면 팩트체크 정확도는 평균 42% 떨어집니다. 이는 『더 철저한 딥 리서치가 더 좋은 결과를 가져온다』는 직관적인 가정을 무너뜨립니다——실제로는 더 깊은 검색이 오류를 축적하고 개별 출처에 대한 모델의 주의를 분산시킵니다.

사용자에게 의미하는 바는 무엇입니까?

딥 리서치 에이전트를 사용하는 기자, 연구자, 기업에게 이 발견은 경고를 발합니다. 보고서의 링크는 출처가 주장을 뒷받침한다는 보장이 아닙니다. 오픈 소스 모델의 절반 미만이 싱글 샷 방식으로 인용된 보고서를 생성할 수 있었습니다. 연구는 특히 법률이나 의료 연구와 같은 고위험 작업에서는 주요 인용에 대한 수동 검증이 여전히 필요하다고 제안합니다.

자주 묻는 질문

『팩트체크 정확도』란 무엇입니까?

팩트체크 정확도는 인용 내용이 텍스트에서 해당 출처를 참조하는 주장과 얼마나 일치하는지를 측정하는 지표입니다. 즉, 인용된 출처가 LLM이 주장하는 내용을 실제로 뒷받침하는지를 확인합니다. 이는 단순히 링크에 접근할 수 있는지를 확인하는 것과는 다릅니다.

왜 연구 깊이가 증가할수록 정확도가 떨어집니까?

연구자들은 도구 호출 수가 2회에서 150회로 증가하면 팩트체크 정확도가 평균 42% 떨어진다는 것을 보여줬습니다. 가능한 원인으로는 누적 오류, 개별 출처에 대한 주의력 감소, 실제 검증 없이 그럴듯한 인용을 생성하는 모델의 경향이 있습니다.

어떤 모델들이 테스트됐습니까?

팀은 14개의 모델을 벤치마크했습니다. 클로즈드 소스 프론티어 시스템과 오픈 소스 모델의 조합입니다. 오픈 소스 모델의 절반 미만이 싱글 샷 방식으로 인용된 보고서를 성공적으로 생성했습니다.

arXiv:2605.06635：LLM 에이전트는 인용하지만 검증하지 않는다——링크 유효율 94% 이상, 정확도 39~77%

구체적인 수치는 무엇입니까?

왜 검색이 많을수록 정확도가 낮아집니까?

사용자에게 의미하는 바는 무엇입니까?

자주 묻는 질문

출처

관련 뉴스