arXiv:2605.06635:LLM 에이전트는 인용하지만 검증하지 않는다——링크 유효율 94% 이상, 정확도 39~77%
새로운 연구가 딥 리서치 작업에서 14개의 LLM 모델을 테스트하여 큰 격차를 발견했습니다. 링크 유효율은 94% 이상이지만, 인용의 사실 정확도는 39~77%에 불과합니다. 핵심 발견: 도구 호출 수가 2회에서 150회로 증가하면 인용 정확도가 42% 떨어지며, 『검색이 많을수록 품질이 좋아진다』는 가정을 무너뜨립니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
「Cited but Not Verified」(Onweller 외, arXiv:2605.06635)는 2026년 5월 7일에 발표되어, LLM 딥 리서치 에이전트의 인용 표면 품질과 실제 사실 신뢰성 사이의 심각한 격차를 드러냅니다. 팀은 Markdown 보고서에서 인라인 인용을 추출하는 AST 파서를 개발하여 세 가지 차원에서 평가했습니다. URL 접근 가능성, 콘텐츠 관련성, 그리고 사실 정확도입니다.
구체적인 수치는 무엇입니까?
프론티어 모델은 링크 유효율을 94% 이상, 관련성을 80% 이상으로 유지합니다——그러나 원본 자료에 대한 사실 정확도는 39%에서 77% 사이에 불과합니다. 즉, 인용된 링크는 존재하고 주제적으로 관련이 있지만, 에이전트가 그 옆에 쓰는 주장을 항상 뒷받침하지는 않습니다.
왜 검색이 많을수록 정확도가 낮아집니까?
연구의 가장 중요한 발견은 연구 깊이와 신뢰성 사이의 역관계입니다. 도구 호출 수가 2회에서 150회로 증가하면 팩트체크 정확도는 평균 42% 떨어집니다. 이는 『더 철저한 딥 리서치가 더 좋은 결과를 가져온다』는 직관적인 가정을 무너뜨립니다——실제로는 더 깊은 검색이 오류를 축적하고 개별 출처에 대한 모델의 주의를 분산시킵니다.
사용자에게 의미하는 바는 무엇입니까?
딥 리서치 에이전트를 사용하는 기자, 연구자, 기업에게 이 발견은 경고를 발합니다. 보고서의 링크는 출처가 주장을 뒷받침한다는 보장이 아닙니다. 오픈 소스 모델의 절반 미만이 싱글 샷 방식으로 인용된 보고서를 생성할 수 있었습니다. 연구는 특히 법률이나 의료 연구와 같은 고위험 작업에서는 주요 인용에 대한 수동 검증이 여전히 필요하다고 제안합니다.
자주 묻는 질문
- 『팩트체크 정확도』란 무엇입니까?
- 팩트체크 정확도는 인용 내용이 텍스트에서 해당 출처를 참조하는 주장과 얼마나 일치하는지를 측정하는 지표입니다. 즉, 인용된 출처가 LLM이 주장하는 내용을 실제로 뒷받침하는지를 확인합니다. 이는 단순히 링크에 접근할 수 있는지를 확인하는 것과는 다릅니다.
- 왜 연구 깊이가 증가할수록 정확도가 떨어집니까?
- 연구자들은 도구 호출 수가 2회에서 150회로 증가하면 팩트체크 정확도가 평균 42% 떨어진다는 것을 보여줬습니다. 가능한 원인으로는 누적 오류, 개별 출처에 대한 주의력 감소, 실제 검증 없이 그럴듯한 인용을 생성하는 모델의 경향이 있습니다.
- 어떤 모델들이 테스트됐습니까?
- 팀은 14개의 모델을 벤치마크했습니다. 클로즈드 소스 프론티어 시스템과 오픈 소스 모델의 조합입니다. 오픈 소스 모델의 절반 미만이 싱글 샷 방식으로 인용된 보고서를 성공적으로 생성했습니다.