arXiv:2605.06635:LLM 에이전트는 인용하지만 검증하지 않는다——링크 유효율 94% 이상, 정확도 39~77%
새로운 연구가 딥 리서치 작업에서 14개의 LLM 모델을 테스트하여 큰 격차를 발견했습니다. 링크 유효율은 94% 이상이지만, 인용의 사실 정확도는 39~77%에 불과합니다. 핵심 발견: 도구 호출 수가 2회에서 150회로 증가하면 인용 정확도가 42% 떨어지며, 『검색이 많을수록 품질이 좋아진다』는 가정을 무너뜨립니다.