🟡 🛡️ 보안 게시일: · 2 분 읽기 ·

Microsoft Research: LLM은 반복 위임을 통해 문서를 손상시킵니다 — 20회 반복에서 19~34%의 충실도 저하

편집용 일러스트레이션: 반복을 거듭할수록 점차 손상되는 문서와 저하 지표.

『AI 위임과 장기 신뢰성에 관한 추가 노트』는 Philippe Laban, Tobias Schnabel, Jennifer Neville이 2026년 5월 15일에 공개한 새로운 Microsoft Research 블로그입니다. 원본 논문 『LLMs Corrupt Your Documents When You Delegate』의 후속편입니다. 연구에서는 20회의 문서 편집 위임 반복에서 19~34%의 충실도 저하가 나타났으며, 이 문제는 체계적이며 다양한 모델에 걸쳐 나타납니다. 특히 장기 에이전트 워크플로에 심각한 영향을 미칩니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Microsoft Research 팀 Philippe Laban, Tobias Schnabel, Jennifer Neville은 2026년 5월 15일에 「AI 위임과 장기 신뢰성에 관한 최근 연구에 대한 추가 노트」라는 블로그 게시물을 공개했습니다. 이는 현대 에이전트 시스템의 심각한 신뢰성 공백을 극적으로 드러낸 원본 논문의 후속편입니다.

원본 논문은 무엇을 밝혔습니까?

원본 논문 「LLMs Corrupt Your Documents When You Delegate」는 문서 편집의 반복 위임이 연속적인 AI 반복을 통해 콘텐츠를 손상시킨다는 것을 입증했습니다. 팀은 충실도 점수를 측정했습니다. 위임 사이클을 거치면서 문서의 품질, 정확성, 일관성이 얼마나 유지되는지를 나타내는 지표입니다. 각 개별 반복이 합리적으로 보일 때도 모델이 반복을 거듭하면서 체계적으로 정보를 잃는다는 것이 밝혀졌습니다.

논문이 구체적으로 제시하는 수치는 무엇입니까?

20회의 위임 반복을 거치면 충실도 저하가 **19~34%**에 달합니다(작업 유형과 구체적인 모델에 따라 다릅니다). 이 수치는 중요합니다. 문제를 「모델이 때때로 실수를 한다」에서 「지수적으로 누적되는 체계적 저하 신호」로 전환하기 때문입니다. 20회 반복 후, 문서는 더 이상 원본 콘텐츠의 신뢰할 수 있는 표현이 아닙니다. 이는 장기 실행 에이전트 워크플로가 일반적으로 초과하는 반복 횟수입니다.

후속 블로그 게시물은 무엇을 명확히 합니까?

팀이 후속 게시물을 공개한 것은 원본 논문이 상당한 논의를 불러일으켰고, 저자들이 「논문이 주장하는 것과 주장하지 않는 것에 대한 몇 가지 중요한 점을 명확히 하고자」 했기 때문입니다. 블로그 게시물은 다음 주제를 다룹니다.

  • 문제의 일반성 — 이것이 특정 모델의 문제인가, 아니면 체계적인 문제 클래스인가?
  • 완화 전략 — 어떤 접근 방식이 저하를 줄이는 데 도움이 되는가?
  • 프로덕션 에이전트에 대한 영향 — 어떤 워크플로가 가장 심각한 영향을 받는가?

이 발견은 에이전트 워크플로에 무엇을 의미합니까?

장기 에이전트 워크플로가 가장 심각한 영향을 받습니다. 전형적인 예시: 초안을 생성하고 편집하고 전달하는 리서치 에이전트, 단일 문서가 수십 번의 변환을 거치는 다단계 문서 자동화, 에이전트가 반복적인 요약으로 대규모 코퍼스를 축소하는 지속적인 요약 사이클입니다.

이 연구는 「에이전트 신뢰성 문제는 더 나은 모델만으로 해결할 수 있다」는 일반적인 오해를 암묵적으로 반박합니다. 저하 패턴은 충분히 체계적이어서 아키텍처 솔루션이 필요함을 시사합니다. 기준 사실 보존, 원본과의 주기적 검증, 에이전트가 전달하기 전의 명시적 개정 검토가 필요합니다.

이 접근 방식은 2026년 중요한 안전성/신뢰성 논문 주와 연동됩니다. arXiv:2605.13825 History Anchors(5월 14일), arXiv:2605.12474 Reward Hacking Rubric(5월 13일), arXiv:2605.11882 FATE 안전성(5월 13일). Microsoft Research와 이 arXiv 논문들의 조합은 에이전트 신뢰성 연구가 독립적인 학문 분야로 성숙하고 있음을 나타냅니다.

자주 묻는 질문

이 연구는 구체적으로 무엇을 측정합니까?
팀은 충실도 저하를 측정합니다. 동일 문서에 대한 AI 위임 편집을 연속으로 반복할 때 콘텐츠의 품질과 정확성이 얼마나 저하되는지를 측정하며, 20회 반복 후에는 작업 유형과 모델에 따라 19~34%의 저하가 확인되었습니다.
이 발견은 에이전트 워크플로에 무엇을 의미합니까?
장기 에이전트 워크플로(리서치 에이전트, 다단계 문서 자동화, 지속적인 요약 사이클)가 가장 심각한 영향을 받습니다. 위임할 때마다 작은 저하가 발생하고, 이것이 누적되어 시간이 지남에 따라 출력을 체계적으로 손상시킵니다.