Microsoft Research：AI委托19-34%保真度退化

「AI委托与长期可靠性的进一步说明」是Microsoft Research于2026年5月15日发布的新博客，作者为Philippe Laban、Tobias Schnabel和Jennifer Neville。这是原始论文「LLMs Corrupt Your Documents When You Delegate」的后续。研究显示20次文档编辑委托迭代中出现19-34%的保真度退化；该问题是系统性的，在不同模型中均有出现，对长期代理工作流影响尤为严重。

Microsoft Research团队Philippe Laban、Tobias Schnabel和Jennifer Neville于2026年5月15日发布了博客文章「关于AI委托与长期可靠性近期研究的进一步说明」——这是他们原始论文的后续，该论文戏剧性地揭示了现代代理系统中严重的可靠性空白。

原始论文发现了什么？

原始论文「LLMs Corrupt Your Documents When You Delegate」证明了迭代委托文档编辑会通过连续AI迭代损坏内容。团队测量了保真度分数——文档的质量、准确性和连贯性在委托周期中保留了多少——并发现模型通过迭代系统性地丢失信息，即使每次单独迭代看起来都是合理的。

论文具体给出哪些数字？

通过20次委托迭代，保真度退化达到19-34%，具体取决于任务类型和具体模型。这一数字意义重大，因为它将问题从「模型有时会犯错」转变为「系统性退化信号，以指数级累积」。20次迭代后，文档不再是原始内容的可靠表示——而这恰好是长期运行代理工作流通常会超过的迭代次数。

后续博客文章澄清了什么？

团队发布了后续文章，因为原始论文引发了重大讨论，作者希望「澄清关于论文内容的几个重要点——以及不包含的内容」。博客文章解答了：

问题的普遍性——这是特定模型的问题还是系统性问题？
缓解策略——哪些方法有助于减少退化？
对生产代理的影响——哪些工作流受影响最为严重？

这一发现对代理工作流意味着什么？

长期代理工作流受影响最为严重。典型示例：生成、编辑和传递草稿的研究代理；单个文档经历数十次转换的多步文档自动化；代理通过迭代摘要减少大型语料库的持续摘要循环。

该研究隐含地反驳了一个流行观点——代理可靠性问题仅通过更好的模型即可解决——退化模式足够系统化，表明需要架构解决方案：保留基准事实、定期与原始内容核实、在代理传递前进行显式修订审查。

这项研究与2026年这一重要安全/可靠性论文周相呼应——arXiv:2605.13825历史锚点（5月14日）、arXiv:2605.12474奖励黑客评分（5月13日）、arXiv:2605.11882 FATE安全性（5月13日）。Microsoft Research与这些arXiv论文的结合标志着代理可靠性研究作为独立学科的成熟。

常见问题

研究具体测量什么？

团队测量保真度退化——通过对同一文档进行连续AI委托编辑迭代，内容质量和准确性下降了多少；20次迭代后，退化程度达到19-34%，具体取决于任务类型和模型。

这一发现对代理工作流意味着什么？

长期代理工作流（研究代理、多步文档自动化、持续摘要循环）受影响最为严重——每次委托都引入小幅退化，这些退化累积叠加，随时间系统性地损坏输出。

Microsoft Research: LLM通过迭代委托损坏文档——20次迭代中19-34%的保真度退化

原始论文发现了什么？

论文具体给出哪些数字？

后续博客文章澄清了什么？

这一发现对代理工作流意味着什么？

常见问题

来源

相关新闻