ReContext与检索增强生成方法有何不同？

ReContext不使用外部存储或检索系统——它使用模型自身的相关性信号在现有上下文窗口内递归重组证据，保留完整的原始上下文而不进行任何截断。

ReContext在哪些模型和基准测试上进行了测试？

该技术在Qwen3-4B、Qwen3-8B和Llama3-8B上，通过128K token的八个长上下文基准测试进行了评估，在所有三种架构上均取得一致改进。

ReContext是否可以在不修改模型参数的情况下应用？

是——ReContext是完全免训练的推理技术。它作为现有模型之上的层应用，不改变任何参数、不需要微调或架构调整。

ReContext：更好地利用长上下文窗口

伊利诺伊大学的研究人员开发了ReContext——一种推理时技术，在三种LLM架构和八个基准测试中递归重放长上下文窗口中的相关证据，一致改善性能，无需重新训练。

现代语言模型支持128,000 token的上下文窗口——足以容纳整本书、大型代码库或数周的电子邮件往来。但尽管具备技术能力，伊利诺伊大学的研究人员记录了一个根本性问题：模型本身无法有效利用这些窗口中可用的信息。

Yanjun Zhao、Ruizhong Qiu、Tianxin Wei、Yuanchen Bei、Zhining Liu、Lingjie Chen、Ismini Lourentzou、Hanghang Tong和Jingrui He的研究《ReContext: Recursive Evidence Replay as LLM Harness for Long-Context Reasoning》提供了一种推理时解决方案——无需更改任何模型参数。

为什么LLM会忽视触手可及的证据？

这一问题在长上下文研究中广为人知：当相关证据不在上下文窗口的开头或结尾时，LLM倾向于对其关注较少或完全忽视。文献称之为「遗失在中间」的现象，即使在正式支持128K token的模型中也依然存在。

现有解决方案大多绕过了这个问题：检索增强生成（RAG）仅将选定片段插入上下文，从而丢失检索系统未获取的信息。上下文压缩和截断减少了输入，但有消除相关细节的风险。ReContext两种方法都不采用。

递归证据重放的工作原理

ReContext完全在推理阶段运行。该技术使用模型自身生成的相关性信号——具体是注意力分布和概率信号——来识别长上下文中哪些部分与给定查询最相关。

基于这些信号，构建由查询条件化的证据集。这些证据随后在最终生成答案之前递归重放。结果是模型在生成时将最相关的信息突出在注意力的前景中，而完整的原始上下文保持完整可用。

没有外部数据库，没有检索系统，没有截断。理论基础源自联想记忆——认知科学的一个分支，描述如何根据部分线索检索记忆。模型的上下文窗口被视为存储空间，注意力机制被视为将查询与存储模式连接的联想处理器。

在三种模型和八个基准测试上的一致提升

研究团队在Qwen3-4B、Qwen3-8B和Llama3-8B——三种不同大小和来源的架构——上通过八个基准测试（针对128K token的长上下文评估）评估了ReContext。

结果显示，三种模型上的证据利用率均一致改善。对于实践而言特别重要的是，ReContext不利用某种架构的特定特性：无论是较紧凑的4B模型还是8B模型，它都取得了提升。这表明上下文窗口利用不足的问题是系统性的——可以在推理算法层面解决，无需干预模型参数。

ReContext在所有三种模型和所有基准测试上的平均排名最低，作者将其作为主要综合性能指标。实现代码已在GitHub上公开。

无需重新训练成本的实际适用性

对于构建长上下文系统的工程师——从文档摘要和法律分析到多跳问答和代码审查代理——ReContext提供了难得的比例：显著的提升，零重新训练成本。

该技术可以作为推理层应用于兼容的LLM之上，无需更改基础设施，无需微调，无需外部向量数据库。在重新训练成本过高或不可接受更改基础模型参数的环境中，这是一个具体的优势。

这开启的更广泛问题是：当前LLM的能力中有多少隐藏在上下文窗口利用问题之后。如果同一模型仅凭推理时更智能的证据排列就能取得更好的结果，那么此前仅归因于参数规模的潜力也存在于推理策略的规模化中——无需任何额外的训练参数。

ReContext在无需重新训练的情况下改善128K上下文窗口的利用率

为什么LLM会忽视触手可及的证据？

递归证据重放的工作原理

在三种模型和八个基准测试上的一致提升

无需重新训练成本的实际适用性

常见问题

来源

相关新闻