ReContext在无需重新训练的情况下改善128K上下文窗口的利用率
伊利诺伊大学的研究人员开发了ReContext——一种推理时技术,在三种LLM架构和八个基准测试中递归重放长上下文窗口中的相关证据,一致改善性能,无需重新训练。
本文由人工智能基于一手来源生成。
现代语言模型支持128,000 token的上下文窗口——足以容纳整本书、大型代码库或数周的电子邮件往来。但尽管具备技术能力,伊利诺伊大学的研究人员记录了一个根本性问题:模型本身无法有效利用这些窗口中可用的信息。
Yanjun Zhao、Ruizhong Qiu、Tianxin Wei、Yuanchen Bei、Zhining Liu、Lingjie Chen、Ismini Lourentzou、Hanghang Tong和Jingrui He的研究《ReContext: Recursive Evidence Replay as LLM Harness for Long-Context Reasoning》提供了一种推理时解决方案——无需更改任何模型参数。
为什么LLM会忽视触手可及的证据?
这一问题在长上下文研究中广为人知:当相关证据不在上下文窗口的开头或结尾时,LLM倾向于对其关注较少或完全忽视。文献称之为「遗失在中间」的现象,即使在正式支持128K token的模型中也依然存在。
现有解决方案大多绕过了这个问题:检索增强生成(RAG)仅将选定片段插入上下文,从而丢失检索系统未获取的信息。上下文压缩和截断减少了输入,但有消除相关细节的风险。ReContext两种方法都不采用。
递归证据重放的工作原理
ReContext完全在推理阶段运行。该技术使用模型自身生成的相关性信号——具体是注意力分布和概率信号——来识别长上下文中哪些部分与给定查询最相关。
基于这些信号,构建由查询条件化的证据集。这些证据随后在最终生成答案之前递归重放。结果是模型在生成时将最相关的信息突出在注意力的前景中,而完整的原始上下文保持完整可用。
没有外部数据库,没有检索系统,没有截断。理论基础源自联想记忆——认知科学的一个分支,描述如何根据部分线索检索记忆。模型的上下文窗口被视为存储空间,注意力机制被视为将查询与存储模式连接的联想处理器。
在三种模型和八个基准测试上的一致提升
研究团队在Qwen3-4B、Qwen3-8B和Llama3-8B——三种不同大小和来源的架构——上通过八个基准测试(针对128K token的长上下文评估)评估了ReContext。
结果显示,三种模型上的证据利用率均一致改善。对于实践而言特别重要的是,ReContext不利用某种架构的特定特性:无论是较紧凑的4B模型还是8B模型,它都取得了提升。这表明上下文窗口利用不足的问题是系统性的——可以在推理算法层面解决,无需干预模型参数。
ReContext在所有三种模型和所有基准测试上的平均排名最低,作者将其作为主要综合性能指标。实现代码已在GitHub上公开。
无需重新训练成本的实际适用性
对于构建长上下文系统的工程师——从文档摘要和法律分析到多跳问答和代码审查代理——ReContext提供了难得的比例:显著的提升,零重新训练成本。
该技术可以作为推理层应用于兼容的LLM之上,无需更改基础设施,无需微调,无需外部向量数据库。在重新训练成本过高或不可接受更改基础模型参数的环境中,这是一个具体的优势。
这开启的更广泛问题是:当前LLM的能力中有多少隐藏在上下文窗口利用问题之后。如果同一模型仅凭推理时更智能的证据排列就能取得更好的结果,那么此前仅归因于参数规模的潜力也存在于推理策略的规模化中——无需任何额外的训练参数。
常见问题
- ReContext与检索增强生成方法有何不同?
- ReContext不使用外部存储或检索系统——它使用模型自身的相关性信号在现有上下文窗口内递归重组证据,保留完整的原始上下文而不进行任何截断。
- ReContext在哪些模型和基准测试上进行了测试?
- 该技术在Qwen3-4B、Qwen3-8B和Llama3-8B上,通过128K token的八个长上下文基准测试进行了评估,在所有三种架构上均取得一致改进。
- ReContext是否可以在不修改模型参数的情况下应用?
- 是——ReContext是完全免训练的推理技术。它作为现有模型之上的层应用,不改变任何参数、不需要微调或架构调整。