VRRL解决了什么具体问题？

现有VLM在自我反思时不将修正锚定在真实视觉输入上——它们依赖先前的语言上下文并产生幻觉。VRRL通过两种强制视觉锚定的强化学习技术解决了这一特定失败模式。

VRRL中的轨迹前缀遮蔽如何工作？

在训练中，强化学习信号通过遮蔽较早的轨迹步骤聚焦于错误修正步骤——模型学习如何依靠视觉输入而非仅仅从一开始就避免错误来纠正错误。

VRRL在哪些任务上进行了评估？

该技术在带有表格和图表的视觉基础任务以及空间导航任务上进行了测试。与标准强化学习基线和面向反思的微调相比，在分布偏移样本上取得了显著更好的结果。

VRRL：VLM的视觉锚定自我反思

Liyan Tang、Fangcong Yin和Greg Durrett开发了VRRL——一种强化学习框架，通过轨迹前缀遮蔽和经验回放，迫使视觉-语言模型将自我反思锚定在真实视觉输入上，在分布偏移样本上取得显著更好的效果。

自我修正能力是在代理应用中对视觉-语言模型（VLM）的关键要求之一。当模型犯错时，它应该识别并纠正——理想情况下依靠原始视觉输入作为事实来源。

Liyan Tang、Fangcong Yin和Greg Durrett记录的问题是，现有VLM并不以正确的方式做到这一点。当进入自我反思阶段时，模型倾向于依赖先前的语言上下文，而不是真正重新看图像。结果是修正没有锚定在视觉输入上——模型改变答案，不是因为它视觉上验证了自己的错误，而是因为它改变了语言模式。

为什么标准方法无法解决视觉未锚定的自我反思？

标准微调改善了整体准确性，但不针对以视觉输入为条件的错误修正的具体问题。面向反思的微调教导模型自我反思的格式，但不保证修正真正基于图像。模型可以产生正确结构的反思，但完全忽视视觉证据。

强化学习（RL）提供了更好的起点，因为奖励可以信号最终答案的正确性。但标准RL不强制通往正确答案的路径通过视觉验证——模型可以通过语言空间中的捷径学习正确答案。VRRL（通过强化学习的视觉锚定自我反思）正是解决了这一空白。

VRRL框架内的两项技术创新

VRRL建立在RL框架之上，通过两项旨在强制视觉锚定修正的特定修改。

**第一项是轨迹前缀遮蔽。**在训练中，轨迹的早期步骤——包括初始错误——对RL信号遮蔽。模型仅根据其在修正阶段所做的事情接收奖励或惩罚。这样，优化压力针对如何纠正错误，而不仅仅是如何从一开始就避免错误。修正必须基于某些东西——而在反思阶段除了先前文本之外，模型能获得的唯一东西就是原始图像。

第二项技术是缓冲滚入——一种从过去训练轮次构建多样化失败轨迹池的经验回放机制。模型不总是从相同或类似的错误出发，而是滚入缓冲区将其暴露于广泛的失败模式。这防止对特定类型错误的过拟合，并改善在分布偏移样本上的泛化——这对于遇到不可预见视觉输入的代理系统至关重要。

结果：OOD性能显著更好

VRRL在视觉基础任务——需要在表格和图表中定位和解释对象——以及测试通过图像序列跟踪视觉关系能力的空间导航任务上进行了评估。

在所有测试配置中，VRRL在分布偏移样本（out-of-distribution，OOD）上取得了显著更好的效果，与标准RL基线和面向反思的微调相比。OOD评估对代理应用尤为重要，因为生产中的模型定期收到与训练分布不同的视觉输入——正是在这里标准方法会失效。

对代理VLM架构的更广泛背景

VRRL针对一种特定且实际重要的失败模式：实际上不改变行为的视觉验证。在VLM迭代执行操作、观察视觉反馈信号并调整计划的代理循环中，这一空白具有直接的操作后果——没有视觉锚定而进行反思的模型只是在新的表述中传播相同的错误。

论文的方法论贡献不仅在于基准测试上的更好数字。VRRL证明，选择在RL训练中遮蔽什么和重放什么，可以有目的地在模型中强制特定的认知模式。对于构建视觉代理的研究人员，这为设计明确针对因果视觉推理或空间跟踪等能力的RL算法开辟了空间，而不是仅仅依靠全局答案正确性奖励。

VRRL：强化学习迫使视觉模型在自我修正时真正利用图像

为什么标准方法无法解决视觉未锚定的自我反思？

VRRL框架内的两项技术创新

结果：OOD性能显著更好

对代理VLM架构的更广泛背景

常见问题

来源

相关新闻