VRRL: 강화 학습이 시각 모델이 자기 수정 시 이미지를 실제로 활용하도록 강제
Liyan Tang, Fangcong Yin, Greg Durrett가 VRRL을 개발했습니다. 궤적 접두사 마스킹과 경험 리플레이를 통해 시각-언어 모델이 자기 반성을 실제 시각 입력에 근거하도록 강제하는 강화 학습 프레임워크로, 분포 외(OOD) 샘플에서 크게 향상된 성능을 달성합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
자기 수정 능력은 에이전트 애플리케이션에서 시각-언어 모델(VLM)에게 요구되는 핵심 특성 중 하나입니다. 모델이 실수를 하면 인식하고 수정해야 합니다. 이상적으로는 진실의 원천으로서 원본 시각 입력에 의존하여.
Liyan Tang, Fangcong Yin, Greg Durrett가 문서화한 문제는 기존 VLM이 이를 올바른 방식으로 수행하지 않는다는 것입니다. 자기 반성 단계에 들어갈 때 모델은 이미지를 실제로 다시 보는 대신 이전 언어 컨텍스트에 의존하는 경향이 있습니다. 결과는 시각 입력에 근거하지 않은 수정입니다. 모델이 답변을 변경하지만, 시각적으로 오류를 확인했기 때문이 아니라 언어 패턴을 변경했기 때문입니다.
표준 접근 방식이 시각적으로 근거하지 않은 자기 반성을 해결하지 못하는 이유는 무엇인가요?
표준 파인튜닝은 전반적인 정확도를 향상시키지만 시각 입력에 조건부인 오류 수정의 특정 문제를 타겟으로 하지 않습니다. 반성 지향 파인튜닝은 자기 반성 형식을 모델에게 가르치지만, 수정이 이미지에 실제로 근거할 것이라는 보장 없이. 모델은 시각적 증거를 완전히 무시하는 올바른 구조의 반성을 생성할 수 있습니다.
강화 학습(RL)은 보상이 최종 답변의 정확성을 신호할 수 있기 때문에 더 나은 출발점을 제공합니다. 그러나 표준 RL은 올바른 답변으로의 경로가 시각적 확인을 통과하도록 강제하지 않습니다. 모델은 언어 공간의 지름길을 통해 올바른 답변을 학습할 수 있습니다. VRRL(Visually Grounded Self-Reflection via Reinforcement Learning)은 바로 이 격차를 해결합니다.
VRRL 프레임워크 내의 두 가지 기술 혁신
VRRL은 시각적으로 근거한 수정을 강제하기 위한 두 가지 특정 수정을 가진 RL 프레임워크를 기반으로 합니다.
첫 번째는 궤적 접두사 마스킹입니다. 훈련 중 초기 궤적 단계—초기 오류 포함—은 RL 신호에서 마스킹됩니다. 모델은 오직 수정 단계에서 무엇을 하는지에 따라 보상이나 패널티를 받습니다. 이 방식으로 최적화 압력은 처음부터 오류를 피하는 방법이 아니라 오류를 수정하는 방법을 향해 유도됩니다. 수정은 무언가에 근거해야 합니다. 그리고 모델이 반성 단계에서 이전 텍스트 외에 사용 가능한 것은 오직 원본 이미지뿐입니다.
두 번째 기법은 버퍼된 롤인입니다. 이전 훈련 에폭에서 다양한 실패 궤적 풀을 구축하는 경험 리플레이 메커니즘. 모델이 항상 동일하거나 유사한 오류에서 시작하는 대신 롤인 버퍼는 광범위한 실패 모드에 노출시킵니다. 이를 통해 특정 유형의 오류에 대한 과적합을 방지하고 분포 외 샘플에 대한 일반화를 향상시킵니다. 이는 예상치 못한 시각 입력을 접하는 에이전트 시스템에 매우 중요합니다.
결과: 크게 향상된 OOD 성능
VRRL은 시각적 근거—테이블과 그래프에서 객체의 지역화 및 해석이 필요한 태스크—와 이미지 시퀀스를 통한 시각적 관계 추적 능력을 테스트하는 공간 탐색 태스크에서 평가되었습니다.
테스트된 모든 구성에서 VRRL은 표준 RL 기준선 및 반성 지향 파인튜닝과 비교하여 분포 외 샘플(OOD)에서 크게 향상된 성능을 달성합니다. OOD 평가는 프로덕션의 모델이 정기적으로 훈련 분포와 다른 시각 입력을 받기 때문에 에이전트 애플리케이션에 특히 관련이 있습니다. 그리고 바로 이 지점에서 표준 접근 방식이 실패합니다.
에이전트 VLM 아키텍처의 더 넓은 맥락
VRRL은 특정하고 실용적으로 중요한 실패 모드를 타겟으로 합니다. 실제로 행동을 변경하지 않는 시각적 확인. VLM이 반복적으로 작업을 실행하고, 시각적 피드백 신호를 관찰하고, 계획을 조정하는 에이전트 루프에서 이 격차는 직접적인 운영 결과를 가집니다. 시각적 근거 없이 반성하는 모델은 단순히 새로운 공식화로 동일한 오류를 전파합니다.
논문의 방법론적 기여는 벤치마크의 더 나은 수치에만 있는 것이 아닙니다. VRRL은 RL 훈련에서 무엇을 마스킹하고 리플레이할지의 선택이 모델에서 특정 인지 모드를 목표로 강제할 수 있음을 시연합니다. 시각 에이전트를 구축하는 연구자에게 이것은 오직 답변 정확도에 대한 전역 보상에 의존하는 대신 인과적 시각 추론이나 공간 추적과 같은 능력을 명시적으로 타겟으로 하는 RL 알고리즘을 설계할 수 있는 가능성을 열어줍니다.
자주 묻는 질문
- VRRL이 해결하는 구체적인 문제는 무엇인가요?
- 기존 VLM은 자기 반성 시 실제 시각 입력에 수정을 근거하지 않습니다. 이전 언어 컨텍스트에 의존하고 환각을 일으킵니다. VRRL은 오류 수정 시 시각적 근거를 강제하는 두 가지 RL 기법을 통해 이 특정 실패 모드를 해결합니다.
- VRRL의 궤적 접두사 마스킹은 어떻게 작동하나요?
- 훈련 중 RL 신호는 이전 궤적 단계를 마스킹하여 오류 수정 단계에 집중합니다. 모델은 처음부터 오류를 피하는 방법이 아니라 시각 입력에 의존하여 오류를 수정하는 방법을 학습합니다.
- VRRL은 어떤 태스크에서 평가되었나요?
- 이 기법은 테이블과 그래프의 시각적 근거와 공간 탐색 태스크에서 테스트되었습니다. 표준 RL 기준선 및 반성 지향 파인튜닝과 비교하여 분포 외 샘플에서 크게 향상된 결과가 기록되었습니다.