TRIAGE가 해결하는 구체적인 문제는 무엇입니까?

표준 GRPO는 궤적의 모든 토큰에 동일한 어드밴티지를 부여합니다. 이는 실패한 실행에서 유용한 탐색에 페널티를 주고 성공한 실행에서 발라스트에 보상을 줍니다 — TRIAGE는 세그먼트의 의미론적 분류로 이를 수정합니다.

어떤 세그먼트가 어떤 역할에 속하는지 누가 평가합니까?

구조화된 LLM 판사가 각 세그먼트를 평가하고 결정적 진행, 유용한 탐색, 진행 없는 인프라 또는 회귀의 네 가지 역할 중 하나를 부여합니다.

성능 개선에 지배적인 기여를 하는 것은 무엇입니까?

절제 연구에서 성공적인 궤적 내 회귀 감지가 가장 중요한 단일 요인으로 나타났습니다 — 결과가 긍정적일 때도 회귀 행동에 페널티를 주는 것이 가장 큰 이득을 가져다 줍니다.

TRIAGE: 에이전트 RL에서의 궤적 역할

연구진이 TRIAGE를 제안합니다 — 궤적 세그먼트를 네 가지 의미론적 역할로 분류하고 각각에 다른 보상 신호를 할당하는 프레임워크로, 모든 토큰을 동일하게 처리하는 GRPO와 달리. ALFWorld, Search-QA 및 WebShop 벤치마크에서 TRIAGE는 환경에 대한 행동 수를 10.4~14.8% 줄입니다.

AI 에이전트가 작업을 해결할 때마다 궤적 — 일련의 행동, 도구 호출 및 중간 결과 — 을 생성합니다. GRPO와 같은 표준 강화학습 알고리즘은 이 시퀀스를 균일하게 처리합니다: 결과가 성공이면 모든 토큰이 긍정적인 어드밴티지를 받고; 그렇지 않으면 모두 부정적인 것을 받습니다. 문제는 이 가정이 옳지 않다는 것입니다.

균일한 어드밴티지가 나쁜 인센티브를 만드는 이유는 무엇입니까?

에이전트가 세 번 막다른 골목을 탐색하다가 네 번째 시도에 성공하는 상황을 상상해 보십시오. GRPO는 해결책을 찾는 데 도움이 된 세 번의 유용한 탐색을 포함한 네 가지 시퀀스 모두를 동일하게 보상합니다 — 하지만 아무것도 기여하지 않는 많은 발라스트 코드도 포함하여. 실패한 실행에서는 반대로 올바른 방향에 있었던 탐색 시퀀스에도 페널티를 줍니다.

TRIAGE(에이전트 RL을 위한 역할 유형 공로 귀속), 2026년 6월 30일 arXiv에 발표된 논문(2606.32017)은 기존 결과 신호와 함께 의미론적 축을 도입합니다.

네 가지 역할, 네 가지 공로 수준

고정된 구조를 가진 LLM 판사가 궤적의 각 세그먼트를 평가하고 네 가지 역할 중 하나를 부여합니다:

1. 결정적 진행 — 에이전트를 목표를 향해 직접 이동시키는 행동. 기여에 비례하여 보상.

2. 유용한 탐색 — 직접 성공으로 이어지지 않지만 막다른 골목을 제거하거나 추가 진행에 관련된 정보를 수집하는 행동. 표준 GRPO에서 실패한 실행에 페널티를 받지만; TRIAGE에서는 긍정적인 기여로 인식.

3. 진행 없는 인프라 — 필요하지만 중립적인 행동: 초기화, 파싱, 출력 형식화. 결과의 비례적 공유 외에 보상도 페널티도 없음.

4. 회귀 — 에이전트를 목표에서 멀어지게 하거나 이전 진행을 취소하거나 오류를 도입하는 행동. 최종 결과가 성공이더라도 페널티.

역할 조건부 보상 부여는 고정된 규칙에 따라 이루어집니다 — 임시 휴리스틱의 산물이 아닙니다. 저자들은 이러한 부여가 역할에서 표현 가능한 세그먼트 수준의 최적 교정을 나타냄을 증명합니다.

세 가지 벤치마크에서의 결과

TRIAGE는 ALFWorld(텍스트 기반 가정 환경에서의 탐색 및 조작), Search-QA(웹 검색을 통한 답변 찾기) 및 WebShop(시뮬레이션된 이커머스 인터페이스에서의 쇼핑)에서 테스트되었습니다.

핵심 발견: 완료된 롤아웃에서 TRIAGE는 동시에 높아진 성공률로 GRPO 대비 환경에 대한 행동 수를 10.4%에서 14.8% 줄입니다. 동일한 모델로 에이전트가 더 적은 단계에서 작업을 해결합니다 — 이는 실제로 더 낮은 비용과 더 짧은 응답 시간에 해당합니다.

절제 연구가 말하는 것은 무엇입니까?

저자들은 네 가지 역할 각각의 기여를 분리했습니다. 성공적인 궤적 내 회귀 감지가 개선의 지배적인 요인으로 나타났습니다. 이는 반직관적인 발견입니다: 가장 중요한 것은 좋은 탐색에 보상을 주는 것이 아니라 결과가 긍정적일 때도 나쁜 행동에 페널티를 주는 것입니다.

유용한 탐색 크레딧은 일관되지만 부차적인 개선을 가져왔습니다 — 제품에 대한 정보 수집이 올바른 결정에 핵심인 WebShop과 같은 환경에서 특히 두드러집니다.

문헌 내 위치

TRIAGE는 대상 모델을 변경하거나 비용이 많이 드는 추가 훈련을 도입하지 않습니다 — LLM 판사는 더 작은 특화 모델일 수 있습니다. 결과 신호(에피소드 성공/실패)는 기본 최적화 도구로 남아 있습니다; TRIAGE는 세그먼트의 의미론적 기여에 따라 궤적 내에서 그 신호를 재분배하는 처리 레이어를 추가합니다.

비용이 많이 드는 환경 — 웹, 코드, 데이터베이스 — 에서 다단계 작업을 수행하는 에이전트를 연구하는 실무자들에게 10% 이상의 행동 감소는 운영 절감으로 직접 전환됩니다. 논문은 오늘부터 arXiv에서 이용 가능합니다.

TRIAGE: 에이전트 강화학습에서 올바른 토큰에 공로를 귀속시키는 방법

균일한 어드밴티지가 나쁜 인센티브를 만드는 이유는 무엇입니까?

네 가지 역할, 네 가지 공로 수준

세 가지 벤치마크에서의 결과

절제 연구가 말하는 것은 무엇입니까?

문헌 내 위치

자주 묻는 질문

출처

관련 뉴스