검색 증강 추론이란 무엇입니까?

LLM이 추론 중에 검색(웹 또는 데이터베이스)을 호출하여 관련 문서를 검색하고 복잡한 질문에 더 잘 답하는 패러다임입니다.

왜 최종 보상 대신 단계 수준 보상을 사용합니까?

최종 보상(정답 또는 오답)은 약한 훈련 신호를 제공하기 때문입니다——모델은 어떤 구체적인 검색 단계가 유용했는지 알 수 없습니다. 단계 수준 보상은 각 개별 검색 호출을 평가합니다.

IG-Search：정보 이득을 보상으로 측정하여 검색 증강 추론을 향상, 계산 오버헤드 6.4%에 불과

IG-Search란 무엇입니까?

IG-Search는 검색 증강 추론으로 알려진 패러다임으로 생각하는 AI 모델을 훈련하는 새로운 방법입니다. 이런 모델에서 LLM은 문제를 해결하는 동안 질문에 답하는 데 도움이 될 수 있는 문서를 검색하기 위해 검색 호출을 할 수 있습니다.

핵심 혁신은 보상에 있습니다: 모든 단계 이후의 표준 최종 보상(정답 또는 오답) 대신, IG-Search는 각 개별 단계의 신호로 정보 이득을 사용합니다. 간단히 말해서, 이 방법은 검색된 문서가 정답에 대한 모델의 확신도를 얼마나 높이는지를 측정합니다——문서가 모델을 더 확신하게 만들면 양의 보상, 확신도를 낮추면 음의 보상입니다.

「외부 어노테이션 없음」이란 무엇을 의미합니까?

검색 에이전트 훈련의 전통적인 방법은 어노테이션이 달린 예시를 필요로 합니다: 인간 어노테이터가 어떤 검색 호출이 유용했는지 표시합니다. 이는 비용이 많이 들고 확장하기 어렵습니다.

IG-Search는 모델 자체의 생성 확률에서 신호를 도출합니다——문서 검색 전후로 정답의 확률 분포가 어떻게 변하는지 확인합니다. 검색 후 모델이 정답에 더 높은 확률을 부여한다면, 이는 검색이 유용한 정보를 가져왔음을 의미합니다——인간 표시 없이.

얼마나 효율적입니까?

Qwen2.5-3B 모델에서 IG-Search는 다음을 달성합니다:

평균 정확 매칭(EM) 점수: 7개 QA 벤치마크에서 0.430
MR-Search(이전 SOTA)보다 1.6점 높음
GiGPO 방법보다 0.9점 높음
계산 오버헤드: 단 약 6.4%

마지막 숫자가 중요합니다——많은 단계 수준 보상 방법은 실제로 훈련 비용을 20-50% 증가시켜 비실용적으로 만듭니다. IG-Search는 6.4%의 오버헤드로 복잡한 보상 절차가 아닌 모델 자체를 위해 대부분의 훈련 예산을 유지합니다.

소규모 모델에게 무엇을 의미합니까?

Qwen2.5-3B는 30억 매개변수 모델——실용적인 검색 에이전트의 하한선에 있습니다. IG-Search가 그 규모에서 결과를 보여준다는 사실은 비용이 많이 드는 어노테이션 없이도 동일한 방법이 7B, 14B 및 더 큰 규모에서 상당한 개선을 가져올 수 있음을 시사합니다.

저자들(Liang이 이끄는 9명의 연구원)은 코드 릴리스 날짜를 언급하지 않았지만, 낮은 오버헤드, 7개 벤치마크에 걸친 견고한 결과, 인간 어노테이션 필요성 제거의 조합이 자체 검색 증강 LLM을 구축하는 팀에게 이 방법을 매력적으로 만듭니다.

IG-Search：정보 이득을 보상으로 측정하여 검색 증강 추론을 향상, 계산 오버헤드 6.4%에 불과

IG-Search란 무엇입니까?

「외부 어노테이션 없음」이란 무엇을 의미합니까?

얼마나 효율적입니까?

소규모 모델에게 무엇을 의미합니까?

출처

관련 뉴스