🟡 🤖 모델 2026년 4월 13일 월요일 · 1 분 읽기
ArXiv PRA: 4B 모델이 의료 벤치마크에서 80.8% 달성 — 소규모 모델의 새로운 SOTA
왜 중요한가
Process Reward Agents는 소규모 동결 모델(0.5B-8B)이 어떠한 훈련 없이도 의료 추론을 크게 향상시킬 수 있게 한다 — Qwen3-4B가 MedQA에서 80.8%의 새로운 최고 성능을 달성했다.
의료 분야의 검증 문제
의료 도메인에서의 추론은 중간 단계를 로컬로 검증할 수 없기 때문에 특히 어렵다 — 수학이나 코드와 달리, 단계의 정확성을 검증하려면 대규모 외부 지식 기반에서 정보를 종합해야 한다. 미묘한 오류가 추론 체인 전체에 전파되어 영원히 발견되지 않을 수 있다.
Process Reward Agents란
연구팀(Sohn, Sternal, Styppa, Hoefler, Moor)이 **Process Reward Agents(PRA)**를 도입했다 — 동결 모델에 테스트 시점에 도메인 기반의 온라인 단계별 보상을 제공하는 방법이다.
완료된 궤적을 사후에 평가하는 기존의 Process Reward Models와 달리, PRA는 생성의 각 단계에서 후보 궤적을 순위를 매기고 가지치기하는 검색 기반 디코딩을 가능하게 한다.
결과
- Qwen3-4B로 MedQA 정확도 80.8% — 4B 파라미터 규모의 새로운 최고 성능
- 0.5B에서 8B 파라미터의 이전에 보지 못한 동결 모델에 일반화
- 모델 업데이트 없이 정확도 최대 25.7% 향상
새로운 패러다임
PRA는 동결된 추론기를 도메인 특화 보상 모듈로부터 분리하는 패러다임을 제안한다. 이를 통해 재훈련 없이 복잡한 도메인에 새로운 백본 모델을 배포할 수 있다 — 모델의 재인증이 비용이 많이 들고 시간이 오래 걸리는 의료 분야에서 특히 중요하다.
🤖 이 기사는 AI가 1차 출처를 기반으로 생성했습니다.