Nova 2 Lite RFT: 4.33/5점과 완벽 JSON으로 Claude 4.5 능가

강화 파인튜닝(RFT)은 언어 모델이 심판자(LLM-as-Judge)로서 고비용 수동 레이블링 대신 피드백을 제공하는 학습 방법입니다. Amazon Nova 2 Lite는 이를 통해 자동화 법률 계약 검토에서 종합 점수 4.33/5.0과 완벽한 JSON 검증 점수 1.00을 달성하여 Claude Sonnet 4.5와 Claude Haiku 4.5를 앞질렀습니다.

AWS는 2026년 4월 30일, Nova Forge SDK의 강화 파인튜닝(RFT)을 통해 고비용 수동 레이블링 없이 특화 모델을 도메인 요구사항에 맞추는 방법을 보여주는 상세 가이드를 발표했습니다. 시연 사례는 엄격하게 구조화된 JSON으로 리스크 목록, 코멘트 유형, 권장 조치를 생성하는 법률 계약 자동 검토이며, 이 작업에서 Amazon Nova 2 Lite는 같은 평가에서 Anthropic의 더 큰 모델들을 앞질렀습니다.

RFT란 무엇이며 기존 RLHF와 어떻게 다른가?

RFT(강화 파인튜닝)는 보상 함수를 심판자로 작동하는 또 다른 LLM이 수행하는 AI 피드백 강화 학습(RLAIF)의 한 형태입니다. 수천 개의 ‘더 좋음/더 나쁨’ 응답 쌍을 수동으로 레이블링하는 대신, 심판 모델이 사전 정의된 루브릭에 따라 다차원 점수를 할당하고 훈련 중인 모델은 해당 점수를 최대화하도록 학습합니다. AWS 구현은 샘플당 8회 생성, 최대 16,000 출력 토큰, 글로벌 배치 크기 64, 총 516 스텝의 off_policy_async 롤아웃 전략을 사용합니다.

왜 LLM-as-Judge가 더 큰 기본 모델을 능가하는가?

엄격하게 구조화된 법률 코멘트 추출 작업에서 대형 범용 모델은 출력 형식이 일관되지 않은 경향이 있습니다. 반면 목표 루브릭으로 파인튜닝된 소형 모델은 스키마 검증을 정확히 통과하는 출력을 생성하도록 학습합니다. AWS에 따르면 Nova 2 Lite는 JSON 스키마 검증에서 1.00/1.0을 달성했으며, TargetDocument_Grounding(대상 문서 근거성), Reference_Consistency(참조 일관성), Actionability(실행 가능성)의 세 가지 차원에서 종합 4.33/5.0을 기록했습니다. Claude Sonnet 4.5와 Claude Haiku 4.5는 이 수준에 미치지 못했습니다. 즉 심판의 루브릭 정밀도가 기본 모델의 규모보다 더 중요할 수 있습니다.

훈련 구성 및 인프라

시스템은 서버리스 환경에 구축되어 있으며, 심판 및 롤아웃 호출은 타임아웃 15분, 프로비저닝 동시성 100의 Lambda에서 처리되고, 체크포인트는 32 스텝마다 저장됩니다. 저자들(Hemanth Kumar Jayakumar, Ajit Kumar K.P., Bharathan Balaji, Daniel Suarez)은 각 차원의 불리언 채점이 1~10 척도보다 신뢰성이 높아 심판의 분산을 줄인다고 명시적으로 언급합니다.

엔터프라이즈 적용에 대한 시사점

LLM-as-Judge의 RFT는 수동 레이블링 예산이 없는 팀이 법률, 금융, 의료 추출과 같이 좁게 정의된 도메인에 더 소형(그리고 더 저렴한) 모델을 특화시킬 수 있게 해줍니다. 이 결과가 다른 버티컬에서도 재현 가능하다면, 소형 전문 모델이 대상 작업에서 프론티어 기본 모델을 일상적으로 능가하는 단계로 파인튜닝 워크플로우가 진입하고 있다는 신호입니다.

자주 묻는 질문

Nova Forge SDK의 강화 파인튜닝(RFT)이란 무엇입니까?

RFT는 AI 피드백 강화 학습(RLAIF)의 한 형태로, LLM 심판자가 사전 정의된 루브릭에 따라 생성된 출력에 다차원 점수를 부여하고, 모델은 수동 데이터 레이블링 없이 해당 점수를 최대화하도록 학습합니다.

이번 평가에서 Nova 2 Lite는 Claude 모델과 어떻게 비교됩니까?

법률 계약 검토 작업에서 Nova 2 Lite는 4.33/5.0으로 Claude Sonnet 4.5와 Claude Haiku 4.5를 모두 능가하며 평가 대상 전체 모델 중 가장 높은 종합 성능을 달성했습니다.

훈련에 사용된 심판자(judge) 모델은 무엇입니까?

훈련 롤아웃에는 GPT OSS 120B가 심판 모델로 사용되었습니다. 평가 단계에서는 중량급 티어(Nova Pro, Claude Opus, Claude Sonnet) 또는 경량급 티어(Nova 2 Lite, Claude Haiku)를 사용할 수 있습니다.

Amazon Nova 2 Lite, 강화 파인튜닝으로 4.33/5.0 달성 — 자동화 법률 계약 검토에서 Claude Sonnet 4.5 초과

RFT란 무엇이며 기존 RLHF와 어떻게 다른가?

왜 LLM-as-Judge가 더 큰 기본 모델을 능가하는가?

훈련 구성 및 인프라

엔터프라이즈 적용에 대한 시사점

자주 묻는 질문

출처

관련 뉴스