Amazon Nova 2 Lite、強化ファインチューニングで4.33/5.0を達成しClaudeモデルを上回る——法律契約の自動レビューで
強化ファインチューニング(RFT)とは、言語モデルが評価者(LLM-as-Judge)として機能しフィードバックを提供することで、高コストな人手ラベリングを不要にする学習手法です。Amazon Nova 2 Liteはこの手法により、法律契約の自動レビューで総合スコア4.33/5.0および完璧なJSON検証スコア1.00を達成し、Claude Sonnet 4.5とClaude Haiku 4.5を上回りました。
AWSは2026年4月30日、Nova Forge SDK上の強化ファインチューニング(RFT)によって、高コストな人手ラベリングなしに特化型モデルをドメイン要件に合わせる方法を示す詳細なガイドを公開しました。デモユースケースは、厳格に構造化されたJSONでリスク一覧・コメント種別・推奨アクションを生成する法律契約の自動レビューであり、このタスクにおいてAmazon Nova 2 Liteは同評価でAnthropicの大型モデルを上回りました。
RFTとは何か、従来のRLHFとどう違うのか?
RFT(強化ファインチューニング)は、報酬関数をジャッジとして機能する別のLLMが担うAIフィードバック付き強化学習(RLAIF)の一形態です。何千もの「より良い・より悪い」回答ペアを人手でラベリングする代わりに、ジャッジモデルが事前定義された評価基準に従って多次元スコアを付与し、学習中のモデルはそのスコアを最大化するよう訓練されます。AWSの実装はoff_policy_asyncロールアウト戦略を採用しており、サンプルあたり8回生成、最大16,000出力トークン、グローバルバッチサイズ64、合計516ステップで構成されています。
なぜLLM-as-Judgeは大型のベースラインモデルを上回るのか?
厳格に構造化された法律コメント抽出タスクでは、大規模な汎用モデルが出力フォーマットにばらつきを生じさせる傾向があります。一方、対象とする評価基準でファインチューニングされた小型モデルは、スキーマ検証を正確に通過する出力を生成するよう学習します。AWSによれば、Nova 2 LiteはJSONスキーマ検証で1.00/1.0を達成し、TargetDocument_Grounding(対象文書への根拠性)、Reference_Consistency(参照一致性)、Actionability(実行可能性)の3次元で4.33/5.0の総合スコアを獲得しました。Claude Sonnet 4.5およびClaude Haiku 4.5はこの水準に達しませんでした。つまり、ジャッジにおける評価基準の精度が、ベースラインモデルのサイズより重要である可能性があります。
トレーニング構成とインフラ
システムはサーバーレス環境に構築されており、ジャッジとロールアウトの呼び出しはタイムアウト15分・プロビジョニング済み同時実行数100のLambdaで処理され、チェックポイントは32ステップごとに保存されます。著者たち(Hemanth Kumar Jayakumar、Ajit Kumar K.P.、Bharathan Balaji、Daniel Suarez)は、各次元のブール評価は1〜10スケールよりも信頼性が高く、判定のばらつきを抑えられると明示的に述べています。
エンタープライズ活用への示唆
LLM-as-JudgeによるRFTは、人手ラベリング予算を持たないチームが、法律・金融・医療抽出などの狭く定義されたドメインに向けて、より小型(かつ低コスト)なモデルを特化させることを可能にします。他のバーティカルでもこの結果が再現できるなら、小型の専門モデルが対象タスクにおいてフロンティアベースラインを日常的に上回るフェーズにファインチューニングのワークフローが入りつつあるというシグナルです。
よくある質問
- Nova Forge SDKにおける強化ファインチューニング(RFT)とは何ですか?
- RFTはAIフィードバック付き強化学習(RLAIF)の一形態で、LLMジャッジが事前定義された評価基準に基づいて生成出力に多次元スコアを付与し、モデルはそのスコアを最大化するよう学習します。人手によるデータラベリングは不要です。
- 今回の評価でNova 2 LiteはClaudeモデルとどう比較されましたか?
- 法律契約のレビュータスクにおいて、Nova 2 Liteは4.33/5.0のスコアでClaude Sonnet 4.5およびClaude Haiku 4.5を上回り、評価対象の全モデル中で最高の総合性能を達成しました。
- トレーニングで使用されたジャッジ(judge)モデルは何ですか?
- トレーニングのロールアウトにはGPT OSS 120Bがジャッジモデルとして使用されました。評価フェーズでは、重量級ティア(Nova Pro、Claude Opus、Claude Sonnet)または軽量級ティア(Nova 2 Lite、Claude Haiku)の利用が可能です。
この記事はAIにより一次情報源から生成されました。