Nova 2 Lite RFT：4.33/5分与完美JSON vs Claude 4.5

强化微调（RFT）是一种训练方法，其中语言模型充当评判者（LLM-as-Judge），提供反馈以替代昂贵的人工标注。Amazon Nova 2 Lite由此在自动化法律合同审查中取得4.33/5.0的综合评分和完美的JSON验证分1.00，超越了Claude Sonnet 4.5和Claude Haiku 4.5。

AWS于2026年4月30日发布了详细指南，展示如何通过Nova Forge SDK中的强化微调（RFT）在无需昂贵人工标注的情况下，将专业模型与领域需求对齐。演示案例——自动化法律合同审查，以严格结构化的JSON格式生成风险列表、评论类型和建议措施——使Amazon Nova 2 Lite在同等评估中超越了Anthropic的更大型模型。

RFT是什么，与传统RLHF有何不同？

RFT（强化微调）是一种AI反馈强化学习（RLAIF）形式，其中奖励函数由另一个充当评判者的LLM执行。与其让人类手动标注数千个”更好/更差”答案对，评判模型根据预先定义的评分标准分配多维度分数，训练中的模型学习最大化这些分数。AWS的实现使用off_policy_async推出策略，每个样本生成8个输出，最多16,000个输出token，全局批次大小64，共516个训练步骤。

为什么LLM-as-Judge能超越更大的基础模型？

在严格结构化的法律评论提取任务中，大型通用模型倾向于输出格式不一致，而针对目标评分标准精细微调的小型模型学会了生成能精确通过schema验证的输出。AWS报告称，Nova 2 Lite在JSON schema验证上取得1.00/1.0的满分，在三个维度上的综合评分为4.33/5.0：目标文档依据性（TargetDocument_Grounding）、参考一致性（Reference_Consistency）和可操作性（Actionability）。Claude Sonnet 4.5和Claude Haiku 4.5均未达到这一水平——这意味着评判标准的精确性可能比基础模型的规模更重要。

训练配置与基础设施

系统部署在无服务器环境中：评判者和推出调用由超时时间为15分钟、预置并发数为100的Lambda处理，检查点每32步保存一次。作者（Hemanth Kumar Jayakumar、Ajit Kumar K.P.、Bharathan Balaji和Daniel Suarez）明确指出，对各维度进行布尔评分比1–10分制更可靠，因为这能降低评判方差。

企业应用的意义

LLM-as-Judge的RFT使没有人工标注预算的团队能够将更小（且更廉价）的模型专门用于法律、金融或医疗提取等狭义定义领域。如果这一结果在其他垂直领域可复制，这将是一个信号：微调工作流正进入这样一个阶段——小型专业模型在有针对性的任务中能够例行性地超越前沿基础模型。

常见问题

Nova Forge SDK中的强化微调（RFT）是什么？

RFT是一种AI反馈强化学习（RLAIF）形式，其中LLM评判者根据预定义的评分标准对生成输出进行多维度打分，模型学习最大化这些分数，无需手动标注数据。

在此次评估中，Nova 2 Lite与Claude模型相比如何？

在法律合同审查任务中，Nova 2 Lite以4.33/5.0的成绩超越了Claude Sonnet 4.5和Claude Haiku 4.5，在所有评估模型中取得了最高综合性能。

训练中使用了哪个评判者（judge）模型？

训练推出（rollout）使用GPT OSS 120B作为评判模型；评估阶段允许使用重量级层（Nova Pro、Claude Opus、Claude Sonnet）或轻量级层（Nova 2 Lite、Claude Haiku）。

Amazon Nova 2 Lite借助强化微调达到4.33/5.0，在自动化法律合同审查中超越Claude Sonnet 4.5

RFT是什么，与传统RLHF有何不同？

为什么LLM-as-Judge能超越更大的基础模型？

训练配置与基础设施

企业应用的意义

常见问题

来源

相关新闻