🟡 🏥 实践应用 2026年5月1日星期五 · 2 分钟阅读 ·

Amazon Nova 2 Lite借助强化微调达到4.33/5.0,在自动化法律合同审查中超越Claude Sonnet 4.5

编辑插图:AI评判者站在讲台上审查法律合同,机械手臂标记合同条款

强化微调(RFT)是一种训练方法,其中语言模型充当评判者(LLM-as-Judge),提供反馈以替代昂贵的人工标注。Amazon Nova 2 Lite由此在自动化法律合同审查中取得4.33/5.0的综合评分和完美的JSON验证分1.00,超越了Claude Sonnet 4.5和Claude Haiku 4.5。

AWS于2026年4月30日发布了详细指南,展示如何通过Nova Forge SDK中的强化微调(RFT)在无需昂贵人工标注的情况下,将专业模型与领域需求对齐。演示案例——自动化法律合同审查,以严格结构化的JSON格式生成风险列表、评论类型和建议措施——使Amazon Nova 2 Lite在同等评估中超越了Anthropic的更大型模型。

RFT是什么,与传统RLHF有何不同?

RFT(强化微调)是一种AI反馈强化学习(RLAIF)形式,其中奖励函数由另一个充当评判者的LLM执行。与其让人类手动标注数千个”更好/更差”答案对,评判模型根据预先定义的评分标准分配多维度分数,训练中的模型学习最大化这些分数。AWS的实现使用off_policy_async推出策略,每个样本生成8个输出,最多16,000个输出token,全局批次大小64,共516个训练步骤。

为什么LLM-as-Judge能超越更大的基础模型?

在严格结构化的法律评论提取任务中,大型通用模型倾向于输出格式不一致,而针对目标评分标准精细微调的小型模型学会了生成能精确通过schema验证的输出。AWS报告称,Nova 2 Lite在JSON schema验证上取得1.00/1.0的满分,在三个维度上的综合评分为4.33/5.0:目标文档依据性(TargetDocument_Grounding)、参考一致性(Reference_Consistency)和可操作性(Actionability)。Claude Sonnet 4.5和Claude Haiku 4.5均未达到这一水平——这意味着评判标准的精确性可能比基础模型的规模更重要。

训练配置与基础设施

系统部署在无服务器环境中:评判者和推出调用由超时时间为15分钟、预置并发数为100的Lambda处理,检查点每32步保存一次。作者(Hemanth Kumar Jayakumar、Ajit Kumar K.P.、Bharathan Balaji和Daniel Suarez)明确指出,对各维度进行布尔评分比1–10分制更可靠,因为这能降低评判方差。

企业应用的意义

LLM-as-Judge的RFT使没有人工标注预算的团队能够将更小(且更廉价)的模型专门用于法律、金融或医疗提取等狭义定义领域。如果这一结果在其他垂直领域可复制,这将是一个信号:微调工作流正进入这样一个阶段——小型专业模型在有针对性的任务中能够例行性地超越前沿基础模型。

常见问题

Nova Forge SDK中的强化微调(RFT)是什么?
RFT是一种AI反馈强化学习(RLAIF)形式,其中LLM评判者根据预定义的评分标准对生成输出进行多维度打分,模型学习最大化这些分数,无需手动标注数据。
在此次评估中,Nova 2 Lite与Claude模型相比如何?
在法律合同审查任务中,Nova 2 Lite以4.33/5.0的成绩超越了Claude Sonnet 4.5和Claude Haiku 4.5,在所有评估模型中取得了最高综合性能。
训练中使用了哪个评判者(judge)模型?
训练推出(rollout)使用GPT OSS 120B作为评判模型;评估阶段允许使用重量级层(Nova Pro、Claude Opus、Claude Sonnet)或轻量级层(Nova 2 Lite、Claude Haiku)。
🤖

本文由人工智能基于一手来源生成。