Nova 2 Lite RFT: 4,33/5 und 1,00 JSON vs. Claude 4.5

Reinforcement Fine-Tuning (RFT) ist eine Trainingsmethode, bei der ein Sprachmodell als Richter (LLM-as-Judge) fungiert und Rückmeldungen gibt, anstatt teure manuelle Beschriftung zu erfordern. Amazon Nova 2 Lite erzielte damit einen Gesamtscore von 4,33/5,0 und eine perfekte JSON-Validierung von 1,00 und übertraf Claude Sonnet 4.5 sowie Claude Haiku 4.5 bei der automatisierten Prüfung von Rechtsverträgen.

AWS veröffentlichte am 30. April 2026 einen ausführlichen Leitfaden, der zeigt, wie Reinforcement Fine-Tuning (RFT) über das Nova Forge SDK ein spezialisiertes Modell an Domänenanforderungen anpassen kann – ohne aufwändige manuelle Beschriftung. Der demonstrierte Anwendungsfall – die automatische Prüfung von Rechtsverträgen mit einer generierten Liste von Risiken, Kommentartypen und empfohlenen Maßnahmen in streng strukturiertem JSON – platziert Amazon Nova 2 Lite vor größeren Anthropic-Modellen in derselben Auswertung.

Was ist RFT und wie unterscheidet es sich von klassischem RLHF?

RFT (Reinforcement Fine-Tuning) ist eine Form von Reinforcement Learning with AI Feedback (RLAIF), bei der die Belohnungsfunktion von einem anderen LLM übernommen wird, das als Richter agiert. Anstatt dass Menschen tausende von „besser/schlechter“-Antwortpaaren manuell beschriften, vergibt das Richtermodell mehrdimensionale Bewertungen gemäß einer vordefinierten Rubrik, und das trainierte Modell lernt, diese Bewertungen zu maximieren. Die AWS-Implementierung verwendet eine off_policy_async-Rollout-Strategie mit 8 Generierungen pro Stichprobe, bis zu 16.000 Ausgabe-Tokens, einer globalen Batch-Größe von 64 und insgesamt 516 Schritten.

Warum übertrifft LLM-as-Judge größere Basismodelle?

Bei einer streng strukturierten Aufgabe zur Extraktion rechtlicher Kommentare neigen große generalistische Modelle dazu, ihr Ausgabeformat zu variieren, während ein kleineres Modell, das mit einer gezielten Rubrik feinabgestimmt wurde, lernt, Ausgaben zu erzeugen, die die Schema-Validierung präzise bestehen. AWS berichtet, dass Nova 2 Lite 1,00/1,0 bei der JSON-Schema-Validierung und 4,33/5,0 im Gesamtdurchschnitt über drei Dimensionen erreichte: TargetDocument_Grounding, Reference_Consistency und Actionability. Claude Sonnet 4.5 und Claude Haiku 4.5 blieben beide darunter – was bedeutet, dass die Präzision der Rubrik im Richtermodell wichtiger sein kann als die Größe des Basismodells.

Trainingskonfiguration und Infrastruktur

Das System läuft in einer serverlosen Umgebung: Richter- und Rollout-Aufrufe werden von Lambda mit einem 15-Minuten-Timeout und einer bereitgestellten Parallelität von 100 verarbeitet, Checkpoints werden alle 32 Schritte gespeichert. Die Autoren (Hemanth Kumar Jayakumar, Ajit Kumar K.P., Bharathan Balaji und Daniel Suarez) weisen ausdrücklich darauf hin, dass die boolesche Bewertung einzelner Dimensionen zuverlässiger ist als eine 1–10-Skala, da sie die Urteilsvarianz reduziert.

Implikationen für den Unternehmenseinsatz

RFT mit LLM-as-Judge ermöglicht es Teams ohne Budget für manuelle Beschriftung, kleinere (und günstigere) Modelle für eng definierte Domänen wie rechtliche, finanzielle oder medizinische Extraktion zu spezialisieren. Wenn die Ergebnisse auf anderen Branchen reproduzierbar sind, signalisiert dies, dass KI-Feinabstimmungs-Workflows in eine Phase eintreten, in der kleine Spezialmodelle Frontier-Basismodelle bei gezielten Aufgaben routinemäßig übertreffen können.

Häufig gestellte Fragen

Was ist Reinforcement Fine-Tuning (RFT) im Nova Forge SDK?

RFT ist eine Form von Reinforcement Learning with AI Feedback (RLAIF), bei der ein KI-Richtermodell mehrdimensionale Bewertungen für generierte Ausgaben vergibt und das trainierte Modell lernt, diese zu maximieren – ohne manuell beschriftete Daten.

Wie schnitt Nova 2 Lite im Vergleich zu Claude-Modellen in dieser Auswertung ab?

Bei der Aufgabe zur Prüfung von Rechtsverträgen erzielte Nova 2 Lite 4,33/5,0 und übertraf sowohl Claude Sonnet 4.5 als auch Claude Haiku 4.5 mit der höchsten Gesamtleistung aller ausgewerteten Modelle.

Welches Richtermodell wurde beim Training eingesetzt?

Für die Trainings-Rollouts wurde GPT OSS 120B als Richtermodell verwendet, während die Auswertung ein Heavy-Tier (Nova Pro, Claude Opus, Claude Sonnet) oder ein Light-Tier (Nova 2 Lite, Claude Haiku) erlaubt.

Amazon Nova 2 Lite mit Reinforcement Fine-Tuning erreicht 4,33/5,0 und übertrifft Claude Sonnet 4.5 bei der automatisierten Prüfung von Rechtsverträgen

Was ist RFT und wie unterscheidet es sich von klassischem RLHF?

Warum übertrifft LLM-as-Judge größere Basismodelle?

Trainingskonfiguration und Infrastruktur

Implikationen für den Unternehmenseinsatz

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten