arXiv:2605.03871: EvoLM — 外部監督なしで自己改善する言語モデル
EvoLMは外部監督を排除するポストトレーニング手法です——Qwen3-8BルーブリックジェネレーターはRewardBench-2でGPT-4.1を25.7%上回り、SkyWork-RMを16%上回ります。訓練されたポリシーはOLMo3-Adaptベンチマークで69.3%を達成します。
この記事はAIにより一次情報源から生成されました。
arXivの新しい研究は、外部監督への依存を完全に排除するポストトレーニング手法を紹介しています。EvoLMは言語モデルが「判別的ルーブリック」と呼ばれる明示的な基準スケールを使って自己改善することを可能にします。これらのルーブリックは反復的なトレーニングを通じてポリシーモデルと共進化します。
このアプローチは何が違うのですか?
従来のRLHF(人間のフィードバックからの強化学習——人間による出力評価を使ったファインチューニング手法)は、人間によるラベリングか、それに基づいてトレーニングされた独立した報酬モデルを必要とします。EvoLMは代わりに時間的コントラストを使用します。モデルの古い出力と新しい出力を比較し、その差からルーブリック改善のシグナルを抽出します。
このシステムはモデルに固有の評価能力を明示的なルーブリックに構造化し、それらをポリシーと交互にトレーニングします。これによりジェネレーターと評価器が同じ基盤を共有しながら非同期に進歩するループが形成されます。
業界ベンチマークを動かす数字
Qwen3-8Bルーブリックジェネレーターは、RewardBench-2でGPT-4.1を25.7パーセントポイント上回り、これまでの最先端報酬モデルであるSkyWork-RM(8B)を16パーセントポイント上回ります。この手法でトレーニングされたポリシーはOLMo3-Adapt評価スイートで69.3%を達成します。
これはオープンな比較的小規模なモデルが評価者の役割でフロンティアモデルを上回る稀なケースです——これまでは巨大な閉鎖型システムの領域でした。
これはRLHFエコシステムにとって何を意味しますか?
独立した再現で結果が確認されれば、EvoLMはより安価で透明性の高いトレーニングへの道を開きます。報酬モデルとは別のモデルの出力品質を評価するモデルであり、ルーブリックとは明示的な基準スケールです。GPT-4.1やClaudeの評価システムへのオープンな代替手段は、重要なトレーニング段階で外部API依存を望まない研究チームや企業にとって特に重要です。
モデルが自己評価する際のこの手法の「報酬ハッキング」に対するロバスト性は未解決の問いとして残っていますが、公開ベンチマークの結果は時間的コントラストが品質崩壊に対して十分な保護を提供することを示唆しています。
よくある質問
- EvoLMは従来のRLHFで解決できない何を解決しますか?
- ポリシーと判別的ルーブリックがモデル自身の古い出力と新しい出力から共進化するため、外部報酬モデルや人間によるラベリングが不要になります。
- GPT-4.1を上回る8Bモデルがなぜ重要なのですか?
- オープンな小規模モデルがRLHFパイプラインで評価者の役割を担えることを示しており、フロンティアAPIへの依存とトレーニングコストを削減できます。
- EvoLMの文脈で判別的ルーブリックとは何ですか?
- モデルに固有の評価能力をポリシーと反復的に共訓練できる形式に構造化する明示的な基準スケールです。