🤖 24 AI
🟡 🤖 モデル 2026年4月13日月曜日 · 1 分で読めます

ArXiv PRA:4Bモデルが医療ベンチマークで80.8%を達成——小規模モデルの新SOTA

なぜ重要か

Process Reward Agentsにより、小規模の凍結モデル(0.5B〜8B)が一切の訓練なしで医療推論を大幅に改善できる——Qwen3-4BがMedQAで80.8%の新たなstate-of-the-artを達成。

医療における検証の問題

医療ドメインでの推論は特に困難である。中間ステップをローカルに検証できないためだ——数学やコードとは異なり、ステップの正確性を検証するには大規模な外部知識ベースからの情報の統合が必要となる。微妙なエラーが推論チェーン全体に伝播し、永遠に検出されない可能性がある。

Process Reward Agentsとは

研究チーム(Sohn、Sternal、Styppa、Hoefler、Moor)が**Process Reward Agents(PRA)**を導入した——凍結モデルに対してテスト時にドメインに基づいたオンラインのステップごとの報酬を提供する手法である。

完了した軌跡を事後的に評価する従来のProcess Reward Modelsとは異なり、PRAは生成の各ステップで候補軌跡をランク付けし刈り込む検索ベースのデコーディングを可能にする。

結果

  • Qwen3-4BでMedQA精度80.8%——4Bパラメータ規模での新たなstate-of-the-art
  • 0.5Bから8Bパラメータの未知の凍結モデルに汎化
  • モデル更新なしで精度が最大**25.7%**向上

新しいパラダイム

PRAは、凍結された推論器をドメイン固有の報酬モジュールから分離するパラダイムを提案する。これにより、複雑なドメインで再訓練なしに新しいバックボーンモデルのデプロイが可能になる——モデルの再認証が高コストかつ時間のかかる医療分野にとって特に重要である。

🤖 この記事はAIにより一次情報源から生成されました。