2026年4月13日月曜日

4 件 — 🔴 1 重大 , 🟡 2 重要 , 🟢 1 注目

🤖 モデル (2)

Process Reward Agentsにより、小規模の凍結モデル（0.5B〜8B）が一切の訓練なしで医療推論を大幅に改善できる——Qwen3-4BがMedQAで80.8%の新たなstate-of-the-artを達成。

Sequence-Level PPOはLLM推論をコンテキストバンディット問題として再定式化し、マルチサンプリングなしでGRPOなどの高コストなグループ手法と同等のパフォーマンスを劇的に少ないリソースで達成する。

新しいベンチマークがAIエージェントの判断力における普遍的な欠陥を明らかにした——仕様が不完全な場合、いかなるフロンティアモデルもフルパフォーマンスのごくわずかしか達成できない。研究者たちは、このスキルが強化学習で訓練可能であることを示した。

カスタマーサービス向けの新ベンチマークが2つの現象を明らかにした：'Execution Gap'（モデルは意図を正しく分類するが正しいアクションを実行しない）と'Empathy Resilience'（モデルは論理的エラーを犯しながら礼儀正しさを維持する）。