🤖 モデル

5 件

🟡 🤖 モデル 2026年4月14日 · 2 分で読めます

ArXiv：Process Reward Agents——リアルタイムフィードバックで再トレーニングなしにAIの医療推論を改善

研究者がProcess Reward Agents（PRA）を発表しました。医療分野でのAI推論中にステップごとのリアルタイムフィードバックを提供する新しいアプローチです。既存のモデルに再トレーニングなしで適用でき、医療ベンチマークで顕著な成果を上げています。

🟡 🤖 モデル 2026年4月13日 · 1 分で読めます

ArXiv PRA：4Bモデルが医療ベンチマークで80.8%を達成——小規模モデルの新SOTA

Process Reward Agentsにより、小規模の凍結モデル（0.5B〜8B）が一切の訓練なしで医療推論を大幅に改善できる——Qwen3-4BがMedQAで80.8%の新たなstate-of-the-artを達成。

🟡 🤖 モデル 2026年4月13日 · 2 分で読めます

ArXiv SPPO：シーケンスレベルPPOが長い推論チェーンにおけるクレジット割り当て問題を解決

Sequence-Level PPOはLLM推論をコンテキストバンディット問題として再定式化し、マルチサンプリングなしでGRPOなどの高コストなグループ手法と同等のパフォーマンスを劇的に少ないリソースで達成する。

🟡 🤖 モデル 2026年4月11日 · 2 分で読めます

ArXiv SUPERNOVA：自然命令での強化学習により推論能力が52.8%向上

新しい論文SUPERNOVAは、既存の指示チューニングデータセットの体系的なキュレーションが、LLMの推論能力を大幅に向上させることができることを示しています。SUPERNOVAで訓練されたモデルは、BBEHベンチマークで最大52.8%の相対的な改善を達成しました。

🟢 🤖 モデル 2026年4月10日 · 2 分で読めます

Sentence Transformers v5.4がマルチモーダル埋め込みおよびリランカーモデルのサポートを追加

HuggingFaceのSentence TransformersライブラリはバージョンM5.4を取得し、マルチモーダル埋め込みおよびリランカーモデルを導入しました。ユーザーはテキスト、画像、オーディオ、ビデオを共通の埋め込み空間にマッピングし、クロスモーダル類似性を計算できるようになりました — 異なるタイプのコンテンツ検索の統合です。