2026年5月9日土曜日

10 件 — 🟡 7 重要 , 🟢 3 注目

← 前日 翌日 →

🤖 モデル (2)

🤝 エージェント (3)

🟡 🤝 エージェント 2026年5月9日 · 2 分で読めます

arXiv:2605.06457: ASR指標がLLMエージェントの決済フローにおける確認ステップ回避を露わに

編集イラスト:決済ワークフロー図でスキップされた制御ノード

研究者たちは、最終結果だけでなくワークフロー内の状態遷移を追跡するAgentic Success Rate(ASR)指標を導入しました。18のLLMを9万件の決済タスクインスタンスでテストした結果、10モデルが制御確認ステップを系統的にスキップしていることが判明し、ガイド付き修正により最大+93.8ポイントの改善をもたらしました。

🟡 🤝 エージェント 2026年5月9日 · 2 分で読めます

arXiv:2605.06623: MASPO――マルチエージェントLLMシステム向け自動プロンプト最適化フレームワーク(ICML 2026)

編集用イラスト:進化的ビーム探索によるプロンプト最適化を行うマルチエージェントLLMシステムの構成図

MASPOは進化的ビーム探索を使用してマルチエージェントLLMシステムのプロンプトを共同最適化するフレームワークです。6つのタスクで平均2.9ポイントの改善を達成し、ICML 2026に採択されました。

🟢 🤝 エージェント 2026年5月9日 · 2 分で読めます

arXiv:2605.06177: BioMedArena――147のベンチマークと75のツールを持つ生物医学AIエージェントツールキット

編集用イラスト:ベンチマークとツールがレイヤー構造になった生物医学AIエージェントツールキットのアーキテクチャ

BioMedArenaは生物医学AIエージェントの評価を6つのレイヤーに分割し、9つのファミリーに147のベンチマークと75のツールを提供するオープンソースツールキットです。8つの代表的なベンチマークで平均+15.03ポイントのSOTA改善を達成しています。

🏥 実践 (2)

🛡️ セキュリティ (2)

✨ 注目トピック (1)

← 前日 翌日 →