2026年5月4日月曜日

9 件 — 🟡 6 重要 , 🟢 3 注目

← 前日 翌日 →

🤖 モデル (2)

🤝 エージェント (4)

🟡 🤝 エージェント 2026年5月4日 · 2 分で読めます

ArXiv AEM:マルチターンRL エージェントの適応的エントロピー変調がSWE-bench Verifiedで+1.4%を達成

Editorial illustration: ArXiv AEM:マルチターンRLエージェントの適応的エントロピー変調がSWE-bench Verifiedで+1.4%を達成

AEM(Adaptive Entropy Modulation)は教師なし学習のトレーニング手法で、マルチターン対話全体のエントロピーを動的に変調することで、LLMエージェントの強化学習における探索と活用のバランスを改善する。1.5Bから32Bパラメータのモデルでテストされ、SWE-bench Verifiedベンチマークで最先端ベースラインに統合した際に1.4%の改善を達成する。

🟡 🤝 エージェント 2026年5月4日 · 3 分で読めます

ICML 2026立場論文:30名の著者がエージェントAIのオーケストレーションはベイズ一貫性を持つべきと主張

Editorial illustration: ICML 2026立場論文:30名の著者がエージェントAIのオーケストレーションはベイズ一貫性を持つべきと主張

学術・産業研究機関から30名の研究者がICML 2026に採択された立場論文を発表し、エージェントAIシステムの制御層はベイズ一貫性を維持すべきと主張した。LLMは不確実性下の意思決定に不適切だが、その上のオーケストレーターは校正された信念を維持しユーティリティ対応ポリシーを使用できると論じた。

🟡 🤝 エージェント 2026年5月4日 · 3 分で読めます

ArXivフレームワーク「呼ぶべきか否か」がLLMの外部ツール判断ミスを明らかに

Editorial illustration: ArXivフレームワーク「呼ぶべきか否か」がLLMの外部ツール判断ミスを明らかに

Max Planck Institute for Software Systemsなどの研究者が、LLMエージェントのツール呼び出し決定を3つの次元(必要性、効益、コスト許容性)で評価するフレームワークを発表した。6モデル・3タスクでの実験から、モデルが必要と判断するツールと実際の精度向上に寄与するツールの間に大きなギャップがあることが判明し、本番エージェントのコストと信頼性に直接影響する。

🟢 🤝 エージェント 2026年5月4日 · 3 分で読めます

ArXiv:LLMエージェントのツールの隠れたコスト——「ツール使用税」はツールが役立つ時でも精度を下げる

Editorial illustration: ArXiv:LLMエージェントのツールの隠れたコスト——ツール使用税はツールが役立つ時でも精度を下げる

研究者たちはLLMエージェントでのツール呼び出しが隠れたコスト——いわゆる「ツール使用税」——を引き起こすことを示した。呼び出しフォーマットとプロトコルオーバーヘッドが原因で生じるコストを、因数分解的介入フレームワークで3つのコンポーネントに分離し、モデルを変更せずに損失を部分的に緩和するG-STEPゲートを導入した。

🏥 実践 (1)

🛡️ セキュリティ (2)

← 前日 翌日 →