2026年5月5日火曜日

15 件 — 🔴 3 重大 , 🟡 10 重要 , 🟢 2 注目

← 前日 翌日 →

🤖 モデル (4)

🟡 🤖 モデル 2026年5月5日 · 3 分で読めます

ArXiv AgentFloor:小型オープンウェイトモデル(0.27B-32B)が短期エージェントタスクに十分、GPT-5は長期計画のみで優位を維持

編集イラスト:異なるレベルに異なるサイズのモデルが配置された能力のはしご、ツール使用評価の象徴

Ranit KarmakarとJayita ChatterjeeがAgentFloorを発表しました——6つの能力レベルに構成された30タスクの決定論的ネットワークで、0.27Bから32Bのパラメーター範囲の16のオープンウェイトモデルとGPT-5を評価しています。結論:小型モデルは短期・構造化されたエージェントタスクには既に十分であり、フロンティアモデルは制約のある長期計画においてのみ明確な優位を維持します。

🟡 🤖 モデル 2026年5月5日 · 3 分で読めます

ArXiv Token Arena:エネルギーと認知を統合する継続的ベンチマーク、エンドポイント間で正解あたりエネルギーの6.2倍の差を発見

編集イラスト:AI推論エンドポイントのエネルギーと認知を測定する天秤、多次元ベンチマークの象徴

Yuxuan Gao、Megan Wang、Yi Ling Yuは2026年5月1日、Token Arenaを発表しました——エンドポイントレベル(78エンドポイント、12モデルファミリー)でAI推論を評価する継続的ベンチマークプラットフォームです。同一モデルが異なるエンドポイント間でmath/codeベンチマークが最大12.5点差、テールレイテンシが桁違い、正解あたりエネルギーが最大6.2倍異なることを明らかにしました。プラットフォームはCC BY 4.0ライセンスの下で結果を公開しています。

🟡 🤖 モデル 2026年5月5日 · 2 分で読めます

NIST CAISI:DeepSeek V4 Proはこれまで評価した中で最も優れた中国AIモデルだが、米国フロンティアに8ヶ月遅れ

編集イラスト:8ヶ月の遅れを示すタイムライン上のAIモデル、独立評価の象徴

米国NIST傘下の人工知能標準・イノベーションセンター(CAISI)は2026年5月1日、DeepSeek V4 Proモデルの独立評価を発表しました。結論:これは評価されたPRC AIモデルの中で最も優れていますが、総合能力において米国フロンティアから約8ヶ月遅れています。評価は5つの分野(サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象的推論、数学)における非公開ベンチマークを使用して実施されました。

🟢 🤖 モデル 2026年5月5日 · 3 分で読めます

arXiv:2605.02572: 長いホライズンがLLM学習を不安定化 — ICML 2026論文が「ホライズン汎化」を解決策として提案

編集イラスト:ニューラルノードとデータフローが収束する亀裂の入った水平線

ICML 2026採択論文が、タスクホライズン長を増やすと探索問題とクレジット割り当て問題により深刻なLLM学習不安定が生じることを実証的に示しています。提案する解決策:学習時にホライズンを短縮し、推論時に明示的な「ホライズン汎化」メカニズムを使用する方法です。この論文はフロンティアモデル学習におけるタスクホライズンのスケーリングに関する最初の実証的なルールを確立しています。

⚖️ 規制 (1)

🤝 エージェント (3)

🟡 🤝 エージェント 2026年5月5日 · 3 分で読めます

ArXiv GUI-SD:GUIグラウンディング向け初のオンポリシー自己蒸留フレームワーク、6つのベンチマークでGRPO強化学習を凌駕

編集イラスト:GUI要素の特権的視覚コンテキストを持つ教師-学生ダイナミクス、自己蒸留の象徴

Yan Zhang、Daiqing Wu、Huawen ShenがGUI-SDを発表しました——AIエージェントが自然言語の指示をUI要素の視覚座標にマッピングする能力であるGUIグラウンディングに特化した初のオンポリシー自己蒸留(OPSD)フレームワークです。特権的視覚コンテキスト(バウンディングボックスとガウスソフトマスク)とエントロピーガイド蒸留を使用します。6つの代表的なGUIグラウンディングベンチマークで、GUI-SDはGRPOベースのRL手法を一貫して上回ります。

🟡 🤝 エージェント 2026年5月5日 · 3 分で読めます

AWS Bedrock AgentCore Optimizationがプレビュー公開:OpenTelemetryトレースで本番環境からA/Bテストまでの自動化ループを実現

編集イラスト:AIエージェントを囲む本番・評価・A/Bテストのクローズドループ、最適化の象徴

AWSは2026年5月4日、AgentCore Optimizationをプレビューとして発表しました。本番環境のトレースからシステムプロンプトとツール説明の具体的な改善提案を生成し、テストセットに対するバッチ評価、統計的有意性を伴うA/Bテストを実現する自動化ループです。システムはすべてのモデル呼び出し、ツール呼び出し、推論ステップをOpenTelemetry互換トレースとして収集し、手動による当て推量の修正を本番データに基づく構造化されたサイクルに置き換えます。

🟡 🤝 エージェント 2026年5月5日 · 3 分で読めます

AWS SageMaker AI が9つのスキルを持つエージェント型ファインチューニングワークフローを導入、KiroとClaude Codeと統合

編集イラスト:9つのモジュールとチップネットワークに囲まれた未来的なロボットアーム

Amazonは2026年5月4日、SageMaker AIにエージェント型ワークフローを導入しました。ユースケース定義からデプロイまでのモデルカスタマイズライフサイクル全体をカバーする9つの組み込みスキルエージェントを備え、SFT・DPO・RLVRのトレーニング手法をサポートします。JupyterLab環境でKiro(デフォルト)とClaude Codeと統合し、数ヶ月の専門的ML作業を数日に短縮できると謳っています。

🔧 ハードウェア (1)

🏥 実践 (2)

💬 コミュニティ (2)

🛡️ セキュリティ (2)

← 前日 翌日 →