2026年5月5日火曜日

15 件 — 🔴 3 重大 , 🟡 10 重要 , 🟢 2 注目

🤖 モデル (4)

🟡 🤖 モデル 2026年5月5日 · 3 分で読めます

ArXiv AgentFloor：小型オープンウェイトモデル（0.27B-32B）が短期エージェントタスクに十分、GPT-5は長期計画のみで優位を維持

編集イラスト：異なるレベルに異なるサイズのモデルが配置された能力のはしご、ツール使用評価の象徴

Ranit KarmakarとJayita ChatterjeeがAgentFloorを発表しました——6つの能力レベルに構成された30タスクの決定論的ネットワークで、0.27Bから32Bのパラメーター範囲の16のオープンウェイトモデルとGPT-5を評価しています。結論：小型モデルは短期・構造化されたエージェントタスクには既に十分であり、フロンティアモデルは制約のある長期計画においてのみ明確な優位を維持します。

🟡 🤖 モデル 2026年5月5日 · 3 分で読めます

ArXiv Token Arena：エネルギーと認知を統合する継続的ベンチマーク、エンドポイント間で正解あたりエネルギーの6.2倍の差を発見

編集イラスト：AI推論エンドポイントのエネルギーと認知を測定する天秤、多次元ベンチマークの象徴

Yuxuan Gao、Megan Wang、Yi Ling Yuは2026年5月1日、Token Arenaを発表しました——エンドポイントレベル（78エンドポイント、12モデルファミリー）でAI推論を評価する継続的ベンチマークプラットフォームです。同一モデルが異なるエンドポイント間でmath/codeベンチマークが最大12.5点差、テールレイテンシが桁違い、正解あたりエネルギーが最大6.2倍異なることを明らかにしました。プラットフォームはCC BY 4.0ライセンスの下で結果を公開しています。

🟡 🤖 モデル 2026年5月5日 · 2 分で読めます

NIST CAISI：DeepSeek V4 Proはこれまで評価した中で最も優れた中国AIモデルだが、米国フロンティアに8ヶ月遅れ

米国NIST傘下の人工知能標準・イノベーションセンター（CAISI）は2026年5月1日、DeepSeek V4 Proモデルの独立評価を発表しました。結論：これは評価されたPRC AIモデルの中で最も優れていますが、総合能力において米国フロンティアから約8ヶ月遅れています。評価は5つの分野（サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象的推論、数学）における非公開ベンチマークを使用して実施されました。

🟢 🤖 モデル 2026年5月5日 · 3 分で読めます

arXiv:2605.02572: 長いホライズンがLLM学習を不安定化 — ICML 2026論文が「ホライズン汎化」を解決策として提案

ICML 2026採択論文が、タスクホライズン長を増やすと探索問題とクレジット割り当て問題により深刻なLLM学習不安定が生じることを実証的に示しています。提案する解決策：学習時にホライズンを短縮し、推論時に明示的な「ホライズン汎化」メカニズムを使用する方法です。この論文はフロンティアモデル学習におけるタスクホライズンのスケーリングに関する最初の実証的なルールを確立しています。

⚖️ 規制 (1)

🔴 ⚖️ 規制 2026年5月5日 · 3 分で読めます

NIST CAISIがフロンティアAI国家安全テストをGoogle DeepMind・Microsoft・xAIに拡大

コンセプトイラスト：回路基板とチップに囲まれた正義の天秤と地球、AIの国家安全保障を象徴

NISTのAI標準イノベーションセンター（CAISI）は2026年5月5日、Google DeepMind・Microsoft・xAIとフロンティアモデルの事前・事後展開テストに関する拡張協定を締結しました。CAISIはこれまで40件以上の評価を実施しており、未公開の最先端モデルのテストを含め、セーフガードを削除した機密環境で通常実施されています。

🤝 エージェント (3)

🟡 🤝 エージェント 2026年5月5日 · 3 分で読めます

ArXiv GUI-SD：GUIグラウンディング向け初のオンポリシー自己蒸留フレームワーク、6つのベンチマークでGRPO強化学習を凌駕

編集イラスト：GUI要素の特権的視覚コンテキストを持つ教師-学生ダイナミクス、自己蒸留の象徴

Yan Zhang、Daiqing Wu、Huawen ShenがGUI-SDを発表しました——AIエージェントが自然言語の指示をUI要素の視覚座標にマッピングする能力であるGUIグラウンディングに特化した初のオンポリシー自己蒸留（OPSD）フレームワークです。特権的視覚コンテキスト（バウンディングボックスとガウスソフトマスク）とエントロピーガイド蒸留を使用します。6つの代表的なGUIグラウンディングベンチマークで、GUI-SDはGRPOベースのRL手法を一貫して上回ります。

🟡 🤝 エージェント 2026年5月5日 · 3 分で読めます

AWS Bedrock AgentCore Optimizationがプレビュー公開：OpenTelemetryトレースで本番環境からA/Bテストまでの自動化ループを実現

編集イラスト：AIエージェントを囲む本番・評価・A/Bテストのクローズドループ、最適化の象徴

AWSは2026年5月4日、AgentCore Optimizationをプレビューとして発表しました。本番環境のトレースからシステムプロンプトとツール説明の具体的な改善提案を生成し、テストセットに対するバッチ評価、統計的有意性を伴うA/Bテストを実現する自動化ループです。システムはすべてのモデル呼び出し、ツール呼び出し、推論ステップをOpenTelemetry互換トレースとして収集し、手動による当て推量の修正を本番データに基づく構造化されたサイクルに置き換えます。

🟡 🤝 エージェント 2026年5月5日 · 3 分で読めます

AWS SageMaker AI が9つのスキルを持つエージェント型ファインチューニングワークフローを導入、KiroとClaude Codeと統合

編集イラスト：9つのモジュールとチップネットワークに囲まれた未来的なロボットアーム

Amazonは2026年5月4日、SageMaker AIにエージェント型ワークフローを導入しました。ユースケース定義からデプロイまでのモデルカスタマイズライフサイクル全体をカバーする9つの組み込みスキルエージェントを備え、SFT・DPO・RLVRのトレーニング手法をサポートします。JupyterLab環境でKiro（デフォルト）とClaude Codeと統合し、数ヶ月の専門的ML作業を数日に短縮できると謳っています。

🔧 ハードウェア (1)

🟡 🔧 ハードウェア 2026年5月5日 · 3 分で読めます

ArXiv SAGA：AIエージェント向けワークフロー原子化GPUスケジューリング、64-GPUクラスターでタスク完了を1.64倍高速化、HPDC 2026採択

編集イラスト：原子的単位として接続されたエージェントワークフローを持つGPUクラスター、スケジューリングの象徴

Dongxin Guo、Jikun Wu、Siu Ming Yiuのチームは2026年5月1日、SAGA——GPUクラスター上のAIエージェント向けワークフロー原子化スケジューラーを発表しました。個々のLLM呼び出しではなく、エージェントのワークフロー全体を単一のスケジュール可能な単位として扱います。64-GPUクラスターでタスク完了時間の幾何平均1.64倍削減、マルチテナント負荷下でSLO達成率99.2%を実現します。論文はHPDC 2026（クリーブランド、2026年7月13-16日）に採択されました。

🏥 実践 (2)

🟡 🏥 実践 2026年5月5日 · 3 分で読めます

arXiv:2605.02740: ReClaim — 2億件の患者記録で学習した基盤モデルが1,000超の医療タスクで平均AUC 75.6%を達成

編集イラスト：コード・聴診器・医療チャートを表示するモニターがある開発者ワークスペース

新しいarXivプレプリントがReClaimeを紹介しています。2億件の患者記録から438億件の医療イベントで学習した17億パラメータの基盤モデルです。1,000を超える診断タスクで平均AUC 75.6%を達成し、LightGBM（66.3%）やDelphi専門モデル（69.4%）を大きく上回ります。行政的な医療データで学習した基盤モデルの新しい分類を切り開きます。

🟡 🏥 実践 2026年5月5日 · 3 分で読めます

Anthropic Claude Code v2.1.128：30件以上の修正、.zipプラグイン対応、サブエージェントのキャッシュ作成コストが約3分の1に

コンセプトイラスト：開発者のワークスペース、モニターの横に.zipアーカイブとプラグインインストールのプログレスバー

Claude Code v2.1.128（2026年5月4日リリース）は30件以上の改善を提供します。/mcpパネルへのツール数表示とツール0台サーバーのフラグ機能、--plugin-dirでの.zipプラグインアーカイブ対応、ローカルの未プッシュコミットを失うEnterWorktreeバグの修正、サブエージェントのcache_creationコスト約3分の1への削減、10MB超の標準入力パイプ時のクラッシュ修正が含まれます。

💬 コミュニティ (2)

🔴 💬 コミュニティ 2026年5月5日 · 3 分で読めます

AnthropicがBlackstone、Hellman & Friedman、Goldman Sachsと中堅市場向けエンタープライズAIサービス会社を設立

編集イラスト：中央のAIハブに接続されたビジネス機関のネットワーク、エンタープライズAI配布の象徴

Anthropicは2026年5月4日、Blackstone、Hellman & Friedman、Goldman Sachsを創業投資家として新たなエンタープライズAIサービス会社の設立を発表しました。Sequoia、Apollo Global Management、GIC、Leonard Green、General Atlanticが追加パートナーとして参加します。ターゲット市場は、Claude솔루션の構築に必要な社内リソースを持たない商業銀行、中規模製造企業、地域医療システムです。

🟡 💬 コミュニティ 2026年5月5日 · 3 分で読めます

IBM Think 2026：KrishnaがwatsonxOrchestrate・IBM Bob・Sovereign Coreを柱とするAI Operating Modelを発表

編集イラスト：AI Operating Modelを表す中央ハブを持つ相互接続された歯車とネットワークノード

ボストンで開催されたThink 2026カンファレンスで、IBMは2026年5月5日にAI Operating Modelを発表しました。4本柱（エージェント・データ・自動化・ハイブリッド）のフレームワークで、次世代watsonx Orchestrateをエージェント制御プレーンとし、IBM Bobを開発パートナー、Concertをオペレーション基盤、Sovereign Coreを規制コンプライアンス向けに一般提供しています。CEO Krishnaは企業間で広がる「AIデバイド」に警鐘を鳴らしました。

🛡️ セキュリティ (2)

🔴 🛡️ セキュリティ 2026年5月5日 · 3 分で読めます

ArXiv：視覚画像がVLMの安全フィルターを40.9%の確率で回避、ICML 2026論文が明らかに

編集イラスト：突破された視覚セキュリティシェルと亀裂から流れ出る画像の流れ、VLMフィルターへの攻撃の象徴

研究者のAharon Azulay、Jan Dubiński、Zhuoyun LiがICML 2026で、視覚モダリティを利用してビジョン言語モデルの安全アライメントを回避する4種類の攻撃クラスを発表しました。視覚エンコーダーはClaude Haiku 4.5で40.9%の成功率を達成し、同等のテキスト攻撃はフィルターをわずか10.7%しか突破できませんでした。これにより、画像が純粋な言語モデルには存在しない攻撃クラスをもたらすことが確認されました。

🟢 🛡️ セキュリティ 2026年5月5日 · 3 分で読めます

CNCF：不変ダイジェストへのピン留め、最小権限トークン、エフェメラルランナー——より安全なGitHub ActionsパイプラインへのレシピカードCNCF発表

編集イラスト：ピン留めされたダイジェストラベルを持つロックされたCI/CDパイプライン、サプライチェーンセキュリティの象徴

Cloud Native Computing Foundation（CNCF）セキュリティ技術諮問グループ（TAG）は2026年5月4日、サプライチェーン攻撃からGitHub Actions CI/CDパイプラインを保護するための実践的ガイドを発表しました。Marina Moore、Evan Anderson、Sherine Khouryが5つの具体的なプラクティスを定式化し、zizmor、frizbee、pinact、ratchet、Dependabotなどのツールを紹介しています。

← 前日翌日 →