2026年5月6日水曜日

16 件 — 🔴 2 重大 , 🟡 11 重要 , 🟢 3 注目

← 前日翌日 →

🤖 モデル (4)

🔴 🤖 モデル 2026年5月6日 · 2 分で読めます

OpenAI: GPT-5.5 Instant が ChatGPT の新しいデフォルトモデルに、幻覚を削減

編集イラスト：青い背景に GPT-5.5 Instant が新しいデフォルトモデルとして表示された ChatGPT インターフェース

GPT-5.5 Instant は OpenAI が 2026 年 5 月 5 日に発表した新しい ChatGPT のデフォルトモデルです。より賢く正確な回答、幻覚の削減、個性化の向上をもたらし、同時にシステムカードも公開されました。

🟡 🤖 モデル 2026年5月6日 · 2 分で読めます

arXiv:2605.03871: EvoLM — 外部監督なしで自己改善する言語モデル

編集イラスト：外部監督なしにスコアと改善を交換するフィードバックループ内の2つの言語モデル

EvoLMは外部監督を排除するポストトレーニング手法です——Qwen3-8BルーブリックジェネレーターはRewardBench-2でGPT-4.1を25.7%上回り、SkyWork-RMを16%上回ります。訓練されたポリシーはOLMo3-Adaptベンチマークで69.3%を達成します。

🟡 🤖 モデル 2026年5月6日 · 2 分で読めます

Google: Gemini API File Search が画像とテキストのマルチモーダル検索に対応

編集イラスト：Gemini API が埋め込みモデルを通じて画像とテキストを共通のセマンティック検索に組み合わせている

Google が Gemini API の File Search をマルチモーダル検索に拡張し、gemini-embedding-2 モデルを通じて画像とテキスト文書のネイティブな埋め込みと検索を可能にしました。2 つの新しい grounding フィールドと Batch API 向けのイベント駆動型 webhook サポートが追加されました。

🟡 🤖 モデル 2026年5月6日 · 2 分で読めます

Microsoft Research: DroidSpeak がファインチューニング済み LLM バリアント間で KV キャッシュを共有し、4× の高いスループットを実現

編集イラスト：データセンターで複数のファインチューニング済み LLM バリアント間の KV キャッシュ共有の図

Microsoft Research が NSDI 2026 で DroidSpeak を発表しました。これはアーキテクチャが同一のファインチューニング済み LLM バリアント間で KV キャッシュを共有するシステムで、数十のドメインモデルを持つエンタープライズシナリオで最大 4× の高いスループットを達成し、品質の低下は最小限です。

📦 オープンソース (1)

🔴 📦 オープンソース 2026年5月6日 · 2 分で読めます

Allen Institute: MolmoAct 2 はGPT-5・Gemini 2.5 Proを上回る初のオープンソースロボティクス基盤モデル

編集イラスト：実験室でFrankaアームの二腕ロボットが箱を開けており、オープンソースのMolmoAct 2基盤モデルを象徴している

MolmoAct 2 は Allen Institute for AI が 5 月 5 日に公開したオープンソースのロボティクス基盤モデルです。具身推論ベンチマークで 63.8/100 を達成し、GPT-5 および Gemini 2.5 Pro を上回ります。推論速度は 37 倍向上し、バイマニュアル能力を内蔵した初の基盤モデルです。

⚖️ 規制 (2)

🟡 ⚖️ 規制 2026年5月6日 · 2 分で読めます

arXiv:2605.04039: 臨床LLMの安全性と精度は異なるスケーリング則に従う

編集イラスト：X線画像の上に分かれた2本のスケーリング曲線——一方が精度用、もう一方が安全性用

新しい研究は、臨床LLMの安全性が精度と同じスケーリング則に従わないことを示しています——RAGのクリーンな証拠が精度を73.5%から94.1%に高め、高リスクエラーを12%から2.6%に削減する効果がモデルサイズの増大を上回ります。

🟡 ⚖️ 規制 2026年5月6日 · 2 分で読めます

UK AISI: Microsoft とフロンティア AI 安全における 3 分野の MoU を締結

編集イラスト：フロンティア AI 安全に焦点を当てた英国政府機関と技術会社間の握手

英国の AI Security Institute が 5 月 5 日に Microsoft とのフロンティア AI 安全に関するパートナーシップを発表しました。協力は 3 つの研究分野をカバーします：高リスク能力の評価、防護措置のテスト、対話型 AI の社会的回復力研究。

🤝 エージェント (4)

🟡 🤝 エージェント 2026年5月6日 · 2 分で読めます

Anthropic: 10 種類の金融サービス向けエージェントテンプレートを提供、Claude Opus 4.7 が Vals AI Finance ベンチマークで 64.37% を達成

編集イラスト：リサーチとオペレーションの 2 グループに分けられた金融エージェントアイコン付きの 10 枚の抽象カード

Anthropic が金融サービス向けの 10 種類のエージェントテンプレートを公開しました。pitchbook ビルダー、KYC スクリーナー、月末決算ツールが含まれます。テンプレートは Claude Cowork と Claude Code のプラグインとして提供され、Claude Opus 4.7 は Vals AI Finance ベンチマークで 64.37% を達成しています。

🟡 🤝 エージェント 2026年5月6日 · 2 分で読めます

arXiv:2605.03675: MEMTIER — 五層メモリアーキテクチャが長期エージェントに記憶力を取り戻す

編集イラスト：エピソードJSONLからセマンティックデータベースへのデータフローで接続された5つの水平メモリ層

MEMTIERは長期自律エージェント向けの五層メモリアーキテクチャです——LongMemEval-SベンチマークでQwen2.5-7Bを使用すると精度が0.050から0.382に跳ね上がり、72時間の動作後もツール実行成功率が低下しなくなります。

🟡 🤝 エージェント 2026年5月6日 · 2 分で読めます

AWS: AgentCore Browser が OS レベルのアクションを取得——8 つの新しいプリミティブ

編集イラスト：Amazon Bedrock AgentCore 環境でエージェントがブラウザの境界外のシステムダイアログをクリックしている

AWS は 5 月 5 日に Amazon Bedrock AgentCore Browser の OS レベルアクションを発表しました。これにより、エージェントが DOM の範囲外でオペレーティングシステムのネイティブインターフェースと対話できるようになります。8 つのアクションとアクション・スクリーンショット・リアクションループが導入され、追加設定なしで利用可能です。

🟢 🤝 エージェント 2026年5月6日 · 2 分で読めます

arXiv:2605.02503: DataClaw——探索的データ分析における AI エージェントのプロセス品質を測る過程指向ベンチマーク

編集イラスト：AI エージェントが中間結果を含むインタラクティブなノートブックで探索的データ分析のステップを案内している

DataClaw は、AI エージェントが探索的データ分析においてどのように作業するかの完全なプロセスを評価する新しいベンチマークです。最終的な答えだけでなく、誤った方法で正しい結果に到達するエージェントの弱点を明らかにします。

🔧 ハードウェア (1)

🟡 🔧 ハードウェア 2026年5月6日 · 2 分で読めます

AMD: FarSkip-Collective が AMD GPU 上の MoE 推論を 18〜34% 高速化

編集イラスト：アイドルブロックなしでの MoE 推論中に AMD GPU 間を流れる並列データストリーム

AMD ROCm チームが FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル時間を解消する改良型 MoE アーキテクチャです。結果：Llama-4 Scout の TTFT が 18% 短縮、DeepSeek-V3 で最大 1.34× の高速化、Moonlight の事前学習フェーズが 11% 高速化。

🏥 実践 (2)

🟡 🏥 実践 2026年5月6日 · 2 分で読めます

IBM: Enterprise AdvantageにContext Studioを追加——Providence Healthの採用管理時間を90%削減

編集イラスト：組織データでAIエージェントを構築するIBM Enterprise Advantage Context Studio

IBMはContext StudioのローンチによりEnterprise Advantageプラットフォームを拡張しました。これはデジタル主権を保護しながら組織独自のデータに基づいてAIエージェントを構築するツールです。Providence Healthは採用管理時間を90%削減し、IBMは18ヶ月以内に運用コストを25%以上削減すると予測しています。

🟢 🏥 実践 2026年5月6日 · 2 分で読めます

Anthropic: Claude Code v2.1.131 — Windows VS Code有効化とMantle x-api-keyホットフィックス

編集イラスト：Windows VS CodeとMantle認証のためのClaude Code v2.1.131ホットフィックス

AnthropicはClaude Code v2.1.131ホットフィックスリリースを公開しました。ハードコードされたビルドパスによるWindowsでのVS Code拡張機能の有効化失敗と、Mantle推論エンドポイントへのx-api-keyヘッダーの欠如という2つのバグを修正します。すべての主要プラットフォームのバイナリが公開されました。

💬 コミュニティ (1)

🟢 💬 コミュニティ 2026年5月6日 · 2 分で読めます

CNCF: 46.7%のクラウドネイティブチームが2〜3つの並行オブザーバビリティスタックを運用中

編集イラスト：CNCF 2026年オブザーバビリティ調査、46.7%のチームが複数の並行スタックを運用

CNCFは407名のクラウドネイティブ専門家を対象とした2月の調査を発表しました。46.7%の組織がまだ2〜3のオブザーバビリティツールを並行運用しており、統合を達成したのはわずか7.4%です。ダッシュボードとアラートの設定が最大の課題で、OpenTelemetryが統合の要として先行しています。

🛡️ セキュリティ (1)

🟡 🛡️ セキュリティ 2026年5月6日 · 2 分で読めます

GitHub: MCP サーバーを通じたシークレットスキャンが GA リリース——AI エージェントがコミット前に認証情報を検出

編集イラスト：開発環境で AI エージェントがコミット前にコード中の露出した API キーにフラグを立てている

GitHub が GitHub MCP サーバーを通じたシークレットスキャンの一般提供（GA）を発表しました。これは AI コーディングエージェントと開発環境に対し、コードがリポジトリに入る前に露出した認証情報を検出する能力を与えるツールです。

← 前日翌日 →