2026年5月14日木曜日

15 件 — 🟡 10 重要 , 🟢 5 注目

🤖 モデル (3)

🟡 🤖 モデル 2026年5月14日 · 3 分で読めます

arXiv:2605.13301 SU-01：30B A3B モデルが3段階トレーニングで IMO 2025・USAMO 2026・IPhO において金メダルレベルを達成

SU-01 は2026年5月14日に arXiv で公開された新しい推論トレーニング手法論です（Yafu Li ほか27名の共著者、責任著者 Runzhe Zhan）。30B パラメータ A3B バックボーンが、340K トラジェクトリを使った逆パープレキシティカリキュラム SFT、2段階 RL、テスト時スケーリングという3つの連続フェーズを通じて、IMO 2025、USAMO 2026、IPhO 2024-2025 で金メダルレベルのパフォーマンスを達成します。推論チェーンは 100K+ トークンに達します。

🟢 🤖 モデル 2026年5月14日 · 3 分で読めます

Allen Institute：AIMIPベンチマーク——AI気候モデルは過去データで2倍優れていますが、長期的な温暖化には汎化しません

AIMIP（AIモデル比較プロジェクト）は、2026年5月13日にAllen InstituteがNVIDIA・Google Research・ワシントン大学・メリーランド大学・ArchesWeatherグループと共同で発表した、AIの気象・気候モデル向けコミュニティベンチマークです。第1フェーズで8つのAIモデルシミュレーションを評価した結果、過去データでの誤差が半分になることが示されましたが、同時に長期的な温暖化傾向への汎化能力の深刻な欠如も明らかになりました。

🟢 🤖 モデル 2026年5月14日 · 2 分で読めます

Microsoft Research GridSFM：ファウンデーションモデルがAC最適潮流をDC近似の100倍速く解きます

編集イラスト：AIファウンデーションモデルと最適化グラフを持つ電力系統ネットワーク。

GridSFMは、2026年5月13日にMicrosoft Researchが発表した電力系統向けの新しい小型ファウンデーションモデルです。500ノードから80,000ノードの電力系統でAC最適潮流をミリ秒単位で近似し、DC近似の100倍、完全なACソルバーの1,000倍高速です。中央値コストギャップは2.23%、実行可能性検出は94.5%/96.1%を達成し、年間200億ドルの混雑コスト削減の可能性があります。

📦 オープンソース (2)

🟡 📦 オープンソース 2026年5月14日 · 2 分で読めます

LangChain: LangSmith Engineはエージェントのデバッグを自動化します——エラークラスタリング、根本原因分析、PRと評価器の推奨

LangSmith Engineは、2026年5月13日にLangChainが発表した新しいプラットフォームで、AIエージェントの本番フィードバックループを自動化します。エンジンは本番実行のトレースデータを分析し、パターン別にエラーをクラスタリングし、コード内の根本原因を特定し、具体的なプルリクエスト提案と評価器定義を生成します。目標は手動デバッグから継続的な自動改善への移行です。

🟡 📦 オープンソース 2026年5月14日 · 2 分で読めます

PyTorch: バージョン2.12はデバイス非依存のtorch.accelerator.Graph、MX量子化、100倍高速なlinalg.eighをもたらします

編集イラスト：CUDAとXPUアクセラレータに分散された計算グラフとPyTorchロゴ。

PyTorch 2.12は2026年5月13日にリリースされたPyTorchフレームワークの新しい本番バージョンで、2,926件のコミットと457名のコントリビューターを含みます。主な機能：CUDA・XPU・サードパーティバックエンドに対応したデバイス非依存APIであるtorch.accelerator.Graph、torch.exportでのMicroscaling MX量子化（MXFP4/6/8）のサポート、cuSolverを介したCUDA上で最大100倍高速なlinalg.eigh、CUDA Graphs内でのtorch.condサポートです。TorchScriptは正式に削除されました。

🤝 エージェント (4)

🟡 🤝 エージェント 2026年5月14日 · 2 分で読めます

Amazon Nova Sonic + WebRTC：Kinesis Video Streamsと非同期ツール呼び出しによるリアルタイム音声エージェントがRAG/MCPをサポートします

編集イラスト：WebRTCフローとクラウドシステムへのツール呼び出し矢印を持つ音声エージェント。

Amazon Nova Sonic + WebRTC統合は、2026年5月13日にAWSが発表したリアルタイム音声エージェントアプリケーション向けの新しいアーキテクチャです。音声対音声イベントプロセッサーがKinesis Video Streams WebRTCシグナリングを通じてメディアとテキストデータイベントをオーケストレーションし、サーバー側VADがオーディオトークンを削減します。Nova SonicはMCPサーバー・Strandsエージェント・RAGシステムへの非同期ツール呼び出しをサポートしており、IoTとコネクテッドビークルシナリオが最初のデモンストレーションです。

🟡 🤝 エージェント 2026年5月14日 · 3 分で読めます

Anthropic: Claude Code v2.1.141 が terminalSequence フック・Bedrock Haiku 修正・「ここまで要約」リワインドオプションを追加

編集イラスト：新しいフックアイコンとリワインドコントロールを持つ Claude Code ターミナル。

Claude Code v2.1.141 は Anthropic CLI エージェントの新バージョンで、2026年5月13日にリリースされました。今週3度目のパッチリリースでは、フック JSON 出力用の terminalSequence フィールド、CLAUDE_CODE_PLUGIN_PREFER_HTTPS および ANTHROPIC_WORKSPACE_ID 環境変数、claude agents --cwd パススコープ、そして古いコンテキストを圧縮するための新しいリワインドメニューオプション「ここまで要約」が追加されます。Bedrock/Vertex Haiku モデル ID の競合状態と Windows でのデーモンステータスも修正されました。

🟡 🤝 エージェント 2026年5月14日 · 2 分で読めます

LangChain: Managed Deep Agents——LangSmith内の耐久実行とメモリーレイヤーを備えたホステッドランタイム

編集イラスト：クラウド環境でメモリとツールレイヤーを持つホステッドエージェントランタイム。

Managed Deep Agentsは、2026年5月13日にLangSmithプラットフォームのプライベートベータとして発表されたLangChainの新しいホステッドエージェントランタイムです。耐久実行・永続メモリ・統合ツーリング・包括的な可観測性を提供します——本番ディープエージェントに必要なすべてのインフラストラクチャコンポーネントです。エージェント定義は標準のAGENTS.mdとtools.jsonファイルを通じてリポジトリに保持されます。

🟡 🤝 エージェント 2026年5月14日 · 2 分で読めます

OpenAI: Codex Windowsサンドボックスは自律エージェント向けに制御されたファイルシステムアクセスとネットワーク制限を導入します

編集イラスト：ファイルシステムとネットワークアクセスを囲むセキュリティレイヤーを持つCodexターミナル。

Codex Windowsサンドボックスは、2026年5月13日に発表されたOpenAIの新しいセキュリティアーキテクチャで、CodexエージェントがWindowsオペレーティングシステム上で安全に動作できるようにします。サンドボックスは制御されたファイルシステムアクセスとネットワーク制限を導入し、安全で効率的なコーディングエージェントを実現します。Codexはmacos/Linuxの開発者だけでなく、Windowsユーザーも利用できるクロスプラットフォームツールになりました。

🏥 実践 (4)

🟡 🏥 実践 2026年5月14日 · 2 分で読めます

Perplexity: finance_search Agent API ツールが OHLCV・貸借対照表・決算トランスクリプト・アナリスト予測を一度の呼び出しで返す

編集イラスト：OHLCV グラフと AI エージェント矢印を持つ財務データダッシュボード。

Perplexity finance_search は2026年5月に公開された新しい Agent API ツールで、上場企業の構造化された財務データを返します。準リアルタイム価格、OHLCV 範囲、プレマーケット・アフターアワーズデータ、損益計算書、貸借対照表、キャッシュフロー、決算コールトランスクリプト、SEC ファイリング、アナリスト予測、ETF 構成銘柄が含まれます。モデルはプロンプトに基づいてどのフィールドを取得するかを自動的に決定します。

🟢 🏥 実践 2026年5月14日 · 3 分で読めます

AWS：Pulse AI + BedrockパイプラインがNova Microを金融文書向けにファインチューニング——3時間で1,000件の文書を処理します

AWS Pulse AI + Amazon Bedrock金融文書処理は、2026年5月13日にAWSが発表した新しいエンタープライズパイプラインブループリントです。複雑な金融文書（SEC提出書類・貸借対照表・監査資料）からのPulse AI抽出とAmazon Nova Microモデルのファインチューニングを組み合わせています。以前はマルチデイのターンアラウンドを要した1,000件の文書バッチが3時間以内に処理され、ファインチューニングされたモデルは小切手データ抽出で50%のベースラインに対して100%を達成しました。

🟢 🏥 実践 2026年5月14日 · 3 分で読めます

CNCF：KubeStellar AI エージェントが 91% テストカバレッジと 63 個の CI/CD ワークフローで 81% PR 承認率を達成

編集イラスト：AI エージェントアイコンと CI/CD パイプライン矢印を持つ Kubernetes クラスター。

KubeStellar AI Agents は、KubeStellar Console の主要メンテナー Andy Anderson による CNCF ブログ投稿の新しいケーススタディで、2026年5月14日に公開されました。2つの並列 AI コーディングエージェントを使用したマルチクラスター Kubernetes ダッシュボードが82日間で81%の PR 承認率を達成しました。インフラ：63の CI/CD ワークフロー、32のナイトリーテストスイート、12のシャード上で91%のカバレッジ、バグからマージまで約30分。Anderson は AI コードベース成熟度の5段階を定義しています。

🟢 🏥 実践 2026年5月14日 · 3 分で読めます

GitHub：Copilot Cloud Agent REST APIは大規模リファクタリング・リポジトリセットアップ・週次リリース準備に開放されます

編集イラスト：自律エージェントアイコンとREST APIエンドポイントを持つGitHub Actionsワークフロー。

GitHub Copilot Cloud Agent REST APIは、2026年5月13日にパブリックプレビューで発表された新しい開発者エンドポイントで、プログラムによる自律的なCopilotタスクの起動を可能にします。3つの主要ユースケース：多くのリポジトリにわたるコードリファクタリング/マイグレーションのファンアウト・開発者ポータルからのワンクリックリポジトリ初期化・リリースノートを含む自動週次リリース準備です。Copilot BusinessとEnterpriseの加入者が利用可能です。

🛡️ セキュリティ (2)

🟡 🛡️ セキュリティ 2026年5月14日 · 3 分で読めます

arXiv:2605.13825 History Anchors：1つの指示が17のフロンティア LLM での危険な意思決定を 91-98% に引き上げる

編集イラスト：履歴アンカーシグナル後に曲がる安全マーカー付きのトラジェクトリライン。

History Anchors は2026年5月14日に Alberto G. Rodríguez Salgado が arXiv で発表した新しい安全性論文です。「以前の戦略との一貫性を保つ」という1つの指示により、アライメントされた LLM での危険な結果率がほぼゼロのベースラインから 91-98% に上昇することを示しています。6つのプロバイダーの17のフロンティアモデルを対象に、10の高リスクドメインを含む HistoryAnchor-100 データセットを使ってテストが行われました。逆スケーリングパターンも明らかになっています：より強力なモデルほど脆弱です。

🟡 🛡️ セキュリティ 2026年5月14日 · 2 分で読めます

AWSとCisco：AI RegistryはYARA・LLMセマンティック分析・Cisco独自スキャナーを通じてMCPとA2Aエージェントをスキャンします

編集イラスト：MCPとA2Aスキャナーおよび監査レイヤーを持つエンタープライズAI Registry。

AWS + Cisco AI Defense統合は、2026年5月13日に発表されたAIエージェント向けの新しいエンタープライズセキュリティスタックです。オープンなAI Registryコントロールプレーンは、登録時にMCPサーバーとA2Aエージェントをスキャンし、YARAパターン分析・Amazon Bedrock経由のLLMセマンティックスキャン・Cisco独自スキャナーを使用します。脆弱なサーバーはsecurity-pendingタグが付けられ、管理者がレビューを承認するまで無効化されます。

← 前日翌日 →