2026年5月23日土曜日

15 件 — 🔴 3 重大 , 🟡 7 重要 , 🟢 5 注目

📦 オープンソース (1)

🟢 📦 オープンソース 2026年5月23日 · 4 分で読めます

Kedro：バージョン1.2.0が@experimentalデコレータとLangGraphエージェントstarterをGenAIパイプライン向けに提供

編集イラスト：LangGraphオーケストレーションとMermaid図を持つパイプラインノード

Linux Foundation AIプロジェクトのKedroがKedro-Viz 12.3.0とともにバージョン1.2.0をリリースしました。新しい@experimentalデコレータは開発中のAPIのマーキングを可能にし、starterプロジェクトsupport-agent-langgraphはLangGraphオーケストレーションとLangfuse/Opikプロンプト管理ツールとの統合を実証します。Kedro-VizはMermaidダイアグラムとノードプレビューの拡張性を獲得し、パイプラインデバッグが向上します。

🤝 エージェント (4)

🔴 🤝 エージェント 2026年5月23日 · 4 分で読めます

arXiv:2605.22502：エージェントワークフローをLLM重みにコンパイルして100分の1のコストでフロンティア近似品質を実現

研究者たちは、複雑なエージェントワークフローをLangChainやLangGraphのような外部オーケストレーションではなく、微調整された小型モデルの重みに直接エンコードできることを示しました。このアプローチは旅行予約、Zoom支援、保険という3つの実際のシナリオ（14〜55ノードのワークフロー）でフロンティア近似品質を達成し、推論コストを100分の1に削減します。

🔴 🤝 エージェント 2026年5月23日 · 3 分で読めます

arXiv:2605.22794：MOSSが自身のソースコードを修正して自己改善するエージェントを実証

編集イラスト：AIエージェントがサンドボックスループで自身のソースコードを書き換える

研究者たちはMOSSを提案しました。これは自身のソースコードを書き換えることで改善する自律エージェントのフレームワークです——プロンプトやファインチューニングの重みだけではありません。OpenClawベンチマークで1サイクルのMOSS自己進化がスコアを0.25から0.61に人間の介入なしで引き上げ、エージェントがテキストのみの手法では触れられないルーティング、フック、ディスパッチロジックを修正できることを示しています。

🟡 🤝 エージェント 2026年5月23日 · 4 分で読めます

arXiv:2605.22535：TerminalWorldベンチマークがシミュレーションなしで実際のLinuxターミナルタスクにおけるLLMエージェントを評価します

編集イラスト：gitとbashコマンドを含むターミナルプロンプトとそれらを実行するAIエージェント

TerminalWorldは、シミュレーション環境を使わずに実際のLinuxプロセスでbash・git・ファイル操作を行うLLMエージェントを評価する新しいベンチマークです。Zhaoyang ChuとJiarui Huが率いる8名の著者による研究は「コンピュータ使用」エージェントの新たな基準を示しており、Claude Code・GitHub Copilot Workspace・Cursorのエージェントモードなどのツールに直接関連しています。

🟡 🤝 エージェント 2026年5月23日 · 3 分で読めます

Anthropic Claude Code v2.1.149が/usageカテゴリ内訳とPowerShellパーミッションバイパス修正を提供

AnthropicがClaude Code CLI v2.1.149をリリースしました。/usageコマンドをカテゴリ別コスト内訳（skills、subagents、plugins、MCPサーバー別）に拡張しています。2つのセキュリティ脆弱性を修正：PowerShell組み込み関数によるパーミッションバイパスとgit worktreeサンドボックスの誤ったallowlist。クラウドMCPコネクタへの接続を容易にするenterpriseの設定allowAllClaudeAiMcpsも追加されました。

🔧 ハードウェア (1)

🟢 🔧 ハードウェア 2026年5月23日 · 4 分で読めます

AMD：GluonブロックレベルモデルでInstinct MI355のMXFP4 5.255 TFLOPSを実現

AMD ROCmチームがMI355 GPU向けGluonプログラミングモデルで高性能GEMMカーネルを作成するチュートリアルを公開しました。最適化されたFP16カーネルはMFMA効率98.75%で1.489 TFLOPSを達成し、BF8（3.257 TFLOPS）およびMXFP4（5.255 TFLOPS）への拡張は現代のAIワークロードへの有効性を示しています。チュートリアルにはL2キャッシュミスを530万から410万に削減するワークグループリマッピングとswizzleが含まれています。

🏥 実践 (5)

🟡 🏥 実践 2026年5月23日 · 3 分で読めます

arXiv:2605.22681：CUSPベンチマークがフロンティアモデルは科学的ブレークスルーを信頼できるほど予測できないことを示す

CUSPベンチマークは4,700件のイベントのデータベースでAIモデルが科学的ブレークスルーを予測する能力をテストします。フロンティアモデル（GPT-5、Claude Opus 4.7、Gemini 3 Pro）はもっともらしい研究方向を特定しますが、過剰な信頼度で体系的に結果とタイミングを推測します。追加の締め切り前コンテキストは役立ちません——制限は情報的なものではなく構造的なものです。

🟡 🏥 実践 2026年5月23日 · 3 分で読めます

GitHub：2026年Gartnerマジッククアドラント——GitHub Copilotが企業AIコーディングエージェントで3年連続リーダーに

編集イラスト：象限マトリックスでGitHub CopilotがLeader領域に配置

Gartnerは2026年の企業AIコーディングエージェントのマジッククアドラントレポートでGitHubをリーダーとして位置付けました——このカテゴリが存在する3年連続となります。GitHub Copilotは現在世界中の140,000の組織で使用されており、評価ではコード生成だけでなく、コードからレビュー、セキュリティ、ガバナンスまでSDLC全体をカバーするエージェントワークフローが強調されました。

🟢 🏥 実践 2026年5月23日 · 4 分で読めます

arXiv:2605.22337：Meta-Softが組合せ可能なメタトークンと学習可能な直交基でKVキャッシュ圧縮を実現

研究者たちはMeta-Softを提案しました。これはLLM推論における動的KVキャッシュ圧縮の新しい手法です。この手法は学習可能な直交基底行列とセレクタネットワークを使用し、長いプロンプトからの重要情報の圧縮表現であるソフトメタトークンを合成します。注意力フロー機構は削除されたトークンの意味情報を保持されたトークンに再分配し、ほとんどの長コンテキストベンチマークで既存のKVキャッシュ排除手法を上回ります。

🟢 🏥 実践 2026年5月23日 · 4 分で読めます

arXiv:2605.22664：WorkstreamBenchが金融分野のエンドツーエンドスプレッドシートタスクでLLMエージェントをテストし、フロンティアモデルが苦戦しています

編集イラスト：数式を含むExcelスプレッドシートとそれを分析するAIエージェント

WorkstreamBenchはThomson Yenが率いる10名の著者によるベンチマークで、金融ドメインにおける請求書・レポート・費用分析などの実際のExcelおよびスプレッドシートタスクをLLMエージェントに対してテストします。GPT-4o・Claude・Geminiを比較しましたが、どのモデルも全タスクセットを確実にこなすことができず、エンタープライズ財務向けの現在のエージェントインフラストラクチャに構造的な欠陥があることが示されています。

🟢 🏥 実践 2026年5月23日 · 3 分で読めます

Anthropic Claude Code v2.1.150 — ユーザー向けの変更なしの内部インフラストラクチャパッチ

編集イラスト：バージョン番号と内部の歯車が表示されたClaude Codeターミナル

AnthropicはUTC土曜日04:03にClaude Code CLIバージョンv2.1.150をリリースしました。v2.1.149からわずか1日後のリリースです。このバージョンにはユーザー向けの変更はなく、内部インフラストラクチャの改善のみが含まれています。Darwin・Linux・WindowsのARM64およびx64アーキテクチャ、そしてLinux muslビルドで利用可能です。

🛡️ セキュリティ (3)

🔴 🛡️ セキュリティ 2026年5月23日 · 3 分で読めます

Anthropic：Project Glasswingが初月に1万件超の高リスク脆弱性を発見

Anthropic Project Glasswingは約50のセキュリティパートナーを結集し、Claude Mythos Previewを使用して重要なソフトウェアをスキャンしています。初月に1万件以上の高リスク・クリティカルな脆弱性が発見され、オープンソーススキャナーは1,000プロジェクトで6,202件を90.6%の真陽性率で発見しました。

🟡 🛡️ セキュリティ 2026年5月23日 · 4 分で読めます

arXiv:2605.22786：LCGuardがマルチエージェントシステムにおける共有KVキャッシュをエージェント間のデータ漏洩から保護します

編集イラスト：2つのエージェントゾーン間の境界とKVキャッシュを囲む暗号化シールド

LCGuardは、効率化のためにKVキャッシュを共有するマルチエージェントシステムにおけるデータ漏洩を防ぐための新しいフレームワークです。IBM ResearchとMITの研究者がSadie Asifの指揮のもとで発表した研究は、「潜在的通信ガード」アプローチの最初の正式なモデルを提示しており、複数のエージェントが共有メモリを通じてコンテキストを共有する本番エージェントRAGシステムに適用可能です。

🟡 🛡️ セキュリティ 2026年5月23日 · 4 分で読めます

GitHub：npm 11.15.0がサプライチェーン強化のためのステージング公開と3つの新しいインストール時--allowフラグを導入

GitHubがnpm CLIバージョン11.15.0をリリースし、ステージング公開を導入しました——パッケージはインストール可能になる前にメンテナーの承認が必要です。また、npm installコマンドで依存関係のソースを詳細に制御するための既存の--allow-gitに加えて3つの新しいインストール時フラグ（--allow-file、--allow-remote、--allow-directory）も導入されました。

✨ 注目トピック (1)

🟡 ✨ 注目トピック 2026年5月23日 · 4 分で読めます

arXiv:2605.22763：AI エージェントがLean検証で9つの開放Erdős問題と44のOEIS予想を解決

DeepMindとMIT CSAILから20名の研究者が参加するチームが、Lean定理証明器でのLLMによる形式的証明の自律的生成に関する最初の大規模評価を発表しました。エージェントはLLM生成とLeanによる記号的検証を組み合わせ、353の開放Erdős問題のうち9つを自律的に解決し、492のOEIS予想のうち44を証明しました。

← 前日翌日 →