Anthropic:Project Glasswingが初月に1万件超の高リスク脆弱性を発見
Anthropic Project Glasswingは約50のセキュリティパートナーを結集し、Claude Mythos Previewを使用して重要なソフトウェアをスキャンしています。初月に1万件以上の高リスク・クリティカルな脆弱性が発見され、オープンソーススキャナーは1,000プロジェクトで6,202件を90.6%の真陽性率で発見しました。
Anthropic Project Glasswingは約50のセキュリティパートナーを結集し、Claude Mythos Previewを使用して重要なソフトウェアをスキャンしています。初月に1万件以上の高リスク・クリティカルな脆弱性が発見され、オープンソーススキャナーは1,000プロジェクトで6,202件を90.6%の真陽性率で発見しました。
研究者たちは、複雑なエージェントワークフローをLangChainやLangGraphのような外部オーケストレーションではなく、微調整された小型モデルの重みに直接エンコードできることを示しました。このアプローチは旅行予約、Zoom支援、保険という3つの実際のシナリオ(14〜55ノードのワークフロー)でフロンティア近似品質を達成し、推論コストを100分の1に削減します。
研究者たちはMOSSを提案しました。これは自身のソースコードを書き換えることで改善する自律エージェントのフレームワークです——プロンプトやファインチューニングの重みだけではありません。OpenClawベンチマークで1サイクルのMOSS自己進化がスコアを0.25から0.61に人間の介入なしで引き上げ、エージェントがテキストのみの手法では触れられないルーティング、フック、ディスパッチロジックを修正できることを示しています。
CUSPベンチマークは4,700件のイベントのデータベースでAIモデルが科学的ブレークスルーを予測する能力をテストします。フロンティアモデル(GPT-5、Claude Opus 4.7、Gemini 3 Pro)はもっともらしい研究方向を特定しますが、過剰な信頼度で体系的に結果とタイミングを推測します。追加の締め切り前コンテキストは役立ちません——制限は情報的なものではなく構造的なものです。
DeepMindとMIT CSAILから20名の研究者が参加するチームが、Lean定理証明器でのLLMによる形式的証明の自律的生成に関する最初の大規模評価を発表しました。エージェントはLLM生成とLeanによる記号的検証を組み合わせ、353の開放Erdős問題のうち9つを自律的に解決し、492のOEIS予想のうち44を証明しました。
LCGuardは、効率化のためにKVキャッシュを共有するマルチエージェントシステムにおけるデータ漏洩を防ぐための新しいフレームワークです。IBM ResearchとMITの研究者がSadie Asifの指揮のもとで発表した研究は、「潜在的通信ガード」アプローチの最初の正式なモデルを提示しており、複数のエージェントが共有メモリを通じてコンテキストを共有する本番エージェントRAGシステムに適用可能です。
TerminalWorldは、シミュレーション環境を使わずに実際のLinuxプロセスでbash・git・ファイル操作を行うLLMエージェントを評価する新しいベンチマークです。Zhaoyang ChuとJiarui Huが率いる8名の著者による研究は「コンピュータ使用」エージェントの新たな基準を示しており、Claude Code・GitHub Copilot Workspace・Cursorのエージェントモードなどのツールに直接関連しています。
AnthropicがClaude Code CLI v2.1.149をリリースしました。/usageコマンドをカテゴリ別コスト内訳(skills、subagents、plugins、MCPサーバー別)に拡張しています。2つのセキュリティ脆弱性を修正:PowerShell組み込み関数によるパーミッションバイパスとgit worktreeサンドボックスの誤ったallowlist。クラウドMCPコネクタへの接続を容易にするenterpriseの設定allowAllClaudeAiMcpsも追加されました。
Gartnerは2026年の企業AIコーディングエージェントのマジッククアドラントレポートでGitHubをリーダーとして位置付けました——このカテゴリが存在する3年連続となります。GitHub Copilotは現在世界中の140,000の組織で使用されており、評価ではコード生成だけでなく、コードからレビュー、セキュリティ、ガバナンスまでSDLC全体をカバーするエージェントワークフローが強調されました。
GitHubがnpm CLIバージョン11.15.0をリリースし、ステージング公開を導入しました——パッケージはインストール可能になる前にメンテナーの承認が必要です。また、npm installコマンドで依存関係のソースを詳細に制御するための既存の--allow-gitに加えて3つの新しいインストール時フラグ(--allow-file、--allow-remote、--allow-directory)も導入されました。
AMD ROCmチームがMI355 GPU向けGluonプログラミングモデルで高性能GEMMカーネルを作成するチュートリアルを公開しました。最適化されたFP16カーネルはMFMA効率98.75%で1.489 TFLOPSを達成し、BF8(3.257 TFLOPS)およびMXFP4(5.255 TFLOPS)への拡張は現代のAIワークロードへの有効性を示しています。チュートリアルにはL2キャッシュミスを530万から410万に削減するワークグループリマッピングとswizzleが含まれています。
研究者たちはMeta-Softを提案しました。これはLLM推論における動的KVキャッシュ圧縮の新しい手法です。この手法は学習可能な直交基底行列とセレクタネットワークを使用し、長いプロンプトからの重要情報の圧縮表現であるソフトメタトークンを合成します。注意力フロー機構は削除されたトークンの意味情報を保持されたトークンに再分配し、ほとんどの長コンテキストベンチマークで既存のKVキャッシュ排除手法を上回ります。
WorkstreamBenchはThomson Yenが率いる10名の著者によるベンチマークで、金融ドメインにおける請求書・レポート・費用分析などの実際のExcelおよびスプレッドシートタスクをLLMエージェントに対してテストします。GPT-4o・Claude・Geminiを比較しましたが、どのモデルも全タスクセットを確実にこなすことができず、エンタープライズ財務向けの現在のエージェントインフラストラクチャに構造的な欠陥があることが示されています。
AnthropicはUTC土曜日04:03にClaude Code CLIバージョンv2.1.150をリリースしました。v2.1.149からわずか1日後のリリースです。このバージョンにはユーザー向けの変更はなく、内部インフラストラクチャの改善のみが含まれています。Darwin・Linux・WindowsのARM64およびx64アーキテクチャ、そしてLinux muslビルドで利用可能です。
Linux Foundation AIプロジェクトのKedroがKedro-Viz 12.3.0とともにバージョン1.2.0をリリースしました。新しい@experimentalデコレータは開発中のAPIのマーキングを可能にし、starterプロジェクトsupport-agent-langgraphはLangGraphオーケストレーションとLangfuse/Opikプロンプト管理ツールとの統合を実証します。Kedro-VizはMermaidダイアグラムとノードプレビューの拡張性を獲得し、パイプラインデバッグが向上します。
UK AI Safety Institute(AISI)は2026年5月21日、産業・政府・学術界の専門家25名へのインタビューをもとに先進AIシステム監視の将来を分析した報告書を公表した。主要な知見は、現在の監視が侵食されつつある基盤の上に成り立っているというものだ。20以上の監視メカニズム劣化経路が特定され、潜在的推論、能力マスキング、AIエージェントの外部行動、AI間通信が重点分野として挙げられた。
Microsoft Researchは2026年5月21日、小型モデルに対するエージェントAIの3点セットを発表した。MagenticLite(ブラウザおよびファイルシステムUIアプリ)、MagenticBrain(Qwen 3 14Bからファインチューニングした14Bオーケストレーションモデル)、Fara1.5(4B/9B/27Bの3サイズのコンピュータ使用モデル)だ。Fara1.5-27BはOnline-Mind2Webベンチマーク(300のウェブタスク)でSOTAの90%超を達成し、前世代Fara-7Bのほぼ2倍のスコアを記録した。エージェントAIに巨大モデルは不要で、うまく設計されたツールと実行フレームワークだけで十分だと示すことが目的だ。
研究者たちは2026年5月21日、arXivプレプリントサーバーにPALSを公表した。PALSはGPU電力制御をMoEモデルのLLMサービングに直接統合するランタイムシステムだ。軽量なオフライン電力性能モデルとフィードバックコントローラーを用いてスループット目標に基づく設定を動的最適化し、電力制約下で26.3%のエネルギー効率向上と4-7倍のQoS違反削減を実現する。APIの変更やモデルの再トレーニングなしにvLLMに統合可能で、データセンターの増大する運営上のボトルネック — GPUクラスターのエネルギー消費 — に直接対処する。
研究者たちは2026年5月21日、arXivに「悪魔の代弁者を演じる」と題する論文を発表した。ロールプレイ用に開発された既製ペルソナベクトルが、追従性(ユーザーが誤っていても同意しようとするモデルの傾向)を専門化されたContrastive Activation Addition(CAA)手法の68-98%の効率で低減できることを示している。追従性はペルソナレベルの属性であり、活性化空間内の単一の誘導可能な方向ではないという幾何学的分析はアライメントへのより容易な経路を開く。
AWSは2026年5月21日、ブラウザおよびUIワークフロー自動化のためのエージェントAIサービスAmazon Nova ActがHIPAA適格ステータスを取得したと発表した。医療機関はNova Actを使って保護された医療情報(ePHI)を扱えるようになった。事前承認、保険確認、プロバイダーウェブポータルを通じた紹介状送付に対応する。Amazon Bedrock AgentCoreおよびStrand Agentsフレームワークと統合し、署名済みBAA契約とAWS KMS暗号化が必要で、現在は米東部(北バージニア)リージョンのみで利用可能だ。
Anthropicは2026年5月21日20:39 UTCにClaude Code v2.1.147をリリースし、Claude Codeエコシステム初の確定性マルチエージェントオーケストレーション機構となるWorkflowツールを導入した。ツールは初期デフォルト無効で、環境変数CLAUDE_CODE_WORKFLOWS=1で有効化する。同バージョンで既存の/simplifyコマンドがhigh/medium/lowの努力レベルを持つ/code-reviewに改名され、プロトタイプ汚染攻撃とtheableベースのエスケープ攻撃に対するサンドボックス強化も追加された。
欧州委員会は2026年5月13日、EU AI法に基づく高リスクAIシステム分類ガイドライン草案に関する対象を絞ったパブリックコンサルテーションを開始しました。締め切りは5月22日の中央ヨーロッパ時間18時であり、ガイドラインは医療、教育、重要インフラ、人事プロセスにおいてどの組織が最も厳格な規制要件を満たさなければならないかを直接決定します。
GitHubは2026年5月18日、第三者製の悪意あるVS Code拡張機能が従業員のデバイスに感染し、攻撃者が約3,800件のGitHub内部リポジトリにアクセスしたことを公表しました。調査は継続中であり、内部リポジトリ以外のユーザーデータが侵害されたという証拠は現時点では確認されていません。IDEの拡張機能がエンタープライズ開発者インフラへの攻撃ベクターとなった2例目の重大インシデントです。
OpenAIは、AIモデルが単位距離問題を解決したと発表しました。この問題はPaul Erdősが1946年に提唱して以来80年以上にわたり未解決だった離散幾何学の核心的予想です。同社はこの結果をAI主導の数学研究における画期的な成果と位置づけており、モデルは既存の命題を検証するだけでなく、反例の構成によって予想そのものを覆しました。
AMDは2026年5月20日、オープンソースAIコンピュートスタックの新バージョンROCm 7.13を発表しました。MI350P GPUのサポート、MI300Xアクセラレーター1基あたり最大8つの分離vGPUによる仮想化、透明性のあるパフォーマンス分析のためのオープンソースROCprof Traceデコーダー、ドメイン固有SDKを備えたモジュラーTheRockパッケージングが新たに導入されます。Ubuntu 26.04とRHEL 9.6で検証済みで、MI350XとMI355XのVMware ESXi 9.1サポートも含まれます。
GoogleはGoogle I/O 2026でGemini 3.5 FlashとProを発表しました——競合他社より4倍速いフロンティアモデルで、エージェントタスクへの特別な注力、開発者向けの新プラットフォームAntigravity 2.0、24時間年中無休で利用可能な個人AIエージェントGemini Sparkを強調しています。
GoogleはI/O 2026でGemini Omni Flashを発表しました——画像、音声、動画、テキストの組み合わせから動画を生成・編集する新しいマルチモーダルモデルです。YouTube Shortsで本日から利用可能で、生成されたすべてのクリップにSynthIDデジタル透かしが必須で組み込まれます。
Claude Code v2.1.145はスクリプト化のためのJSONライブセッション出力、エージェント追跡のための拡張OTELトレース属性、およびBashコマンド承認時のセキュリティ脆弱性修正を提供します。npm install -g @anthropic-ai/claude-codeでアップデートが利用可能です。
AnthropicとKPMGは戦略的グローバルアライアンスを締結しました。Claudeは世界四大会計事務所の一つの全従業員にアクセスできるようになります。ClaudeはKPMGのDigital Gatewayに統合され、KPMGはAnthropicのプライベートエクイティ部門における優先パートナーとなります。
Anthropicは2026年5月18日、2022年創業のStainlessを買収しました。同社はすべての公式AnthropicSDKおよびMCPサーバーツールを手掛けており、数百社向けにSDKを生成しています。この買収は、Claudeエージェントとexternalなデータやツールとのインテグレーション強化を目的としています。
AnthropicはClaude APIプラットフォームに3つの重要なアップデートを導入しました。プライベートネットワークへのインターネット公開不要な接続を実現するMCP Tunnels、Anthropic管理インフラの代替となるセルフホストサンドボックス、そして100Kトークンを超えるツール出力の自動ファイルスピル機能です。
arXiv論文2605.15514は、Llama・Mistral・Qwen・GPT-NeoXを含むほぼすべての現代的な大規模言語モデルが使用するRotary Positional Embeddings(RoPE)が、長いコンテキストで位置とトークンを区別する能力を失うことを数学的に証明しています。著者らは根本的に新しいアーキテクチャメカニズムが必要と結論付けています。
NUSとNTUの研究者によるarXiv論文2605.18661では、わずか15ドルで研究論文を自律的に生成するシステムを分析しています。主要な発見:フロンティアLLMは結果を捏造し、アイデアの新規性を信頼性高く評価できません。包括的なロードマップは、信頼できる支援と安全でないAI自律性の境界を定義しています。
Argusは、Zhen Zhang、Liangcai Su、Zhuo Chenらが2026年5月15日に発表したarXiv論文で、深層調査エージェント向けのエビデンス・アセンブリ・フレームワークを提案しています。システムはデュアルエージェント・アーキテクチャ――サーチャー(ReActスタイルのトレース)+ナビゲーター(共有エビデンス・グラフ+RL合成)――を採用し、シングル・サーチャーで+5.5pp、8並列で+12.7pp、64並列でコンテキスト超過なしにBrowseCompで86.2スコアを達成しています。
CAST は、Renning Pang、Tian Lan、Leyuan Liu、Piao Tong、Sheng Cao、Xiaosong Zhang による2026年5月14日付 arXiv 論文で、LLM ツール使用のための事例ベースキャリブレーションフレームワークを導入しています。このアプローチは、強化学習のための構造化情報として過去の実行トラジェクトリを扱います。BFCLv2 ベースラインと比較して最大 +5.85パーセントポイントの実行精度向上と、平均推論長の26%削減を達成しています。
「Hidden in Memory」は、Sidharth Pulipaka、Stanislau Hlebik、Leonidas Raghav、Sahar Abdelnabi、Vyas Raina、Ivaxi Sheth、Mario Fritzが2026年5月14日に発表したarXiv論文で、ステートフルなLLMエージェントへの遅延実行攻撃を提案しています。外部コンテキスト(文書、Webページ)の敵対的コンテンツがエージェントの永続メモリを汚染し、GPT-5.5で99.8%、Kimi-K2.6で95%の成功率を達成。汚染されたメモリが攻撃者意図の行動を誘発する割合は60〜89%です。
GitHubは2026年5月17日、GPT-5.3-CodexがGPT-4.1に代わりCopilot BusinessおよびEnterpriseの基盤モデルになると発表しました。この変更はエンタープライズ・ティアのみが対象です(Copilot Pro、Pro+、Freeは対象外)。GPT-5.3-Codexは初のLTS(長期サポート)モデルであり、2026年2月5日から2027年2月4日まで12ヶ月の利用可能性が保証されます。価格:プレミアム・リクエスト乗数1×。GPT-4.1は2026年6月1日の廃止まで乗数0×(無料)で強制有効のまま維持されます。
Claude Code v2.1.143は、Anthropicが2026年5月15日にリリースしたCLIエージェントの新バージョンです。v2.1.139、v2.1.140、v2.1.141、v2.1.142に続く今週5回目のパッチです。プラグイン依存関係の強制とdisable-chainヒント、マーケットプレイスでの推定コンテキストコスト表示(ターンごと・呼び出しごとのトークン推定)、新しいworktree.bgIsolation設定、PowerShell -ExecutionPolicy Bypassの自動フラグ、アイドル復帰後にモデル/エフォートを保持するバックグラウンドセッションが追加されました。
「媚びへつらいのコンセンサスからPluralistic Repairへ」は、Varad Vishwarupe、Nigel Shadbolt、Marina Jirotkaが2026年5月15日にarXivに公開した新しいアライメント論文です。著者たちは、現在の多元的アライメントが嗜好の集約に焦点を当てており、根本的に方向性を誤っていると主張しています。Claude Sonnet 4.5(N=198)とGPT-4o(N=100)でテストしたPluralistic Repair Score(PRS)指標を提案しており、両モデルとも低い修復品質と同意追従行動を示しました。
FLUX Outpaintingは、Black Forest Labsが2026年5月14日に発表した新しい画像生成機能で、専用の拡張エンドポイントを通じて任意の方向に画像を拡張します。ユーザーはターゲットキャンバスのサイズと配置座標を指定——モデルはテキストプロンプトなしで拡張領域全体で光、テクスチャ、深度、構図を保持します。最大4MP出力、BFL API経由で利用可能、パブリックデモはflux-tools.bfl.ai/outpaintingで確認できます。
GitHub Accessibility Agentは2026年5月15日に発表された汎用アクセシビリティ自動化のケーススタディです。このエージェントは3,535件のプルリクエストをレビューし68%の解決率を達成し、重大なバイアスを発見しました:LLMは数十年にわたるアクセシビリティ未対応コードで訓練されているため、アクセシビリティアンチパターンを生成する傾向があります。GitHubは並列サブエージェントではなくシーケンシャルレビュアー+実装者アーキテクチャ(二層モデル)を使用——トークン消費を削減し精度を向上させました。