🔴 🛡️ セキュリティ

Anthropic:Project Glasswingが初月に1万件超の高リスク脆弱性を発見

編集イラスト:コードグリッド上のデジタルコンパスと脆弱なセグメント

Anthropic Project Glasswingは約50のセキュリティパートナーを結集し、Claude Mythos Previewを使用して重要なソフトウェアをスキャンしています。初月に1万件以上の高リスク・クリティカルな脆弱性が発見され、オープンソーススキャナーは1,000プロジェクトで6,202件を90.6%の真陽性率で発見しました。

🔴 🤝 エージェント

arXiv:2605.22502:エージェントワークフローをLLM重みにコンパイルして100分の1のコストでフロンティア近似品質を実現

編集イラスト:ワークフローノードがコンパクトなニューラルネットコアに集約

研究者たちは、複雑なエージェントワークフローをLangChainやLangGraphのような外部オーケストレーションではなく、微調整された小型モデルの重みに直接エンコードできることを示しました。このアプローチは旅行予約、Zoom支援、保険という3つの実際のシナリオ(14〜55ノードのワークフロー)でフロンティア近似品質を達成し、推論コストを100分の1に削減します。

🔴 🤝 エージェント

arXiv:2605.22794:MOSSが自身のソースコードを修正して自己改善するエージェントを実証

編集イラスト:AIエージェントがサンドボックスループで自身のソースコードを書き換える

研究者たちはMOSSを提案しました。これは自身のソースコードを書き換えることで改善する自律エージェントのフレームワークです——プロンプトやファインチューニングの重みだけではありません。OpenClawベンチマークで1サイクルのMOSS自己進化がスコアを0.25から0.61に人間の介入なしで引き上げ、エージェントがテキストのみの手法では触れられないルーティング、フック、ディスパッチロジックを修正できることを示しています。

今日のAIニュース

🟡 🏥 実践 2026年5月23日 · 3 分で読めます

arXiv:2605.22681:CUSPベンチマークがフロンティアモデルは科学的ブレークスルーを信頼できるほど予測できないことを示す

編集イラスト:科学的曲線のブレークスルーポイントと予測を外したAIシステム

CUSPベンチマークは4,700件のイベントのデータベースでAIモデルが科学的ブレークスルーを予測する能力をテストします。フロンティアモデル(GPT-5、Claude Opus 4.7、Gemini 3 Pro)はもっともらしい研究方向を特定しますが、過剰な信頼度で体系的に結果とタイミングを推測します。追加の締め切り前コンテキストは役立ちません——制限は情報的なものではなく構造的なものです。

🟡 ✨ 注目トピック 2026年5月23日 · 4 分で読めます

arXiv:2605.22763:AI エージェントがLean検証で9つの開放Erdős問題と44のOEIS予想を解決

編集イラスト:数学記号とLean型を結ぶ形式的証明ツリー

DeepMindとMIT CSAILから20名の研究者が参加するチームが、Lean定理証明器でのLLMによる形式的証明の自律的生成に関する最初の大規模評価を発表しました。エージェントはLLM生成とLeanによる記号的検証を組み合わせ、353の開放Erdős問題のうち9つを自律的に解決し、492のOEIS予想のうち44を証明しました。

🟡 🛡️ セキュリティ 2026年5月23日 · 4 分で読めます

arXiv:2605.22786:LCGuardがマルチエージェントシステムにおける共有KVキャッシュをエージェント間のデータ漏洩から保護します

編集イラスト:2つのエージェントゾーン間の境界とKVキャッシュを囲む暗号化シールド

LCGuardは、効率化のためにKVキャッシュを共有するマルチエージェントシステムにおけるデータ漏洩を防ぐための新しいフレームワークです。IBM ResearchとMITの研究者がSadie Asifの指揮のもとで発表した研究は、「潜在的通信ガード」アプローチの最初の正式なモデルを提示しており、複数のエージェントが共有メモリを通じてコンテキストを共有する本番エージェントRAGシステムに適用可能です。

🟡 🤝 エージェント 2026年5月23日 · 4 分で読めます

arXiv:2605.22535:TerminalWorldベンチマークがシミュレーションなしで実際のLinuxターミナルタスクにおけるLLMエージェントを評価します

編集イラスト:gitとbashコマンドを含むターミナルプロンプトとそれらを実行するAIエージェント

TerminalWorldは、シミュレーション環境を使わずに実際のLinuxプロセスでbash・git・ファイル操作を行うLLMエージェントを評価する新しいベンチマークです。Zhaoyang ChuとJiarui Huが率いる8名の著者による研究は「コンピュータ使用」エージェントの新たな基準を示しており、Claude Code・GitHub Copilot Workspace・Cursorのエージェントモードなどのツールに直接関連しています。

🟡 🤝 エージェント 2026年5月23日 · 3 分で読めます

Anthropic Claude Code v2.1.149が/usageカテゴリ内訳とPowerShellパーミッションバイパス修正を提供

編集イラスト:使用状況グラフとセキュリティシールドが表示されたターミナル

AnthropicがClaude Code CLI v2.1.149をリリースしました。/usageコマンドをカテゴリ別コスト内訳(skills、subagents、plugins、MCPサーバー別)に拡張しています。2つのセキュリティ脆弱性を修正:PowerShell組み込み関数によるパーミッションバイパスとgit worktreeサンドボックスの誤ったallowlist。クラウドMCPコネクタへの接続を容易にするenterpriseの設定allowAllClaudeAiMcpsも追加されました。

🟡 🏥 実践 2026年5月23日 · 3 分で読めます

GitHub:2026年Gartnerマジッククアドラント——GitHub Copilotが企業AIコーディングエージェントで3年連続リーダーに

編集イラスト:象限マトリックスでGitHub CopilotがLeader領域に配置

Gartnerは2026年の企業AIコーディングエージェントのマジッククアドラントレポートでGitHubをリーダーとして位置付けました——このカテゴリが存在する3年連続となります。GitHub Copilotは現在世界中の140,000の組織で使用されており、評価ではコード生成だけでなく、コードからレビュー、セキュリティ、ガバナンスまでSDLC全体をカバーするエージェントワークフローが強調されました。

🟡 🛡️ セキュリティ 2026年5月23日 · 4 分で読めます

GitHub:npm 11.15.0がサプライチェーン強化のためのステージング公開と3つの新しいインストール時--allowフラグを導入

編集イラスト:ステージング区画のnpmパッケージとセキュリティフィルター

GitHubがnpm CLIバージョン11.15.0をリリースし、ステージング公開を導入しました——パッケージはインストール可能になる前にメンテナーの承認が必要です。また、npm installコマンドで依存関係のソースを詳細に制御するための既存の--allow-gitに加えて3つの新しいインストール時フラグ(--allow-file、--allow-remote、--allow-directory)も導入されました。

🟢 🔧 ハードウェア 2026年5月23日 · 4 分で読めます

AMD:GluonブロックレベルモデルでInstinct MI355のMXFP4 5.255 TFLOPSを実現

編集イラスト:行列ユニットとパイプラインを持つGPUアクセラレータ

AMD ROCmチームがMI355 GPU向けGluonプログラミングモデルで高性能GEMMカーネルを作成するチュートリアルを公開しました。最適化されたFP16カーネルはMFMA効率98.75%で1.489 TFLOPSを達成し、BF8(3.257 TFLOPS)およびMXFP4(5.255 TFLOPS)への拡張は現代のAIワークロードへの有効性を示しています。チュートリアルにはL2キャッシュミスを530万から410万に削減するワークグループリマッピングとswizzleが含まれています。

🟢 🏥 実践 2026年5月23日 · 4 分で読めます

arXiv:2605.22337:Meta-Softが組合せ可能なメタトークンと学習可能な直交基でKVキャッシュ圧縮を実現

編集イラスト:メタトークンがアテンションキャッシュを直交基底に圧縮

研究者たちはMeta-Softを提案しました。これはLLM推論における動的KVキャッシュ圧縮の新しい手法です。この手法は学習可能な直交基底行列とセレクタネットワークを使用し、長いプロンプトからの重要情報の圧縮表現であるソフトメタトークンを合成します。注意力フロー機構は削除されたトークンの意味情報を保持されたトークンに再分配し、ほとんどの長コンテキストベンチマークで既存のKVキャッシュ排除手法を上回ります。

🟢 🏥 実践 2026年5月23日 · 4 分で読めます

arXiv:2605.22664:WorkstreamBenchが金融分野のエンドツーエンドスプレッドシートタスクでLLMエージェントをテストし、フロンティアモデルが苦戦しています

編集イラスト:数式を含むExcelスプレッドシートとそれを分析するAIエージェント

WorkstreamBenchはThomson Yenが率いる10名の著者によるベンチマークで、金融ドメインにおける請求書・レポート・費用分析などの実際のExcelおよびスプレッドシートタスクをLLMエージェントに対してテストします。GPT-4o・Claude・Geminiを比較しましたが、どのモデルも全タスクセットを確実にこなすことができず、エンタープライズ財務向けの現在のエージェントインフラストラクチャに構造的な欠陥があることが示されています。

🟢 🏥 実践 2026年5月23日 · 3 分で読めます

Anthropic Claude Code v2.1.150 — ユーザー向けの変更なしの内部インフラストラクチャパッチ

編集イラスト:バージョン番号と内部の歯車が表示されたClaude Codeターミナル

AnthropicはUTC土曜日04:03にClaude Code CLIバージョンv2.1.150をリリースしました。v2.1.149からわずか1日後のリリースです。このバージョンにはユーザー向けの変更はなく、内部インフラストラクチャの改善のみが含まれています。Darwin・Linux・WindowsのARM64およびx64アーキテクチャ、そしてLinux muslビルドで利用可能です。

🟢 📦 オープンソース 2026年5月23日 · 4 分で読めます

Kedro:バージョン1.2.0が@experimentalデコレータとLangGraphエージェントstarterをGenAIパイプライン向けに提供

編集イラスト:LangGraphオーケストレーションとMermaid図を持つパイプラインノード

Linux Foundation AIプロジェクトのKedroがKedro-Viz 12.3.0とともにバージョン1.2.0をリリースしました。新しい@experimentalデコレータは開発中のAPIのマーキングを可能にし、starterプロジェクトsupport-agent-langgraphはLangGraphオーケストレーションとLangfuse/Opikプロンプト管理ツールとの統合を実証します。Kedro-VizはMermaidダイアグラムとノードプレビューの拡張性を獲得し、パイプラインデバッグが向上します。

🔴 ⚖️ 規制 2026年5月22日 · 3 分で読めます

UK AI Safety Institute:先進AIシステムの監視がますます困難に — 20以上の劣化経路を特定

編集イラスト:先進AIシステムの監視がますます困難になる — 20以上の劣化経路を特定

UK AI Safety Institute(AISI)は2026年5月21日、産業・政府・学術界の専門家25名へのインタビューをもとに先進AIシステム監視の将来を分析した報告書を公表した。主要な知見は、現在の監視が侵食されつつある基盤の上に成り立っているというものだ。20以上の監視メカニズム劣化経路が特定され、潜在的推論、能力マスキング、AIエージェントの外部行動、AI間通信が重点分野として挙げられた。

🔴 🤝 エージェント 2026年5月22日 · 3 分で読めます

Microsoft Research:MagenticLite + Fara1.5(4B/9B/27B)— 小型モデル向けに最適化したエージェントAIがSOTAを達成

編集イラスト:MagenticLite + Fara1.5(4B/9B/27B)— 小型モデル向けに最適化したエージェントAIがSOTAを達成

Microsoft Researchは2026年5月21日、小型モデルに対するエージェントAIの3点セットを発表した。MagenticLite(ブラウザおよびファイルシステムUIアプリ)、MagenticBrain(Qwen 3 14Bからファインチューニングした14Bオーケストレーションモデル)、Fara1.5(4B/9B/27Bの3サイズのコンピュータ使用モデル)だ。Fara1.5-27BはOnline-Mind2Webベンチマーク(300のウェブタスク)でSOTAの90%超を達成し、前世代Fara-7Bのほぼ2倍のスコアを記録した。エージェントAIに巨大モデルは不要で、うまく設計されたツールと実行フレームワークだけで十分だと示すことが目的だ。

🟡 🏥 実践 2026年5月22日 · 3 分で読めます

arXiv:2605.21427:PALS — MoEモデルの電力対応LLMサービングで+26.3%エネルギー効率と4-7倍QoS違反削減を達成

編集イラスト:2605.21427:PALS — MoEモデルの電力対応LLMサービングで+26.3%エネルギー効率と4-7倍QoS違反削減を達成

研究者たちは2026年5月21日、arXivプレプリントサーバーにPALSを公表した。PALSはGPU電力制御をMoEモデルのLLMサービングに直接統合するランタイムシステムだ。軽量なオフライン電力性能モデルとフィードバックコントローラーを用いてスループット目標に基づく設定を動的最適化し、電力制約下で26.3%のエネルギー効率向上と4-7倍のQoS違反削減を実現する。APIの変更やモデルの再トレーニングなしにvLLMに統合可能で、データセンターの増大する運営上のボトルネック — GPUクラスターのエネルギー消費 — に直接対処する。

🟡 🤖 モデル 2026年5月22日 · 4 分で読めます

arXiv:2605.21006:既製ペルソナベクトルがLLMモデルの的を絞った追従ステアリングの68-98%の効果を達成

編集イラスト:2605.21006:既製ペルソナベクトルがLLMモデルの的を絞った追従ステアリングの68-98%の効果を達成

研究者たちは2026年5月21日、arXivに「悪魔の代弁者を演じる」と題する論文を発表した。ロールプレイ用に開発された既製ペルソナベクトルが、追従性(ユーザーが誤っていても同意しようとするモデルの傾向)を専門化されたContrastive Activation Addition(CAA)手法の68-98%の効率で低減できることを示している。追従性はペルソナレベルの属性であり、活性化空間内の単一の誘導可能な方向ではないという幾何学的分析はアライメントへのより容易な経路を開く。

🟡 🤝 エージェント 2026年5月22日 · 3 分で読めます

AWS:Nova ActがHIPAA適格を取得 — 医療ワークフロー向けePHIエージェント自動化が解禁

編集イラスト:Nova ActがHIPAA適格を取得 — 医療ワークフロー向けePHIエージェント自動化が解禁

AWSは2026年5月21日、ブラウザおよびUIワークフロー自動化のためのエージェントAIサービスAmazon Nova ActがHIPAA適格ステータスを取得したと発表した。医療機関はNova Actを使って保護された医療情報(ePHI)を扱えるようになった。事前承認、保険確認、プロバイダーウェブポータルを通じた紹介状送付に対応する。Amazon Bedrock AgentCoreおよびStrand Agentsフレームワークと統合し、署名済みBAA契約とAWS KMS暗号化が必要で、現在は米東部(北バージニア)リージョンのみで利用可能だ。

🟡 🤝 エージェント 2026年5月22日 · 3 分で読めます

Anthropic:Claude Code v2.1.147が確定性マルチエージェントオーケストレーションのWorkflowツールを導入

編集イラスト:Claude Code v2.1.147が確定性マルチエージェントオーケストレーションのWorkflowツールを導入

Anthropicは2026年5月21日20:39 UTCにClaude Code v2.1.147をリリースし、Claude Codeエコシステム初の確定性マルチエージェントオーケストレーション機構となるWorkflowツールを導入した。ツールは初期デフォルト無効で、環境変数CLAUDE_CODE_WORKFLOWS=1で有効化する。同バージョンで既存の/simplifyコマンドがhigh/medium/lowの努力レベルを持つ/code-reviewに改名され、プロトタイプ汚染攻撃とtheableベースのエスケープ攻撃に対するサンドボックス強化も追加された。

過去のニュース

2026年5月21日木曜日

12 件 →
🔴 ⚖️ 規制 2026年5月21日 · 3 分で読めます

EU AI Office:高リスクAIシステム分類ガイドライン草案のパブリックコンサルテーション開始

Editorial illustration: EU AI OfficeがAI法に基づく高リスクAIシステム分類のコンサルテーションを開始

欧州委員会は2026年5月13日、EU AI法に基づく高リスクAIシステム分類ガイドライン草案に関する対象を絞ったパブリックコンサルテーションを開始しました。締め切りは5月22日の中央ヨーロッパ時間18時であり、ガイドラインは医療、教育、重要インフラ、人事プロセスにおいてどの組織が最も厳格な規制要件を満たさなければならないかを直接決定します。

🔴 🛡️ セキュリティ 2026年5月21日 · 3 分で読めます

GitHub:悪意あるVS Code拡張機能により内部リポジトリ約3,800件が侵害される

Editorial illustration: GitHubの内部リポジトリが従業員デバイスの悪意あるVS Code拡張機能を介して侵害される

GitHubは2026年5月18日、第三者製の悪意あるVS Code拡張機能が従業員のデバイスに感染し、攻撃者が約3,800件のGitHub内部リポジトリにアクセスしたことを公表しました。調査は継続中であり、内部リポジトリ以外のユーザーデータが侵害されたという証拠は現時点では確認されていません。IDEの拡張機能がエンタープライズ開発者インフラへの攻撃ベクターとなった2例目の重大インシデントです。

🔴 🤖 モデル 2026年5月21日 · 2 分で読めます

OpenAI:AIモデルが80年来の離散幾何学の予想を反証

Editorial illustration: OpenAI AIモデルが離散幾何学の80年来の単位距離予想を反証

OpenAIは、AIモデルが単位距離問題を解決したと発表しました。この問題はPaul Erdősが1946年に提唱して以来80年以上にわたり未解決だった離散幾何学の核心的予想です。同社はこの結果をAI主導の数学研究における画期的な成果と位置づけており、モデルは既存の命題を検証するだけでなく、反例の構成によって予想そのものを覆しました。

🟡 🔧 ハードウェア 2026年5月21日 · 2 分で読めます

AMD:ROCm 7.13がMI350P GPU、マルチVF仮想化、TheRockモジュラーパッケージを導入

Editorial illustration: AMD ROCm 7.13がMI350P GPU、マルチVF仮想化、TheRockモジュラーパッケージを導入

AMDは2026年5月20日、オープンソースAIコンピュートスタックの新バージョンROCm 7.13を発表しました。MI350P GPUのサポート、MI300Xアクセラレーター1基あたり最大8つの分離vGPUによる仮想化、透明性のあるパフォーマンス分析のためのオープンソースROCprof Traceデコーダー、ドメイン固有SDKを備えたモジュラーTheRockパッケージングが新たに導入されます。Ubuntu 26.04とRHEL 9.6で検証済みで、MI350XとMI355XのVMware ESXi 9.1サポートも含まれます。

2026年5月20日水曜日

18 件 →
🔴 🤖 モデル 2026年5月20日 · 3 分で読めます

Google:Gemini 3.5 FlashとPro——これまでで最速のフロンティアモデル

Editorial illustration: Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od

GoogleはGoogle I/O 2026でGemini 3.5 FlashとProを発表しました——競合他社より4倍速いフロンティアモデルで、エージェントタスクへの特別な注力、開発者向けの新プラットフォームAntigravity 2.0、24時間年中無休で利用可能な個人AIエージェントGemini Sparkを強調しています。

🔴 🤖 モデル 2026年5月20日 · 3 分で読めます

Google:Gemini Omni Flashが混合入力からのネイティブ動画生成を実現

Editorial illustration: Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje

GoogleはI/O 2026でGemini Omni Flashを発表しました——画像、音声、動画、テキストの組み合わせから動画を生成・編集する新しいマルチモーダルモデルです。YouTube Shortsで本日から利用可能で、生成されたすべてのクリップにSynthIDデジタル透かしが必須で組み込まれます。

🟡 🤝 エージェント 2026年5月20日 · 2 分で読めます

Anthropic Claude Code:v2.1.145でライブセッションのスクリプト化とセキュリティ修正を実現

Editorial illustration:

Claude Code v2.1.145はスクリプト化のためのJSONライブセッション出力、エージェント追跡のための拡張OTELトレース属性、およびBashコマンド承認時のセキュリティ脆弱性修正を提供します。npm install -g @anthropic-ai/claude-codeでアップデートが利用可能です。

🟡 🤝 エージェント 2026年5月20日 · 2 分で読めます

Anthropic:138か国27万6千人のKPMG従業員にClaudeを提供

Editorial illustration: Anthropic i KPMG sklopili su stratešku globalnu alijansu kojom Claude dobiva pristup svim zaposlenic

AnthropicとKPMGは戦略的グローバルアライアンスを締結しました。Claudeは世界四大会計事務所の一つの全従業員にアクセスできるようになります。ClaudeはKPMGのDigital Gatewayに統合され、KPMGはAnthropicのプライベートエクイティ部門における優先パートナーとなります。

2026年5月19日火曜日

17 件 →
🔴 🤝 エージェント 2026年5月19日 · 3 分で読めます

Anthropic: StainlessのM&Aにより、MCPサーバーツールとSDK開発をClaudeプラットフォームに直接統合

Editorial illustration: Anthropicが2026年5月18日にStainlessを買収。同社は2022年設立で、すべての公式Anthropic SDKおよびMCPサーバーツールを手掛けていた

Anthropicは2026年5月18日、2022年創業のStainlessを買収しました。同社はすべての公式AnthropicSDKおよびMCPサーバーツールを手掛けており、数百社向けにSDKを生成しています。この買収は、Claudeエージェントとexternalなデータやツールとのインテグレーション強化を目的としています。

🔴 🤝 エージェント 2026年5月19日 · 3 分で読めます

Anthropic:MCP Tunnels、セルフホストサンドボックス、ツール出力の自動ファイルスピル

Editorial illustration: AnthropicがClaude APIプラットフォームにエージェント開発者向け3つの重要アップデートを導入

AnthropicはClaude APIプラットフォームに3つの重要なアップデートを導入しました。プライベートネットワークへのインターネット公開不要な接続を実現するMCP Tunnels、Anthropic管理インフラの代替となるセルフホストサンドボックス、そして100Kトークンを超えるツール出力の自動ファイルスピル機能です。

🔴 🤖 モデル 2026年5月19日 · 4 分で読めます

arXiv:2605.15514: RoPEは長いコンテキストで位置もトークンも区別できない――基本的限界の理論的証明

Editorial illustration: arXiv論文2605.15514がRoPE位置エンコーディングの根本的限界を理論的に証明――長コンテキストで位置とトークンの区別能力を失う

arXiv論文2605.15514は、Llama・Mistral・Qwen・GPT-NeoXを含むほぼすべての現代的な大規模言語モデルが使用するRotary Positional Embeddings(RoPE)が、長いコンテキストで位置とトークンを区別する能力を失うことを数学的に証明しています。著者らは根本的に新しいアーキテクチャメカニズムが必要と結論付けています。

🟡 🤝 エージェント 2026年5月19日 · 3 分で読めます

arXiv:2605.18661:AI自動研究のロードマップとユーザーガイド

Editorial illustration: arXiv論文2605.18661が自律的に研究論文を生成するAIシステムを分析

NUSとNTUの研究者によるarXiv論文2605.18661では、わずか15ドルで研究論文を自律的に生成するシステムを分析しています。主要な発見:フロンティアLLMは結果を捏造し、アイデアの新規性を信頼性高く評価できません。包括的なロードマップは、信頼できる支援と安全でないAI自律性の境界を定義しています。

2026年5月18日月曜日

11 件 →
🟡 🤝 エージェント 2026年5月18日 · 4 分で読めます

arXiv:2605.16217 Argus:深層調査エージェント向けエビデンス・アセンブリ・アーキテクチャ、8並列サーチャーで+12.7pp達成

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argusは、Zhen Zhang、Liangcai Su、Zhuo Chenらが2026年5月15日に発表したarXiv論文で、深層調査エージェント向けのエビデンス・アセンブリ・フレームワークを提案しています。システムはデュアルエージェント・アーキテクチャ――サーチャー(ReActスタイルのトレース)+ナビゲーター(共有エビデンス・グラフ+RL合成)――を採用し、シングル・サーチャーで+5.5pp、8並列で+12.7pp、64並列でコンテキスト超過なしにBrowseCompで86.2スコアを達成しています。

🟡 📦 オープンソース 2026年5月18日 · 4 分で読めます

arXiv:2605.15041 CAST フレームワーク:事例ベースキャリブレーション LLM ツール使用が BFCLv2 で +5.85pp、推論長を26%削減

Editorial illustration: LLM agent s case library prikazom i tool call validation indicators.

CAST は、Renning Pang、Tian Lan、Leyuan Liu、Piao Tong、Sheng Cao、Xiaosong Zhang による2026年5月14日付 arXiv 論文で、LLM ツール使用のための事例ベースキャリブレーションフレームワークを導入しています。このアプローチは、強化学習のための構造化情報として過去の実行トラジェクトリを扱います。BFCLv2 ベースラインと比較して最大 +5.85パーセントポイントの実行精度向上と、平均推論長の26%削減を達成しています。

🟡 🛡️ セキュリティ 2026年5月18日 · 5 分で読めます

arXiv:2605.15338 スリーパー・メモリ・ポイズニング:LLMエージェントの永続メモリを介したGPT-5.5への攻撃成功率99.8%

Editorial illustration: LLM agent memory store s dormantnim adversarial token-ima i wake-up trigger ikone.

「Hidden in Memory」は、Sidharth Pulipaka、Stanislau Hlebik、Leonidas Raghav、Sahar Abdelnabi、Vyas Raina、Ivaxi Sheth、Mario Fritzが2026年5月14日に発表したarXiv論文で、ステートフルなLLMエージェントへの遅延実行攻撃を提案しています。外部コンテキスト(文書、Webページ)の敵対的コンテンツがエージェントの永続メモリを汚染し、GPT-5.5で99.8%、Kimi-K2.6で95%の成功率を達成。汚染されたメモリが攻撃者意図の行動を誘発する割合は60〜89%です。

🟡 🤖 モデル 2026年5月18日 · 4 分で読めます

GitHub Copilot:GPT-5.3-CodexがBusinessおよびEnterpriseの基盤モデルに、12ヶ月LTS保証付き

Editorial illustration: GitHub Copilot logo s GPT-5.3-Codex badge i LTS support stamp.

GitHubは2026年5月17日、GPT-5.3-CodexがGPT-4.1に代わりCopilot BusinessおよびEnterpriseの基盤モデルになると発表しました。この変更はエンタープライズ・ティアのみが対象です(Copilot Pro、Pro+、Freeは対象外)。GPT-5.3-Codexは初のLTS(長期サポート)モデルであり、2026年2月5日から2027年2月4日まで12ヶ月の利用可能性が保証されます。価格:プレミアム・リクエスト乗数1×。GPT-4.1は2026年6月1日の廃止まで乗数0×(無料)で強制有効のまま維持されます。

2026年5月16日土曜日

15 件 →
🟡 🤝 エージェント 2026年5月16日 · 3 分で読めます

Anthropic: Claude Code v2.1.143 — 今週5回目のパッチ、プラグイン依存関係の強制とマーケットプレイスの推定コンテキストコスト

編集用イラスト:トークンコストのアイコンと依存関係グラフを備えたClaude Codeプラグインマーケットプレイス。

Claude Code v2.1.143は、Anthropicが2026年5月15日にリリースしたCLIエージェントの新バージョンです。v2.1.139、v2.1.140、v2.1.141、v2.1.142に続く今週5回目のパッチです。プラグイン依存関係の強制とdisable-chainヒント、マーケットプレイスでの推定コンテキストコスト表示(ターンごと・呼び出しごとのトークン推定)、新しいworktree.bgIsolation設定、PowerShell -ExecutionPolicy Bypassの自動フラグ、アイドル復帰後にモデル/エフォートを保持するバックグラウンドセッションが追加されました。

🟡 🛡️ セキュリティ 2026年5月16日 · 3 分で読めます

arXiv:2605.14912: 媚びへつらいのコンセンサスからPluralistic Repairへ — AIアライメントは合意ではなく不一致を示さなければならない

編集用イラスト:不一致と異なる視点を示すダイアログバブルを持つAI会話。

「媚びへつらいのコンセンサスからPluralistic Repairへ」は、Varad Vishwarupe、Nigel Shadbolt、Marina Jirotkaが2026年5月15日にarXivに公開した新しいアライメント論文です。著者たちは、現在の多元的アライメントが嗜好の集約に焦点を当てており、根本的に方向性を誤っていると主張しています。Claude Sonnet 4.5(N=198)とGPT-4o(N=100)でテストしたPluralistic Repair Score(PRS)指標を提案しており、両モデルとも低い修復品質と同意追従行動を示しました。

🟡 🤖 モデル 2026年5月16日 · 3 分で読めます

Black Forest Labs: FLUX Outpaintingが光・テクスチャ・構図を保持しながら任意の方向に画像を拡張

Editorial illustration: 光とテクスチャを保持しながらフレームの外へ広がる画像。

FLUX Outpaintingは、Black Forest Labsが2026年5月14日に発表した新しい画像生成機能で、専用の拡張エンドポイントを通じて任意の方向に画像を拡張します。ユーザーはターゲットキャンバスのサイズと配置座標を指定——モデルはテキストプロンプトなしで拡張領域全体で光、テクスチャ、深度、構図を保持します。最大4MP出力、BFL API経由で利用可能、パブリックデモはflux-tools.bfl.ai/outpaintingで確認できます。

🟡 🤝 エージェント 2026年5月16日 · 4 分で読めます

GitHub: GitHub Accessibility Agentが3,535件のPRをレビューし解決率68%、LLMのアクセシビリティアンチパターンへのバイアスを発見

Editorial illustration: アクセシビリティアイコン(スクリーンリーダー、キーボード)とGitHub PRレビュー表示。

GitHub Accessibility Agentは2026年5月15日に発表された汎用アクセシビリティ自動化のケーススタディです。このエージェントは3,535件のプルリクエストをレビューし68%の解決率を達成し、重大なバイアスを発見しました:LLMは数十年にわたるアクセシビリティ未対応コードで訓練されているため、アクセシビリティアンチパターンを生成する傾向があります。GitHubは並列サブエージェントではなくシーケンシャルレビュアー+実装者アーキテクチャ(二層モデル)を使用——トークン消費を削減し精度を向上させました。