🤝 エージェント

145 件

🔴 🤝 エージェント 2026年5月23日 · 4 分で読めます

arXiv:2605.22502:エージェントワークフローをLLM重みにコンパイルして100分の1のコストでフロンティア近似品質を実現

編集イラスト:ワークフローノードがコンパクトなニューラルネットコアに集約

研究者たちは、複雑なエージェントワークフローをLangChainやLangGraphのような外部オーケストレーションではなく、微調整された小型モデルの重みに直接エンコードできることを示しました。このアプローチは旅行予約、Zoom支援、保険という3つの実際のシナリオ(14〜55ノードのワークフロー)でフロンティア近似品質を達成し、推論コストを100分の1に削減します。

🔴 🤝 エージェント 2026年5月23日 · 3 分で読めます

arXiv:2605.22794:MOSSが自身のソースコードを修正して自己改善するエージェントを実証

編集イラスト:AIエージェントがサンドボックスループで自身のソースコードを書き換える

研究者たちはMOSSを提案しました。これは自身のソースコードを書き換えることで改善する自律エージェントのフレームワークです——プロンプトやファインチューニングの重みだけではありません。OpenClawベンチマークで1サイクルのMOSS自己進化がスコアを0.25から0.61に人間の介入なしで引き上げ、エージェントがテキストのみの手法では触れられないルーティング、フック、ディスパッチロジックを修正できることを示しています。

🟡 🤝 エージェント 2026年5月23日 · 4 分で読めます

arXiv:2605.22535:TerminalWorldベンチマークがシミュレーションなしで実際のLinuxターミナルタスクにおけるLLMエージェントを評価します

編集イラスト:gitとbashコマンドを含むターミナルプロンプトとそれらを実行するAIエージェント

TerminalWorldは、シミュレーション環境を使わずに実際のLinuxプロセスでbash・git・ファイル操作を行うLLMエージェントを評価する新しいベンチマークです。Zhaoyang ChuとJiarui Huが率いる8名の著者による研究は「コンピュータ使用」エージェントの新たな基準を示しており、Claude Code・GitHub Copilot Workspace・Cursorのエージェントモードなどのツールに直接関連しています。

🟡 🤝 エージェント 2026年5月23日 · 3 分で読めます

Anthropic Claude Code v2.1.149が/usageカテゴリ内訳とPowerShellパーミッションバイパス修正を提供

編集イラスト:使用状況グラフとセキュリティシールドが表示されたターミナル

AnthropicがClaude Code CLI v2.1.149をリリースしました。/usageコマンドをカテゴリ別コスト内訳(skills、subagents、plugins、MCPサーバー別)に拡張しています。2つのセキュリティ脆弱性を修正:PowerShell組み込み関数によるパーミッションバイパスとgit worktreeサンドボックスの誤ったallowlist。クラウドMCPコネクタへの接続を容易にするenterpriseの設定allowAllClaudeAiMcpsも追加されました。

🔴 🤝 エージェント 2026年5月22日 · 3 分で読めます

Microsoft Research:MagenticLite + Fara1.5(4B/9B/27B)— 小型モデル向けに最適化したエージェントAIがSOTAを達成

編集イラスト:MagenticLite + Fara1.5(4B/9B/27B)— 小型モデル向けに最適化したエージェントAIがSOTAを達成

Microsoft Researchは2026年5月21日、小型モデルに対するエージェントAIの3点セットを発表した。MagenticLite(ブラウザおよびファイルシステムUIアプリ)、MagenticBrain(Qwen 3 14Bからファインチューニングした14Bオーケストレーションモデル)、Fara1.5(4B/9B/27Bの3サイズのコンピュータ使用モデル)だ。Fara1.5-27BはOnline-Mind2Webベンチマーク(300のウェブタスク)でSOTAの90%超を達成し、前世代Fara-7Bのほぼ2倍のスコアを記録した。エージェントAIに巨大モデルは不要で、うまく設計されたツールと実行フレームワークだけで十分だと示すことが目的だ。

🟡 🤝 エージェント 2026年5月22日 · 3 分で読めます

AWS:Nova ActがHIPAA適格を取得 — 医療ワークフロー向けePHIエージェント自動化が解禁

編集イラスト:Nova ActがHIPAA適格を取得 — 医療ワークフロー向けePHIエージェント自動化が解禁

AWSは2026年5月21日、ブラウザおよびUIワークフロー自動化のためのエージェントAIサービスAmazon Nova ActがHIPAA適格ステータスを取得したと発表した。医療機関はNova Actを使って保護された医療情報(ePHI)を扱えるようになった。事前承認、保険確認、プロバイダーウェブポータルを通じた紹介状送付に対応する。Amazon Bedrock AgentCoreおよびStrand Agentsフレームワークと統合し、署名済みBAA契約とAWS KMS暗号化が必要で、現在は米東部(北バージニア)リージョンのみで利用可能だ。

🟡 🤝 エージェント 2026年5月22日 · 3 分で読めます

Anthropic:Claude Code v2.1.147が確定性マルチエージェントオーケストレーションのWorkflowツールを導入

編集イラスト:Claude Code v2.1.147が確定性マルチエージェントオーケストレーションのWorkflowツールを導入

Anthropicは2026年5月21日20:39 UTCにClaude Code v2.1.147をリリースし、Claude Codeエコシステム初の確定性マルチエージェントオーケストレーション機構となるWorkflowツールを導入した。ツールは初期デフォルト無効で、環境変数CLAUDE_CODE_WORKFLOWS=1で有効化する。同バージョンで既存の/simplifyコマンドがhigh/medium/lowの努力レベルを持つ/code-reviewに改名され、プロトタイプ汚染攻撃とtheableベースのエスケープ攻撃に対するサンドボックス強化も追加された。

🟡 🤝 エージェント 2026年5月22日 · 4 分で読めます

LangChain:トークンストリームからエージェントストリームへ — 型付きチャネルがマルチエージェントUIの古典的ストリーミングに取って代わる

編集イラスト:トークンストリームからエージェントストリームへ — 型付きチャネルがマルチエージェントUIの古典的ストリーミングに取って代わる

LangChainは2026年5月21日、Christian BromannとNick Hollonによるポストを公開し、トークンストリームから構造化されたエージェントストリームへのパラダイム的進化を論じた。現代のAIエージェントはタスクを計画し、サブエージェントに委任し、ツールを呼び出し、人間のレビューのために一時停止する — 古典的なテキストトークンストリーミングではその作業を表示するのに不十分だ。LangChainはLangGraphでメッセージ、ツール呼び出し、状態変化、サブエージェントの活動、カスタムイベントを運ぶ型付きチャネルを提案する。アプリケーションは関連する型のみをサブスクライブし、長時間実行のワークロードでも効率的なUIを実現する。

🟡 🤝 エージェント 2026年5月22日 · 3 分で読めます

OpenAI:Codexのエンタープライズ展開 — 週間アクティブユーザー400万人とCodex Labsプログラム

編集イラスト:Codexエンタープライズ展開 — 週間アクティブユーザー400万人とCodex Labsプログラム

OpenAIは2026年5月21日、Codexプラットフォームの企業向け展開を発表した。このエージェントコーディングツールは週間アクティブユーザー400万人に達した。新しいCodex Labsプログラムと大手コンサルティング会社とのパートナーシップが発表され、大企業がCodexを実装・拡張するのを支援する。この発表はCodexをGitHub Copilotの中高端市場での直接競合として位置づける正式なエンタープライズ市場参入の動きだ。

🟡 🤝 エージェント 2026年5月21日 · 2 分で読めます

Anthropic:Claude Managed AgentsにMCP Tunnelsとセルフホストサンドボックスが登場

Editorial illustration: AnthropicのMCP Tunnelsがプライベートネットワーク対応、Claude Managed Agentsのセルフホストサンドボックスが登場

Anthropicは2026年5月19日のResearch Previewで、Claudeエージェントがユーザーのプライベートネットワーク内のModel Context Protocolサーバーに接続できるようにする「MCP Tunnels」と、Anthropicのインフラストラクチャの代替となるセルフホストサンドボックスを発表しました。アップデートにはアクティブセッション内でのMCP設定の動的変更と、100Kトークンを超えるツール出力のサンドボックスファイルへの自動オーバーフローも含まれています。

🟡 🤝 エージェント 2026年5月21日 · 2 分で読めます

Google DeepMind:Co-Scientist——科学研究を加速するマルチエージェントAIパートナー

Editorial illustration: Google DeepMind Co-Scientistマルチエージェントシステムが科学研究を加速

Google DeepMindは2026年5月19日、Geminiをベースとしたマルチエージェントシステム「Co-Scientist」を発表しました。6つの専門エージェントが「Tournament of Ideas」ディベートを通じて科学的仮説を生成・議論・改善します。100以上の研究機関との共同開発により、肝線維症、ALS、細胞老化、感染症の研究で具体的な成果を上げており、分析時間を数ヶ月から数日へと短縮しています。

🟡 🤝 エージェント 2026年5月21日 · 2 分で読めます

Google:I/O 2026 第2弾——Antigravity 2.0、Gemini Spark、Universal Cart発表

Editorial illustration: Google I/O 2026 第2弾発表——Antigravity 2.0、Gemini Spark、Universal CartがエージェントファーストのGoogleを固める

GoogleはI/O 2026カンファレンスで第2弾の大型AI発表を行いました。エージェントファーストの開発プラットフォームAntigravity 2.0(CLI・SDK付き)、デバイス上でバックグラウンド常駐する個人AIエージェントGemini Spark、そしてGoogleサービス横断のAIショッピングアシスタントUniversal Cartです。3製品は前回のランで報道済みのGemini 3.5 FlashとGemini Omni発表に続くものであり、Googleのエージェントファーストエコシステム戦略を総仕上げします。

🟡 🤝 エージェント 2026年5月21日 · 3 分で読めます

LangChain:Deep AgentsにツールコールをまたぐコードのためのQuickJSインタープリターが登場

Editorial illustration: LangChain Deep AgentsのQuickJSインタープリターがツールコール間で状態を保持しトークン消費を削減

LangChainは2026年5月20日、Deep Agentsフレームワークにインタープリター——LLMのツールコール間でエージェントがコードを書いて実行できる組み込みQuickJSランタイム環境——を導入しました。状態がモデルコンテキストではなくランタイム内に永続するため、一部のタスクでトークン消費を最大35パーセント削減できると同社は主張しています。またデフォルトではファイルシステム、ネットワーク、Shellへのアクセスがない明示的に制御されたアクション空間を持ちます。

🟡 🤝 エージェント 2026年5月20日 · 2 分で読めます

Anthropic Claude Code:v2.1.145でライブセッションのスクリプト化とセキュリティ修正を実現

Editorial illustration:

Claude Code v2.1.145はスクリプト化のためのJSONライブセッション出力、エージェント追跡のための拡張OTELトレース属性、およびBashコマンド承認時のセキュリティ脆弱性修正を提供します。npm install -g @anthropic-ai/claude-codeでアップデートが利用可能です。

🟡 🤝 エージェント 2026年5月20日 · 2 分で読めます

Anthropic:138か国27万6千人のKPMG従業員にClaudeを提供

Editorial illustration: Anthropic i KPMG sklopili su stratešku globalnu alijansu kojom Claude dobiva pristup svim zaposlenic

AnthropicとKPMGは戦略的グローバルアライアンスを締結しました。Claudeは世界四大会計事務所の一つの全従業員にアクセスできるようになります。ClaudeはKPMGのDigital Gatewayに統合され、KPMGはAnthropicのプライベートエクイティ部門における優先パートナーとなります。

🟡 🤝 エージェント 2026年5月20日 · 3 分で読めます

AWS:Amazon Nova Sonicによるスケーラブルな音声エージェントの3つのアーキテクチャパターン

Editorial illustration:

AWSはAmazon Nova SonicとAgentCore Gatewayを使用したスケーラブルな音声エージェントの詳細ガイドを発表しました。直接ツール、サブエージェント、セッション分割という3つのアーキテクチャパターンは、レイテンシと操作の複雑さの間の異なるトレードオフを提供します。

🟡 🤝 エージェント 2026年5月20日 · 2 分で読めます

GitHub CopilotにGemini 3.5 Flash導入:日常的なコーディングに速度と品質を

Editorial illustration: Google-ov Gemini 3.5 Flash model postaje općenito dostupan za sve GitHub Copilot planove. Obećava kv

GoogleのGemini 3.5 Flashモデルが全GitHub Copilotプランで一般提供(GA)されました。Flashティアの速度と低コストでProレベルに近い品質を提供すると期待されており、エージェント型ワークフローや複数のIDE環境への対応も強調されています。

🟢 🤝 エージェント 2026年5月20日 · 2 分で読めます

arXiv:2605.18703:EnvFactory——環境数1/5でツール使用エージェントの性能を15%向上

Editorial illustration:

EnvFactoryはツール使用エージェント訓練のための実行可能環境を自動合成する新フレームワークです。Qwen3モデルにおいて、わずか85の検証済み環境でBFCLv3を+15%、MCP-Atlasを+8.6%向上させ、同類手法比で5倍の効率を実現します。

🟢 🤝 エージェント 2026年5月20日 · 2 分で読めます

arXiv:2605.18565:LongMINT——AIエージェントがなぜすべての情報を「忘れる」のか

Editorial illustration:

LongMINTは長期動的シナリオにおけるAIエージェントのメモリ管理を測定する初のベンチマークです。1万5,600の質問回答ペアを含み、コンテキストは最大180万トークンに達します。テスト対象システムの平均精度はわずか27.9%——多くのケースでランダムな推測を下回ります。

🟢 🤝 エージェント 2026年5月20日 · 2 分で読めます

arXiv:2605.20173:本番LLMエージェントのための6つのアーキテクチャパターン

Editorial illustration: Novi arXiv rad uvodi stochastic-deterministic boundary kao temeljni dizajn princip produkcijskih LLM

新しいarXiv論文は、本番LLMエージェントの基本設計原則として確率的-決定論的境界を導入し、協調・状態・制御という3つのアーキテクチャ上の関心事に基づいて選択する6つのコンポーザブルなランタイムパターンを定義しています——階層的委任からヒューマン・イン・ザ・ループまで。

🔴 🤝 エージェント 2026年5月19日 · 3 分で読めます

Anthropic: StainlessのM&Aにより、MCPサーバーツールとSDK開発をClaudeプラットフォームに直接統合

Editorial illustration: Anthropicが2026年5月18日にStainlessを買収。同社は2022年設立で、すべての公式Anthropic SDKおよびMCPサーバーツールを手掛けていた

Anthropicは2026年5月18日、2022年創業のStainlessを買収しました。同社はすべての公式AnthropicSDKおよびMCPサーバーツールを手掛けており、数百社向けにSDKを生成しています。この買収は、Claudeエージェントとexternalなデータやツールとのインテグレーション強化を目的としています。

🔴 🤝 エージェント 2026年5月19日 · 3 分で読めます

Anthropic:MCP Tunnels、セルフホストサンドボックス、ツール出力の自動ファイルスピル

Editorial illustration: AnthropicがClaude APIプラットフォームにエージェント開発者向け3つの重要アップデートを導入

AnthropicはClaude APIプラットフォームに3つの重要なアップデートを導入しました。プライベートネットワークへのインターネット公開不要な接続を実現するMCP Tunnels、Anthropic管理インフラの代替となるセルフホストサンドボックス、そして100Kトークンを超えるツール出力の自動ファイルスピル機能です。

🟡 🤝 エージェント 2026年5月19日 · 3 分で読めます

arXiv:2605.18661:AI自動研究のロードマップとユーザーガイド

Editorial illustration: arXiv論文2605.18661が自律的に研究論文を生成するAIシステムを分析

NUSとNTUの研究者によるarXiv論文2605.18661では、わずか15ドルで研究論文を自律的に生成するシステムを分析しています。主要な発見:フロンティアLLMは結果を捏造し、アイデアの新規性を信頼性高く評価できません。包括的なロードマップは、信頼できる支援と安全でないAI自律性の境界を定義しています。

🟡 🤝 エージェント 2026年5月19日 · 3 分で読めます

arXiv:2605.16233: FORGE――ファインチューニングなしでAIエージェントが共有メモリを獲得する手法

Editorial illustration: arXiv:2605.16233が提案するFORGE――LLMエージェントが集団的な経験の広報を通じてモデル重みを変更せずに共有メモリを構築する手法

arXiv:2605.16233は、モデルの重みを一切更新せずにLLMエージェントが集団的な経験の共有を通じて共有メモリを構築するFORGEを提案しています。ネットワーク防御タスクCybORG CAGE-2においてゼロ基準より1.7〜7.7倍の性能向上を達成し、能力の低いモデルで特に顕著な改善が見られました。

🟡 🤝 エージェント 2026年5月19日 · 2 分で読めます

Anthropic Claude Code v2.1.144:バックグラウンドセッションへの/resumeサポートと75秒ハングの修正

Editorial illustration: Anthropic Claude Code CLI v2.1.144バックグラウンドセッションの/resume対応と経過時間表示

Anthropic Claude Code CLI v2.1.144では、「Agent completed · 3h 2m 5s」のような経過時間表示付きのバックグラウンドセッション/resumeサポートが導入され、API接続不可時の75秒ハングが修正され、ツールを静かに失っていたMCP tools/listページネーションバグが解決され、各種ターミナルおよびMCP修正が提供されました。

🟡 🤝 エージェント 2026年5月19日 · 2 分で読めます

GitHub: Copilot CLIのリモートコントロールがすべてのプラットフォームで一般提供開始

Editorial illustration: GitHubがGitHub Copilot CLIのリモートコントロール機能の一般提供を発表――/remote onコマンドでクロスデバイス管理が可能に

GitHubはGitHub Copilot CLIのリモートコントロール機能の一般提供(GA)を発表しました。/remote onコマンドにより、開発者はモバイルデバイス・ウェブ・VS Code・JetBrains IDEからアクティブなターミナルセッションを監視・管理でき、作業フローを中断せずに済みます。

🟢 🤝 エージェント 2026年5月19日 · 3 分で読めます

arXiv:2605.18747:操作基盤としてのコード——AIエージェントの新しいパラダイム

Editorial illustration: UIUCとNVIDIAの41人の研究者がコードはAIエージェント操作基盤であると主張

UIUCとNVIDIAから41人の研究者が、コードはLLMの単なる出力ではなくエージェントハーネス——推論、行動、検証を一つの枠組みに統合し、信頼性の高いAIシステムを構築するための操作基盤——であると主張しています。

🟢 🤝 エージェント 2026年5月19日 · 2 分で読めます

arXiv:2605.16238: LLM誘導ツリーサーチが疾患流行予測でCDCを超える精度を実現

Editorial illustration: arXiv:2605.16238が提案するLLMとツリーサーチを組み合わせた自律システムによるインフルエンザ・COVID-19・RSVの季節性流行予測

arXiv:2605.16238は、LLMとツリーサーチアルゴリズムを組み合わせた自律システムによる季節性流行予測を発表しています。2025〜26シーズンのリアルタイム評価において、システムはインフルエンザ・COVID-19・RSVのモデルを自律構築し、CDCのゴールドスタンダードである専門家キュレーション集成モデルを一貫して達成または上回りました。

🟡 🤝 エージェント 2026年5月18日 · 4 分で読めます

arXiv:2605.16217 Argus:深層調査エージェント向けエビデンス・アセンブリ・アーキテクチャ、8並列サーチャーで+12.7pp達成

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argusは、Zhen Zhang、Liangcai Su、Zhuo Chenらが2026年5月15日に発表したarXiv論文で、深層調査エージェント向けのエビデンス・アセンブリ・フレームワークを提案しています。システムはデュアルエージェント・アーキテクチャ――サーチャー(ReActスタイルのトレース)+ナビゲーター(共有エビデンス・グラフ+RL合成)――を採用し、シングル・サーチャーで+5.5pp、8並列で+12.7pp、64並列でコンテキスト超過なしにBrowseCompで86.2スコアを達成しています。

🟡 🤝 エージェント 2026年5月18日 · 3 分で読めます

GitHub Copilot:Grok Code Fast 1 が2026年5月15日に非推奨化;推奨代替モデルは GPT-5 mini と Claude Haiku 4.5

Editorial illustration: deprecated stamp na xAI Grok ikoni s arrows prema GPT-5 mini i Claude Haiku 4.5 logosima.

GitHub は2026年5月15日、すべての Copilot エクスペリエンス(チャット、インライン編集、質問、エージェントモード、コード補完)において Grok Code Fast 1 モデルの正式な非推奨化を発表しました。非推奨化は5月8日の発表から1週間後に実施されました。推奨代替モデル:GPT-5 mini と Claude Haiku 4.5——いずれも標準のモデルポリシーで利用可能です。エンタープライズ管理者は Copilot 設定で代替モデルを有効化する必要があります。

🟢 🤝 エージェント 2026年5月18日 · 4 分で読めます

Databricks + Veeva Vault CRM:ライフサイエンス商業ワークフロー向け3種の専門AIエージェント

Editorial illustration: pharma sales rep s tablet i AI agent overlay s patient data dashboard.

Databricksは2026年5月18日、Veeva Systemsとのパートナーシップ深化を発表しました。ライフサイエンス業界向けVault CRMワークフローにGenie AIエージェントを直接統合します。3つの専門エージェント・ペルソナ――営業担当者エージェント、メディカル・サイエンス・リエゾン(MSL)エージェント、テリトリー・マネージャー・エージェント――はUnity Catalogガバナンスを通じてDatabricksレイクハウスにアクセスします。この発表はボストンで開催されるVeeva Commercial Summit(2026年5月19〜20日)に先立つものです。

🟡 🤝 エージェント 2026年5月16日 · 3 分で読めます

Anthropic: Claude Code v2.1.143 — 今週5回目のパッチ、プラグイン依存関係の強制とマーケットプレイスの推定コンテキストコスト

編集用イラスト:トークンコストのアイコンと依存関係グラフを備えたClaude Codeプラグインマーケットプレイス。

Claude Code v2.1.143は、Anthropicが2026年5月15日にリリースしたCLIエージェントの新バージョンです。v2.1.139、v2.1.140、v2.1.141、v2.1.142に続く今週5回目のパッチです。プラグイン依存関係の強制とdisable-chainヒント、マーケットプレイスでの推定コンテキストコスト表示(ターンごと・呼び出しごとのトークン推定)、新しいworktree.bgIsolation設定、PowerShell -ExecutionPolicy Bypassの自動フラグ、アイドル復帰後にモデル/エフォートを保持するバックグラウンドセッションが追加されました。

🟡 🤝 エージェント 2026年5月16日 · 4 分で読めます

GitHub: GitHub Accessibility Agentが3,535件のPRをレビューし解決率68%、LLMのアクセシビリティアンチパターンへのバイアスを発見

Editorial illustration: アクセシビリティアイコン(スクリーンリーダー、キーボード)とGitHub PRレビュー表示。

GitHub Accessibility Agentは2026年5月15日に発表された汎用アクセシビリティ自動化のケーススタディです。このエージェントは3,535件のプルリクエストをレビューし68%の解決率を達成し、重大なバイアスを発見しました:LLMは数十年にわたるアクセシビリティ未対応コードで訓練されているため、アクセシビリティアンチパターンを生成する傾向があります。GitHubは並列サブエージェントではなくシーケンシャルレビュアー+実装者アーキテクチャ(二層モデル)を使用——トークン消費を削減し精度を向上させました。

🟢 🤝 エージェント 2026年5月16日 · 3 分で読めます

arXiv:2605.14892 サーベイ:LLMマルチエージェントシステムにおけるLIFE進行(Lay、Integrate、Find、Evolve)

編集用イラスト:LIFEステージとエージェント間接続を持つマルチエージェントシステム。

LIFE進行サーベイは、Shihao Qi、Jie Ma、Rui Xing、Wei Guo、および14名の共著者が2026年5月15日にarXivに公開したマルチエージェントLLMシステムの包括的なサーベイです。このサーベイは、4つの因果的に連結したステージを通じてこの分野を整理しています。Lay(個々の能力)、Integrate(エージェント協調)、Find(障害帰属)、Evolve(自律的改善)です。主な論点:エージェント間のエラー伝播は、構造的な自己改善にほとんど変換されない障害を生み出すということです。

🟡 🤝 エージェント 2026年5月15日 · 3 分で読めます

Anthropic: Claude Code v2.1.142 — Fast Mode のデフォルトを Opus 4.7 に変更、バックグラウンドセッション向けに --add-dir と --mcp-config フラグを追加

編集イラスト:バックグラウンドエージェントセッションとフラグ一覧が表示された Claude Code ターミナル画面。

Claude Code v2.1.142 は、2026 年 5 月 14 日にリリースされた Anthropic CLI エージェントの新バージョンです。v2.1.139、v2.1.140、v2.1.141 に続く今週 4 つ目のパッチです。claude agents バックグラウンドセッション向けに 8 つの新しいフラグ(--add-dir、--settings、--mcp-config、--plugin-dir、--permission-mode、--model、--effort、--dangerously-skip-permissions)が追加されました。Fast Mode のデフォルトモデルが Opus 4.6 から Opus 4.7 に変更されています。MCP ツールタイムアウト、git worktree 認識、macOS スリープデーモン、Windows ネットワークドライブのデッドロックも修正されました。

🟡 🤝 エージェント 2026年5月15日 · 3 分で読めます

GitHub: Copilot Appがテクニカルプレビューに——独立セッションとAgent Merge機能を持つスタンドアロンGitHubネイティブデスクトップエージェント

編集イラスト:gitブランチグラフィックとAgent Mergeフローを持つデスクトップアプリ。

GitHub Copilot Appは2026年5月14日に発表されたテクニカルプレビューの新しいスタンドアロンGitHubネイティブデスクトップアプリケーションです。IDEプラグインと異なり、タスクごとに独立したセッションを提供します——各セッションは独自のブランチ、ファイル、会話状態、タスク状態を持ちます。Agent Merge機能がレビューコメントへの対処、失敗したチェックの修正、条件充足後のマージを自律的に行います。Copilot Pro/Pro+は早期アクセスで、Business/Enterpriseは段階的ロールアウトで利用可能です。

🟢 🤝 エージェント 2026年5月15日 · 3 分で読めます

OpenAI: Codex from Anywhere——リアルタイム監視とステアリング制御を備えたコーディングエージェントのモバイル・Web展開

編集イラスト:Codex CLIアイコンとリモート開発ストリームを持つスマートフォン。

OpenAI Codex from Anywhereは2026年5月14日に発表されたコーディングエージェントの新しいモバイル・Web展開フェーズです。開発者はスマートフォンやタブレットのChatGPTモバイルアプリを通じてコーディングタスクをリアルタイムで監視、操作、承認できます。このアプローチはCodexをWindows Sandbox(5月13日)とCodex CLIの展開から異種コンピューティング環境に拡張し、OpenAIのクロスプラットフォーム戦略を完成させます。

🟡 🤝 エージェント 2026年5月14日 · 2 分で読めます

Amazon Nova Sonic + WebRTC:Kinesis Video Streamsと非同期ツール呼び出しによるリアルタイム音声エージェントがRAG/MCPをサポートします

編集イラスト:WebRTCフローとクラウドシステムへのツール呼び出し矢印を持つ音声エージェント。

Amazon Nova Sonic + WebRTC統合は、2026年5月13日にAWSが発表したリアルタイム音声エージェントアプリケーション向けの新しいアーキテクチャです。音声対音声イベントプロセッサーがKinesis Video Streams WebRTCシグナリングを通じてメディアとテキストデータイベントをオーケストレーションし、サーバー側VADがオーディオトークンを削減します。Nova SonicはMCPサーバー・Strandsエージェント・RAGシステムへの非同期ツール呼び出しをサポートしており、IoTとコネクテッドビークルシナリオが最初のデモンストレーションです。

🟡 🤝 エージェント 2026年5月14日 · 3 分で読めます

Anthropic: Claude Code v2.1.141 が terminalSequence フック・Bedrock Haiku 修正・「ここまで要約」リワインドオプションを追加

編集イラスト:新しいフックアイコンとリワインドコントロールを持つ Claude Code ターミナル。

Claude Code v2.1.141 は Anthropic CLI エージェントの新バージョンで、2026年5月13日にリリースされました。今週3度目のパッチリリースでは、フック JSON 出力用の terminalSequence フィールド、CLAUDE_CODE_PLUGIN_PREFER_HTTPS および ANTHROPIC_WORKSPACE_ID 環境変数、claude agents --cwd パス スコープ、そして古いコンテキストを圧縮するための新しいリワインドメニューオプション「ここまで要約」が追加されます。Bedrock/Vertex Haiku モデル ID の競合状態と Windows でのデーモンステータスも修正されました。

🟡 🤝 エージェント 2026年5月14日 · 2 分で読めます

LangChain: Managed Deep Agents——LangSmith内の耐久実行とメモリーレイヤーを備えたホステッドランタイム

編集イラスト:クラウド環境でメモリとツールレイヤーを持つホステッドエージェントランタイム。

Managed Deep Agentsは、2026年5月13日にLangSmithプラットフォームのプライベートベータとして発表されたLangChainの新しいホステッドエージェントランタイムです。耐久実行・永続メモリ・統合ツーリング・包括的な可観測性を提供します——本番ディープエージェントに必要なすべてのインフラストラクチャコンポーネントです。エージェント定義は標準のAGENTS.mdとtools.jsonファイルを通じてリポジトリに保持されます。

🟡 🤝 エージェント 2026年5月14日 · 2 分で読めます

OpenAI: Codex Windowsサンドボックスは自律エージェント向けに制御されたファイルシステムアクセスとネットワーク制限を導入します

編集イラスト:ファイルシステムとネットワークアクセスを囲むセキュリティレイヤーを持つCodexターミナル。

Codex Windowsサンドボックスは、2026年5月13日に発表されたOpenAIの新しいセキュリティアーキテクチャで、CodexエージェントがWindowsオペレーティングシステム上で安全に動作できるようにします。サンドボックスは制御されたファイルシステムアクセスとネットワーク制限を導入し、安全で効率的なコーディングエージェントを実現します。Codexはmacos/Linuxの開発者だけでなく、Windowsユーザーも利用できるクロスプラットフォームツールになりました。

🟡 🤝 エージェント 2026年5月13日 · 2 分で読めます

Anthropic: Claude Code v2.1.140 が /goal ハング・ホットリロード・Read オフセット検証を修正

エディトリアルイラスト:コード行とターミナルプロンプト記号を含む開発ツール画面。

Claude Code v2.1.140 は 2026 年 5 月 12 日に公開された Anthropic CLI エージェントの新バージョンです。disableAllHooks 設定が有効な場合に /goal コマンドが無音でハングする問題、シンボリックリンクされた settings ファイルのホットリロード回帰、企業エンドポイントセキュリティの起動問題、Read ツールの offset パラメーター検証など、10 件のバグが修正されました。サブエージェントタイプのマッチングは大文字・小文字を区別しない値を受け付けるようになりました。

🟡 🤝 エージェント 2026年5月13日 · 2 分で読めます

arXiv:2605.12061 SAGE: 自己進化型グラフメモリエンジンがNatural QuestionsでRecall@5 91.6%を達成

編集イラスト:ノードとフィードバック矢印を持つ動的グラフメモリ構造の概念図。

SAGEは、Juntong Wangらのチームが2026年5月12日にarXivで発表したLLMエージェント向けの自己進化型グラフメモリエンジンです。メモリライターとメモリリーダー(グラフ基盤モデル)のフィードバックループを採用し、自律的な拡張と再構成を実現します。Natural QuestionsのゼロショットオープンドメインリトリーバルでRecall@2/5がそれぞれ82.5/91.6を達成し、LongMemEvalとHaluMemの幻覚指標でも改善が見られます。

🟡 🤝 エージェント 2026年5月13日 · 2 分で読めます

Google DeepMind: AI Pointer が Gemini をマウスカーソルに統合——Chrome と Googlebook で音声コマンドが使用可能

エディトリアルイラスト:グロー光線を持つマウスカーソルがブラウザのインターフェースに統合されている。

AI Pointer は 2026 年 5 月 12 日に Google DeepMind が発表した実験的製品で、Gemini モデルをコンテキスト対応のマウスカーソルに統合します。ユーザーは別のアプリにコンテンツをコピーすることなく、対象を指してから「Fix this」や「Compare these」などの短いコマンドを発話できます。この機能は Chrome でただちに利用可能で、Magic Pointer は新しい Googlebook ラップトップで提供される予定です。

🟡 🤝 エージェント 2026年5月13日 · 3 分で読めます

NVIDIA: OpenShell と SAP Joule Studio が自律型 AI エージェントにエンタープライズガバナンスを提供

エディトリアルイラスト:ポリシー執行シンボルを持つエンタープライズデータフローを囲む保護レイヤー。

NVIDIA OpenShell と SAP Joule Studio の統合は、2026 年 5 月 12 日の SAP Sapphire カンファレンスで発表された新しいエンタープライズエージェントプラットフォームです。NVIDIA OpenShell は隔離されたランタイムとポリシー執行を提供し、SAP Business AI Platform がセキュリティレイヤーとして統合し、Joule Studio はエージェント構築環境を提供します。NemoClaw リファレンスブループリントは Joule Studio でただちに利用可能です。

🟢 🤝 エージェント 2026年5月13日 · 2 分で読めます

arXiv:2605.11814 MedMemoryBenchが医療エージェントのメモリ飽和を発見——2000セッション、16000ターン

編集イラスト:メモリ記録とストリーミング評価指標を持つ医療エージェントの概念図。

MedMemoryBenchは、浙江大学チームが2026年5月12日にarXivで発表した、パーソナライズドヘルスケアAIエージェントのメモリメカニズムに関する最初のベンチマークです。人間とエージェントの協調パイプラインを通じて約2000セッションと16000インタラクションターンを構築しました。主な発見:主流AIアーキテクチャは、継続的な情報流入が医療推論のパフォーマンスを低下させるメモリ飽和を示しています。

🟡 🤝 エージェント 2026年5月12日 · 4 分で読めます

arXiv:2605.10344: TMAS——マルチエージェントのテスト時スケーリングが推論ベンチマークで新記録を達成

編集用イラスト:階層的なメモリバンクを持つ協調ネットワークで接続された複数のAIエージェントノード、発光する推論パス。

TMAS(テスト時マルチエージェントスケーリング)は、LLM推論を階層的なメモリバンクを持つ専門化エージェント間のコラボレーションとして組織化するテスト時計算スケーリングの新しいアプローチです。著者(UCバークレー+DeepMind)は、同じ計算予算でMATH-500、AIME 2024、HumanEval、GPQA Diamondにおいて既存のすべてのベースライン手法(Best-of-N、MCTS、AutoTTS)を上回ることを示しています。単一のパイプラインで推論+検索+検証を組み合わせています。

🟡 🤝 エージェント 2026年5月12日 · 3 分で読めます

AWS: Strands Agents SDKとExaの統合により、エージェントがカスタムクローラー不要で自律的なウェブ検索を実現

編集用イラスト:AIネイティブ検索エンジンに接続するオープンソースSDKエージェント、自律的なウェブクエリを表す抽象的なデータフロー。

AWS Strands Agents SDKは自律型AIエージェント構築のためのオープンソースフレームワークであり、セマンティックレベルでウェブをインデックスするAIネイティブ検索エンジンのExaとの深い統合を実現しました。エージェントはいつウェブを検索するかを自律的に判断し、複数のソースからレポートを合成し、データを引用できるようになりました——カスタムクローラーやスクレイパーインフラを構築することなく。この統合により、ウェブ検索対応エージェントの開発が数十行のコードに簡略化されました。

🟡 🤝 エージェント 2026年5月12日 · 2 分で読めます

Microsoft Research: SocialReasoning-Bench が示す「AI エージェントはタスクを完了するがユーザーの利益を守らない」

Editorial illustration: SocialReasoning-Bench が示す「AI エージェントはタスクを完了するがユーザーの利益を守らない」

SocialReasoning-Bench は Microsoft Research の新しいベンチマークで、AI エージェントが他の当事者との交渉においてユーザーの真の利益を代弁しているかを測定します——タスクを完了するだけでなく。結果は、モデルがほぼ完璧に取引を締結する一方で、マーケットプレイスシナリオで一貫して価値を対面に残すことを示し、90% 以上の結果が非効率または怠慢と分類されました。

🟢 🤝 エージェント 2026年5月12日 · 2 分で読めます

arXiv:2605.07313:エージェントメモリはスケールしない——HippoRAG が無関係セッション増加で 16〜20 ポイントの信頼性を失う

Editorial illustration: 2605.07313: エージェントメモリはスケールしない——HippoRAG が無関係セッション増加で 16〜20 ポイントの信頼性を失う

arXiv:2605.07313 は、無関係なデータが蓄積する際にエージェントメモリシステムが機能し続けるかをテストするスケール条件付き評価プロトコルです。HippoRAG は 16〜20 パーセントポイントの予算準拠信頼性を失い、LiCoMemory はモデルサイズによって変動します。著者(Shao・Lu・Zhang・Luo)は信頼性損失が孤立した現象ではないと結論づけています。

アーカイブ全体を見る →