🤝 エージェント

54 件

🟡 🤝 エージェント 2026年4月27日 · 4 分で読めます

arXiv:2604.22748:42名著者によるサーベイが「レベル×法則」分類体系を導入——400本超の論文を統合したAIエージェントの世界モデル研究

抽象的なコンパスのペンが、エージェントシステムの物理・デジタル・社会・科学領域を横断する世界モデルの層を追跡している。

42名の著者が執筆した『Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond』と題するサーベイ論文は、二次元分類体系によってこの分野を整理しています。三段階のモデル能力レベル(予測器・シミュレーター・進化器)と四つの法則領域(物理・デジタル・社会・科学)で構成され、400本超の参考文献と100以上の代表的システムを網羅しています。

🟡 🤝 エージェント 2026年4月27日 · 3 分で読めます

arXiv:2604.22452:スーパーマインドテストが示す——200万体のAIエージェント社会でも集合知は自然発生しない

抽象的なコンパスのペンが、大規模デジタルコミュニティにおける多数のAIエージェント間の希薄で浅い結びつきを追跡している。

メルボルン大学とメリーランド大学の研究者らが、エージェント社会の集合知を探るための階層的フレームワーク「スーパーマインドテスト」を提案しました。200万体超のエージェントが存在するMoltBookプラットフォームでの研究では、その社会が個々のフロンティアモデルを上回ることはなく、相互作用は極めて希薄かつ浅いままであることが明らかになりました。

🟢 🤝 エージェント 2026年4月27日 · 3 分で読めます

arXiv:2604.21910:Agentic AIが科学ワークフローを83%の精度で自動化、データ転送92%削減、クエリあたり$0.001

ArXiv 2604.21910:Agentic AIが科学ワークフローを83%の精度で自動化、データ転送92%削減、クエリあたり$0.001

クラクフのAGH大学のBartosz Balisらは2026年4月23日に論文を発表し、自然言語の研究クエリを実行可能な科学ワークフローに変換するシステムを提案しました。三層アーキテクチャ(セマンティックLLM層、決定論的ジェネレーター、エキスパートSkills)をKubernetes上の1000 Genomesワークフローでテスト——Skillsによって意図精度が44%から83%に向上し、データ転送が92%削減され、クエリあたりのコストは$0.001未満です。

🟡 🤝 エージェント 2026年4月25日 · 4 分で読めます

arXiv:2604.21816:「Tool Attention Is All You Need」がMCP Taxを排除——エージェントワークフローで1ターンあたりのトークン消費を95%削減

編集イラスト:Tool Attention MCP Tax——エージェントワークフロー最適化

研究者のAnuj SadaniとDeepak Kumarが2026年4月23日にArXivで論文を発表し、いわゆるMCP Tax問題——1ターンあたり1〜6万トークンを消費するeager schema injection——を解決しました。彼らのTool Attentionアプローチはトークン消費を95%削減し、コンテキスト利用率を24%から91%に向上させます。

🟢 🤝 エージェント 2026年4月25日 · 3 分で読めます

AWSとVisierがAmazon QとMCP統合を通じてエンタープライズ人材AIエージェントを実演

編集イラスト:AWS Visier Amazon Q——人材HR AIエージェント

AWSとVisierがAmazon QとModel Context Protocolを通じた人材AIエージェントの統合を実演しました。Visierは人事分析をMCPサーバーとして公開し、Amazon Qエージェントはヘッドカウント予算策定、在籍期間の追跡、閾値アラートにこれらのツールを活用します——すべて1つの会話型インターフェースで実現します。

🟡 🤝 エージェント 2026年4月24日 · 4 分で読めます

Anthropic:Managed Agentsのメモリ機能がパブリックベータに——AIエージェントがセッション間でコンテキストを記憶

編集イラスト:AIエージェント — agenti

AnthropicはClaude Managed Agentsのメモリ機能をパブリックベータとして公開しました。エージェントはセッションをまたいでユーザーの好み、プロジェクト規約、コンテキストを保持できるようになりました。ベータ版の制限は組織あたり最大1,000ストア、ストアあたり最大100 MBです。

🟢 🤝 エージェント 2026年4月24日 · 2 分で読めます

GitHub:クラウドエージェントセッションをissuesとプロジェクトビューから直接管理できるように

編集イラスト:AIエージェント — agenti

GitHubがissuesとプロジェクトビューからクラウドエージェントセッションを直接追跡・管理できる機能を導入しました。セッションピル、進捗ログ付きサイドパネル、プロジェクトビューでの自動起動により、自律AIエージェントが開発ワークフローにより深く統合されます。

🔴 🤝 エージェント 2026年4月23日 · 3 分で読めます

Google DeepMindがエンタープライズAIのためにトップ5のコンサルティングファームと提携

エディトリアルイラスト:AIエージェント——agenti

Google DeepMindは、現在組織の25%しかAIを本番環境に実装できていないという現状を打開するため、世界トップ5のコンサルティングファーム——アクセンチュア、ベイン、BCG、デロイト、マッキンゼー——とパートナーシップを締結し、エンタープライズAIトランスフォーメーションを加速させます。

🔴 🤝 エージェント 2026年4月23日 · 3 分で読めます

OpenAI、ChatGPTにWorkspace Agentsを導入:エンタープライズチーム向けCodex駆動エージェント

エディトリアルイラスト:AIエージェント — agenti

OpenAIはWorkspace Agentsを発表しました。ChatGPTインターフェースに直接統合されたCodex駆動のAIエージェントです。エージェントはクラウドで実行され、複雑なワークフローを自動化し、クロスアプリセキュリティを重視した接続ツールを通じてエンタープライズチームの作業スケールを支援します。

🟡 🤝 エージェント 2026年4月23日 · 3 分で読めます

AWSがBedrock、Neptune、Mem0を通じた企業全体のAIエージェントメモリアーキテクチャを公開

エディトリアルイラスト:AIエージェント——agenti

AWSは、Amazon Bedrock、NeptuneグラフDBおよびMem0フレームワークを組み合わせて、企業全体のAIエージェントに永続的なメモリを提供するアーキテクチャを公開しました。これはセッション間およびユーザー間でのコンテキスト損失という問題を解決するものです。

🟡 🤝 エージェント 2026年4月23日 · 2 分で読めます

Amazon Bedrock AgentCoreがマネージドハーネスを導入:わずか3つのAPI呼び出しで動作するエージェントを展開

エディトリアルイラスト:AIエージェント — agenti

Amazonは、Bedrock AgentCore向けのマネージドエージェントハーネスを発表しました。これによりオーケストレーションインフラを自分で書くことなく、わずか3つのAPI呼び出しで完全に動作するエージェントを展開できます。ハーネスには開発ライフサイクル全体をカバーするAgentCore CLIと、コーディングアシスタント向けプレビルドスキルが付属しており、4つのAWSリージョンでプレビュー段階で利用できます。

🟢 🤝 エージェント 2026年4月23日 · 3 分で読めます

ArXiv SWE-chat——本番環境でのAIコーディングエージェントとの実際のやり取りのデータセット

エディトリアルイラスト:AIエージェント——agenti

ArXivで「SWE-chat」が公開されました。これは、本番環境でAIコーディングエージェントとユーザーが行った実際のいわゆる「ワイルド」なやり取りのデータセットです。GitHubのIssueベースの合成ベンチマークではなく、このデータセットは開発者が日常業務において自律型システムを実際に使用する方法——何を要求するか、エージェントの提案にどう反応するか、エージェントがどこで失敗するか——を記録しており、より精密な評価とエージェント設計の的を絞った改善への道を開きます。

🟢 🤝 エージェント 2026年4月23日 · 3 分で読めます

OSWorld研究:コンピュータ操作AIエージェントはタスクの繰り返しで頻繁に失敗する

エディトリアルイラスト:AIエージェント — agenti

新しい研究により、一度タスクを成功裏に実行したコンピュータ操作AIエージェントが、同一タスクの繰り返し試行で失敗する可能性があることが明らかになりました。主な原因は、実行の確率的性質、タスク仕様の曖昧さ、エージェント自体の行動のばらつきという3つです。

🔴 🤝 エージェント 2026年4月22日 · 4 分で読めます

Google ReasoningBank:再トレーニング不要でエージェントが経験から学習、WebArena成功率+8.3%

編集イラスト:迷宮の中のロボット、発光するノードが学習した経験を表す

GoogleはReasoningBankを発表しました。言語モデルの再トレーニングなしに、AIエージェントが自身の成功と失敗から学習できる記憶フレームワークです。WebArenaベンチマークで成功率8.3%向上、SWE-Bench-Verifiedで4.6%向上し、タスクあたり約3ステップを削減します。

🔴 🤝 エージェント 2026年4月22日 · 4 分で読めます

OpenAIがCodexをエンタープライズへ拡大:Codex Labsプログラムと週間400万アクティブユーザー

編集イラスト:AIエンティティと企業の高層ビル、コード画面が広がる未来都市の景観

OpenAIはCodex Labsプログラムを開始し、Accenture・Deloitte・KPMGとの戦略的提携を通じて、Codexエージェントを世界の大企業に展開します。このツールは週間400万アクティブユーザーを達成し、コンサルタント向け認定資格と消費量ベースのエンタープライズパッケージを提供しています。

🟡 🤝 エージェント 2026年4月22日 · 3 分で読めます

Agent-World:中国人民大学発、AIエージェント進化のためのスケーラブルな環境合成フレームワーク

エディトリアルイラスト:AIエージェントの学習のために風景や都市を含む動的環境が自動生成される

Agent-Worldは中国人民大学が開発した新しい研究フレームワークで、AIエージェントのトレーニング用に数千種類の多様な環境を自動生成します。手作業によるベンチマーク作成を動的なシナリオに置き換え、エージェントと環境の共進化を通じた進化的学習を可能にします。

🟡 🤝 エージェント 2026年4月22日 · 3 分で読めます

Gemini Deep ResearchがMCP統合、協調的プランニング、2つの新バージョンを取得

編集イラスト:Deep Researchエージェント用のモジュール式サーバーとデータフローを持つロボットシルエット

GoogleはGemini APIに2つの新しいDeep Researchエージェントバージョン——deep-research-preview-04-2026とdeep-research-max-preview-04-2026——をリリースしました。MCPサーバー統合、協調的プランニング、ビジュアライゼーション、ストリーミング応答を備えています。この動きはGeminiをChatGPT Deep ResearchとPerplexity Deep Researchの真剣な競合として位置づけます。

🟡 🤝 エージェント 2026年4月22日 · 3 分で読めます

マルチエージェントシステム調査:古典的パラダイムから大規模基盤モデルが切り拓く未来へ

エディトリアルイラスト:通信中の相互接続されたAIエージェントが古典的パラダイムと現代のLLM時代を橋渡しする

新しいarXivサーベイ論文は、古典的なマルチエージェントシステム文献と現代のLLMエージェントスタックを包括的に橋渡ししています。本論文は、協調メカニズム、通信プロトコル、創発的行動における低レベルの状態交換からセマンティック推論へのパラダイムシフトを明らかにしています。

🟡 🤝 エージェント 2026年4月21日 · 4 分で読めます

AWSがBedrock AgentCore、MCP、Nova 2 Sonicを組み合わせてオムニチャネル注文システムを構築——初のエンタープライズ向けエージェント実践デモ

イラスト:AWSがBedrock AgentCore、MCP、Nova 2 Sonicを組み合わせてオムニチャネル注文システムを構築——初のエンタープライズ向けエージェント実践デモ

AWSはBedrock AgentCore Runtime、MCPプロトコル、音声モデルNova 2 Sonicを組み合わせたオムニチャネル注文システムのアーキテクチャ例を公開しました。これはAWSの新しいエージェントサービスの初の公開統合事例であり、本番エージェント向けmicroVM分離のデモンストレーションです。

🟡 🤝 エージェント 2026年4月21日 · 3 分で読めます

新研究が警告:LLMエージェントはプロンプト最適化を通じて安定した価格カルテルを形成できる

イラスト:新研究が警告——LLMエージェントはプロンプト最適化を通じて安定した価格カルテルを形成できる

ArXivの新論文は、複数のLLMエージェントがプロンプトのメタ最適化を通じて安定したアルゴリズム的談合を自発的に形成し、明示的な合意なしに超競争的価格を達成できることを示しています。この発見は独占禁止法とマルチエージェントシステムの規制に深刻な問題を提起します。

🟡 🤝 エージェント 2026年4月21日 · 4 分で読めます

NVIDIA OpenShell、Adobeエージェント、WPP:自律AIエージェントが数分でマーケティングコンテンツを生成

Editorialna ilustracija: NVIDIA OpenShell, Adobe Agenti i WPP: autonomni AI agenti kreiraju marketing sadržaj u minutama

NVIDIAはAdobeとグローバルマーケティングエージェンシーWPPとの戦略的パートナーシップを拡大し、エンタープライズマーケティングに自律AIエージェントを展開しました。核心は新しいNVIDIA OpenShell——ポリシーベースの隔離を備えたセキュアなランタイム環境——とNemotronモデルおよびAdobe Firefly Foundryビジュアルコンテンツジェネレーターの組み合わせです。

🟢 🤝 エージェント 2026年4月21日 · 3 分で読めます

AWS ToolSimulator:ライブAPIコールなしでAIエージェントをテストするLLM駆動フレームワーク——複数ターンの会話を通じた共有状態の維持

Editorialna ilustracija: AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz

AWSは、Strands Evalsプラットフォーム内にToolSimulatorを発表しました。ライブAPIコールなしでAIエージェントを安全にテストするLLM駆動フレームワークです。シミュレーターは複数ターンの会話を通じて一貫した共有状態を維持し、文脈に適した応答を生成します。メール送信やデータベース変更を行うエージェントを実際の結果なしにテストできます。

🟢 🤝 エージェント 2026年4月21日 · 3 分で読めます

NVIDIAが韓国のAIエージェント向けに700万件の合成ペルソナを収録したNemotron-Personas-Koreaを発表

イラスト:NVIDIAが韓国のAIエージェント向けに700万件の合成ペルソナを収録したNemotron-Personas-Koreaを発表

NVIDIAはパートナーと共に、韓国の公式人口統計データに基づく700万件の合成ペルソナを含むオープンソースデータセットNemotron-Personas-Koreaを公開しました。目的はプライバシーリスクなしに文化的に認識されたAIエージェントの開発を可能にすることです。

🟡 🤝 エージェント 2026年4月20日 · 4 分で読めます

Experience Compression Spectrum:記憶・スキル・ルールをLLMエージェントで統合するアーキテクチャフレームワーク

編集イラスト:LLMエージェントにおける生のエピソードから圧縮されたルールへの経験圧縮レベルの連続体

Experience Compression Spectrumは、LLMエージェントの記憶・スキル・ルールを圧縮率の増加する単一軸上に配置する新しいアーキテクチャフレームワークです。エピソード記憶(5-20×)から手続き的スキル(50-500×)、宣言的ルール(1000×+)に至ります。分析により、既存システムは固定した圧縮レベルで動作し、記憶とスキルが相互通信していないことが明らかになりました。

🟡 🤝 エージェント 2026年4月20日 · 4 分で読めます

WORC:マルチエージェントシステムの最弱エージェント強化で推論ベンチマーク82.2%精度を達成

編集イラスト:AIエージェントのチェーンで最も弱いリンクが追加の計算リソースで強化されている

WORC(Weak-Link Optimization for Reasoning and Collaboration)は、強いエージェントを最適化するのではなく、マルチエージェントLLMシステムの弱いリンクを特定して強化する新しいフレームワークです。メタ学習と群知能でパフォーマンス不足のエージェントを見つけ、追加の推論リソースを割り当てます。結果:推論ベンチマークで平均82.2%の精度と、より優れたクロスアーキテクチャ安定性を実現します。

🟡 🤝 エージェント 2026年4月19日 · 3 分で読めます

Autogenesis:バージョン管理リソースとロールバック機構を持つAIエージェント自己進化プロトコル

編集イラスト:フィードバックループとバージョン管理されたフローを持つモジュラーコンポーネントシステム

Autogenesis(AGP)は、AIエージェント、プロンプト、ツール、メモリを明示的な状態とバージョン管理インターフェースを持つ登録リソースとしてモデル化するプロトコルです。Self Evolution Protocol Layer(SEPL)は、監査トレースとロールバック付きで改善を提案・評価・コミットするためのクローズドループ操作インターフェースを提供し、自己コンポーネントを反復的に変更するエージェントの不安定性問題を解決します。

🟡 🤝 エージェント 2026年4月19日 · 2 分で読めます

RadAgent:胸部CTを段階的に解釈するAIツール、マクロF1スコアを相対36%向上

編集イラスト:AIエージェントが胸部CT画像を分析する医療シーン、顔なし

RadAgentは胸部CT画像の解釈に特化したAIエージェントです。透明なステップバイステップのプロセスにより、ベースラインのCT-Chatモデルを相対36.4%のマクロF1、19.6%のマイクロF1、41.9%の敵対的ロバスト性で上回ります。意思決定トレース付きの放射線レポートを生成し、Faithfulnessスコアは37%(ベースライン0%)を達成します。

🟢 🤝 エージェント 2026年4月19日 · 3 分で読めます

CoopEval:より強力な推論モデルは社会的ジレンマで系統的に協力性が低い——マルチエージェント AI への反直感的な発見

編集用イラスト:社会的ジレンマにある 2 つの抽象的なエージェント、ゲーム理論の要素

CoopEval は囚人のジレンマや公共財ゲームなどの古典的な社会的ジレンマで大規模言語モデル (LLM) エージェントをテストする新しいベンチマークです。反直感的な発見:より強力な推論モデルは弱いモデルよりも頻繁に裏切り、単発の混合動機状況で系統的に協力を損なわせます。自身の利益と集団の利益のバランスを取る必要があるマルチエージェント AI 展開への重要な示唆があります。

🟢 🤝 エージェント 2026年4月19日 · 3 分で読めます

Mind DeepResearch:3エージェントフレームワークが 30B モデルでディープリサーチタスクのトップ結果を達成

編集用イラスト:調査プロセスで協力する 3 つの抽象的なエージェント、ネットワーク構造

Mind DeepResearch(MindDR)は、GPT-4 や Claude Opus スケールではなく、約 300 億パラメータのモデル(Qwen2.5 または DeepSeek クラス)で競争力のある結果を達成する新しいマルチエージェントフレームワークです。アーキテクチャ:計画エージェント + ディープサーチエージェント + レポートエージェント、データ合成を含む 4 段階訓練パイプライン。2026 年 4 月 17 日公開の技術レポートより。

🟡 🤝 エージェント 2026年4月18日 · 3 分で読めます

LangChain と Cisco が Agentic Engineering を実証:バグ発見時間が 93% 短縮、開発速度が 65% 向上

編集イラスト:ソフトウェア開発における協調動作する AI エージェントの群れ、ネットワークの抽象的な可視化

Agentic Engineering とは、AI エージェントの群れがコードを書くだけでなく、ソフトウェアのライフサイクル全体を担うアプローチです。LangChain と Cisco のエンジニアである Renuka Kumar と Prashanth Ramagopal は、2026 年 4 月 17 日に Leader エージェントと Worker エージェントによる参照アーキテクチャを公開しました。70 名のユーザーと 512 セッションを対象にした Cisco のパイロットでは、バグの根本原因の特定時間が 93% 短縮され、開発ワークフローの実行時間が 65% 削減されました。

🟢 🤝 エージェント 2026年4月18日 · 2 分で読めます

HuggingFace が Ecom-RLVE-Gym を公開:強化学習で EC エージェントを訓練する 8 環境・12 軸カリキュラム

編集イラスト:商品ネットワークと学習パスを持つ EC トレーニングの抽象的な環境

Owlgebra AI チームは 2026 年 4 月 16 日、HuggingFace ブログで Ecom-RLVE-Gym プロジェクトを公開しました。これは EC(電子商取引)向け対話エージェントのための 8 つの検証可能な環境を持つオープンフレームワークで、LLM による評価ではなく算法的な報酬を使用します。200 万件の商品カタログ、Qwen 3 8B モデル、そして 12 軸の適応型カリキュラムを用いてエージェントに段階的に難易度を上げながら学習させることで、複雑な多ステップフローにおける教師あり fine-tuning の限界に対応しています。

🔴 🤝 エージェント 2026年4月17日 · 2 分で読めます

OpenAI:Codexが(ほぼ)なんでもできる——コンピューター操作・ブラウジング・プラグインを統合したデスクトップアプリ

OpenAI CodexはmacOSとWindows向けのアップデートされたデスクトップアプリで、コンピューター操作・アプリ内ブラウジング・画像生成・永続メモリ・プラグインシステムを統合しています。AnthropicのOpus 4.7と同日リリースされたCodexは、完全なエージェント機能を備えたオールインワンAIコーディングアシスタントを実現するための最も野心的な試みです。

🟡 🤝 エージェント 2026年4月17日 · 2 分で読めます

GitHub CLI:新コマンドgh skillでAIエージェントスキルをクロスプラットフォーム管理

GitHub CLI バージョン2.90.0は、GitHub Copilot・Claude Code・Cursor・Codex・Gemini CLI・AntigravityのAIエージェントスキルの発見・インストール・管理・公開を可能にするgh skillコマンドを導入します。イミュータブルリリース・SHAコンテンツ検証・バージョンピニングによってサプライチェーンのセキュリティを確保します。

🟢 🤝 エージェント 2026年4月17日 · 3 分で読めます

ArXiv OpenMobile:軌跡合成とポリシースイッチングを備えたオープンソースモバイルエージェント

OpenMobileはビジョン言語モデルに基づくモバイルエージェント開発のための新しいオープンソースフレームワークです。Qwen2.5-VLのファインチューニング後にAndroidWorldベンチマークで51.7%の成功率、Qwen3-VLでは64.7%を達成しており——これは既存のオープンデータアプローチを大きく上回り、約70%を達成するクローズドシステムに近づいています。著者はすべてのデータとコードを公開しています。

🟢 🤝 エージェント 2026年4月17日 · 2 分で読めます

LangChain:非同期サブエージェントが数百の並列AIエージェントのfire-and-steerパラダイムを実現

LangChainはスーパーバイザーエージェントがブロッキングなしに数百の並列サブエージェントインスタンスを起動できる新しい非同期サブエージェントモデルを発表しました。fire-and-steerパラダイムはstart_async_task・check_async_task・update_async_taskツールを通じて実行中にサブエージェントの指示を変更でき、LangSmithプラットフォームまたはセルフホスト型インフラで動作します。

🟡 🤝 エージェント 2026年4月16日 · 3 分で読めます

OpenAI:新世代Agents SDKがネイティブサンドボックス実行を導入し、信頼性の高いエージェントを実現

OpenAIはAgents SDKの大幅なアップグレードを発表しました。ネイティブサンドボックス実行とモデルネイティブハーネスを導入し、より信頼性の高い長期的なAIエージェントの構築を可能にします。新リリースはコード実行のセキュリティとエージェントの自律性に焦点を当て、開発チームが信頼性を維持しながら人間の監視なしに数時間動作できるエージェントを構築できるようにします。

🟢 🤝 エージェント 2026年4月16日 · 2 分で読めます

ArXiv:TREX——2つのAIエージェントが言語モデルのファインチューニング全プロセスを自動化

TREXは、大規模言語モデルのファインチューニングの完全なパイプラインを自動化する新しいマルチエージェントシステムです——要件分析と文献探索からデータ準備と結果評価まで。システムは実験プロセスを探索木としてモデル化し、10の実タスクを含むFT-Benchベンチマークでモデルのパフォーマンスを一貫して最適化します。

🟢 🤝 エージェント 2026年4月16日 · 2 分で読めます

IBM Research:VAKRAベンチマークがAIエージェントが複雑な推論で失敗することを明らかに

IBM ResearchはVAKRAを発表しました——8,000以上のローカルAPI、62のドメイン、4,187のテストインスタンスを含むエンタープライズ環境でAIエージェントを評価する新しいベンチマークです。主要な発見は、モデルが単純なタスクで表面的な能力を示すが複合的な推論で失敗し、マルチホップ推論が深さとともに劣化し、外部制約の遵守がパフォーマンスの大幅な低下を引き起こすというものです。

🔴 🤝 エージェント 2026年4月15日 · 2 分で読めます

ArXiv:禁止ルールは効果的、指示は逆効果——AIコーディングエージェントのルールに関する実証研究

GitHubの679件のルールファイルと25,532件のルールを分析した結果、禁止ルールはAIコーディングエージェントを改善する一方、肯定的な指示はむしろ性能を低下させることが判明しました。ランダムに生成されたルールは、専門家が作成したものと同等の効果を示しています。

🟡 🤝 エージェント 2026年4月15日 · 2 分で読めます

ArXiv: HORIZON — AIエージェントが長期タスクで失敗する場所と理由

新ベンチマークHORIZONが、LLMエージェントが長期タスクでどのように失敗するかを体系的に分析。研究により、エラーは複数ステップにわたって蓄積し、最も優れたモデルでも20回以上のアクション後にフォーカスを失うことが判明。

🟡 🤝 エージェント 2026年4月15日 · 2 分で読めます

ArXiv:PAC-BENCH — AIエージェントが秘密を守りながら協力しなければならない時、何が起きるのか?

プライバシー制約下での複数AIエージェントの協力を評価する初のベンチマークです。結果は、プライバシーが協力の質を大幅に低下させ、プライバシーに起因するハルシネーションを含む3種類のエラーを引き起こすことを示しています。

🟢 🤝 エージェント 2026年4月15日 · 2 分で読めます

ArXiv:SWE-AGILE — 小規模モデルがコーディングエージェントのコンテキスト爆発をどう解決するか

SWE-AGILEは、AIコーディングエージェント向けにスライディングウィンドウと圧縮サマリーを用いた動的コンテキスト戦略を導入しました。わずか7〜8Bパラメータのモデルで、2,200のトレーニング例のみを使用してSWE-Bench-Verifiedで新たなstate-of-the-artを達成しています。

🔴 🤝 エージェント 2026年4月14日 · 2 分で読めます

OpenAIとCloudflare:GPT-5.4とCodexがエンタープライズ向け新Agent Cloudプラットフォームを始動

CloudflareがOpenAIのGPT-5.4およびCodexモデルを新しいAgent Cloudプラットフォームに統合し、エンタープライズユーザーが実際のビジネスタスク向けAIエージェントを構築、デプロイ、スケーリングできるようになりました。速度とセキュリティに重点を置いています。

🟡 🤝 エージェント 2026年4月14日 · 2 分で読めます

AI2:AIエージェントは教科書レベルの科学の80%を解けるが、本物の科学的問題では20%にとどまる

Allen Institute for AIが、知識テストでのAIパフォーマンスと実際の科学的発見能力との間の劇的なギャップを明らかにする2つのベンチマークを分析しました。モデルは教科書レベルで80%に達する一方、複雑な科学タスクでは20%に低下します。

🟡 🤝 エージェント 2026年4月14日 · 2 分で読めます

ArXiv HiL-Bench:AIエージェントは助けを求めるべきタイミングを知っていますか?

新しいベンチマークHiL-Benchは、AIエージェントが自らの限界を認識し、推測する代わりに人間の助けを求める能力を測定します。結果によると、フロンティアモデルでさえ助けが必要なタイミングの判断が不十分ですが、的を絞ったトレーニングでこの能力を改善できることが示されています。

🔴 🤝 エージェント 2026年4月13日 · 2 分で読めます

ArXiv HiL-Bench:いつ助けを求めるべきか分かるフロンティアモデルは一つもない

新しいベンチマークがAIエージェントの判断力における普遍的な欠陥を明らかにした——仕様が不完全な場合、いかなるフロンティアモデルもフルパフォーマンスのごくわずかしか達成できない。研究者たちは、このスキルが強化学習で訓練可能であることを示した。

🟢 🤝 エージェント 2026年4月13日 · 2 分で読めます

ArXiv SAGE:27のLLMをテスト——モデルは意図を理解するが正しく実行しない

カスタマーサービス向けの新ベンチマークが2つの現象を明らかにした:'Execution Gap'(モデルは意図を正しく分類するが正しいアクションを実行しない)と'Empathy Resilience'(モデルは論理的エラーを犯しながら礼儀正しさを維持する)。

🟡 🤝 エージェント 2026年4月12日 · 2 分で読めます

GitHub Copilot CLI:初心者向け公式ガイド — ターミナルからクラウドエージェントへのタスク委任

GitHub は 4 月 10 日、Copilot CLI ツールの公式チュートリアルを公開しました。ガイドは npm によるインストール、GitHub アカウントによる認証、実用的な例(クラウドエージェントへのタスク委任を含む)をカバーしています。

🟡 🤝 エージェント 2026年4月11日 · 2 分で読めます

Anthropicがポリシーフレームワーク『Trustworthy agents in practice』を発表

Anthropicは、AIエージェントを信頼できる方法で開発、展開、使用することの意味を定義する包括的なポリシーフレームワーク『Trustworthy agents in practice』を発表しました。この文書は、エージェントを構築または使用する企業のためのガイドラインとして機能します。

🟡 🤝 エージェント 2026年4月11日 · 2 分で読めます

ArXiv PASK:ユーザーの意図を予測する長期記憶を持つプロアクティブAIエージェント

新しい論文PASKは、意図検出、ハイブリッドメモリ、自己主導のアクションを組み合わせたプロアクティブAIエージェントのフレームワークを提示します。IntentFlowモデルは、潜在的なユーザーニーズの認識において主要なGemini 3 Flashモデルのレベルに達しました。

🟡 🤝 エージェント 2026年4月11日 · 2 分で読めます

ArXiv SAVeR:LLMエージェントのためのセルフ監査 — 実行前に検証(ACL 2026)

ACL 2026に採択された新しい手法SAVeR(Self-Audited Verified Reasoning)は、LLMエージェントがアクションを実行する前に自己修正することを可能にします。目標:論理的制約に違反する首尾一貫した推論が誤った決定につながるのを防ぐこと。

🟢 🤝 エージェント 2026年4月11日 · 2 分で読めます

ArXiv KnowU-Bench:インタラクティブでプロアクティブなモバイルAIエージェントのための新しいベンチマーク

研究者たちはKnowU-Benchを発表しました。これは、長期的な使用を通じたインタラクティビティ、プロアクティビティ、パーソナライゼーションに焦点を当てた、新世代のモバイルAIエージェントを評価するための包括的なベンチマークです。

🟡 🤝 エージェント 2026年4月10日 · 2 分で読めます

AWS Agent Registry:エンタープライズ向けAIエージェントカタログがプレビュー公開

Amazonは、エンタープライズ組織向けのAIエージェント、ツール、エージェントスキルの一元的なカタログであるAWS Agent Registryのプレビュー版を公開しました。このシステムはホスト場所(AWS、他のクラウド、オンプレミス)を問わずエージェントをインデックス化し、キーワードとセマンティック検索の組み合わせに加えてIAMベースのアクセス制御を使用します。

🟡 🤝 エージェント 2026年4月10日 · 2 分で読めます

AWS Bedrock AgentCore:ステートフルMCPクライアントがインタラクティブなAIワークフローを実現

AmazonはBedrock AgentCore Runtimeに3つの新しいMCP機能を追加しました — elicitation(ユーザーからの構造化された入力要求)、sampling(クライアントからのLLM補完要求)、プログレス通知です。ステートフルセッションは隔離されたmicrovM内で最大8時間続き、エージェントとクライアント間の双方向通信を可能にします。