OpenAIとCloudflare:GPT-5.4とCodexがエンタープライズ向け新Agent Cloudプラットフォームを始動
CloudflareがOpenAIのGPT-5.4およびCodexモデルを新しいAgent Cloudプラットフォームに統合し、エンタープライズユーザーが実際のビジネスタスク向けAIエージェントを構築、デプロイ、スケーリングできるようになりました。速度とセキュリティに重点を置いています。
12 件
CloudflareがOpenAIのGPT-5.4およびCodexモデルを新しいAgent Cloudプラットフォームに統合し、エンタープライズユーザーが実際のビジネスタスク向けAIエージェントを構築、デプロイ、スケーリングできるようになりました。速度とセキュリティに重点を置いています。
Allen Institute for AIが、知識テストでのAIパフォーマンスと実際の科学的発見能力との間の劇的なギャップを明らかにする2つのベンチマークを分析しました。モデルは教科書レベルで80%に達する一方、複雑な科学タスクでは20%に低下します。
新しいベンチマークHiL-Benchは、AIエージェントが自らの限界を認識し、推測する代わりに人間の助けを求める能力を測定します。結果によると、フロンティアモデルでさえ助けが必要なタイミングの判断が不十分ですが、的を絞ったトレーニングでこの能力を改善できることが示されています。
新しいベンチマークがAIエージェントの判断力における普遍的な欠陥を明らかにした——仕様が不完全な場合、いかなるフロンティアモデルもフルパフォーマンスのごくわずかしか達成できない。研究者たちは、このスキルが強化学習で訓練可能であることを示した。
カスタマーサービス向けの新ベンチマークが2つの現象を明らかにした:'Execution Gap'(モデルは意図を正しく分類するが正しいアクションを実行しない)と'Empathy Resilience'(モデルは論理的エラーを犯しながら礼儀正しさを維持する)。
GitHub は 4 月 10 日、Copilot CLI ツールの公式チュートリアルを公開しました。ガイドは npm によるインストール、GitHub アカウントによる認証、実用的な例(クラウドエージェントへのタスク委任を含む)をカバーしています。
Anthropicは、AIエージェントを信頼できる方法で開発、展開、使用することの意味を定義する包括的なポリシーフレームワーク『Trustworthy agents in practice』を発表しました。この文書は、エージェントを構築または使用する企業のためのガイドラインとして機能します。
新しい論文PASKは、意図検出、ハイブリッドメモリ、自己主導のアクションを組み合わせたプロアクティブAIエージェントのフレームワークを提示します。IntentFlowモデルは、潜在的なユーザーニーズの認識において主要なGemini 3 Flashモデルのレベルに達しました。
ACL 2026に採択された新しい手法SAVeR(Self-Audited Verified Reasoning)は、LLMエージェントがアクションを実行する前に自己修正することを可能にします。目標:論理的制約に違反する首尾一貫した推論が誤った決定につながるのを防ぐこと。
研究者たちはKnowU-Benchを発表しました。これは、長期的な使用を通じたインタラクティビティ、プロアクティビティ、パーソナライゼーションに焦点を当てた、新世代のモバイルAIエージェントを評価するための包括的なベンチマークです。
Amazonは、エンタープライズ組織向けのAIエージェント、ツール、エージェントスキルの一元的なカタログであるAWS Agent Registryのプレビュー版を公開しました。このシステムはホスト場所(AWS、他のクラウド、オンプレミス)を問わずエージェントをインデックス化し、キーワードとセマンティック検索の組み合わせに加えてIAMベースのアクセス制御を使用します。
AmazonはBedrock AgentCore Runtimeに3つの新しいMCP機能を追加しました — elicitation(ユーザーからの構造化された入力要求)、sampling(クライアントからのLLM補完要求)、プログレス通知です。ステートフルセッションは隔離されたmicrovM内で最大8時間続き、エージェントとクライアント間の双方向通信を可能にします。