🤝 エージェント

12 件

🔴 🤝 エージェント 2026年4月14日 · 2 分で読めます

OpenAIとCloudflare：GPT-5.4とCodexがエンタープライズ向け新Agent Cloudプラットフォームを始動

CloudflareがOpenAIのGPT-5.4およびCodexモデルを新しいAgent Cloudプラットフォームに統合し、エンタープライズユーザーが実際のビジネスタスク向けAIエージェントを構築、デプロイ、スケーリングできるようになりました。速度とセキュリティに重点を置いています。

🟡 🤝 エージェント 2026年4月14日 · 2 分で読めます

AI2：AIエージェントは教科書レベルの科学の80%を解けるが、本物の科学的問題では20%にとどまる

Allen Institute for AIが、知識テストでのAIパフォーマンスと実際の科学的発見能力との間の劇的なギャップを明らかにする2つのベンチマークを分析しました。モデルは教科書レベルで80%に達する一方、複雑な科学タスクでは20%に低下します。

🟡 🤝 エージェント 2026年4月14日 · 2 分で読めます

ArXiv HiL-Bench：AIエージェントは助けを求めるべきタイミングを知っていますか？

新しいベンチマークHiL-Benchは、AIエージェントが自らの限界を認識し、推測する代わりに人間の助けを求める能力を測定します。結果によると、フロンティアモデルでさえ助けが必要なタイミングの判断が不十分ですが、的を絞ったトレーニングでこの能力を改善できることが示されています。

🔴 🤝 エージェント 2026年4月13日 · 2 分で読めます

ArXiv HiL-Bench：いつ助けを求めるべきか分かるフロンティアモデルは一つもない

新しいベンチマークがAIエージェントの判断力における普遍的な欠陥を明らかにした——仕様が不完全な場合、いかなるフロンティアモデルもフルパフォーマンスのごくわずかしか達成できない。研究者たちは、このスキルが強化学習で訓練可能であることを示した。

🟢 🤝 エージェント 2026年4月13日 · 2 分で読めます

ArXiv SAGE：27のLLMをテスト——モデルは意図を理解するが正しく実行しない

カスタマーサービス向けの新ベンチマークが2つの現象を明らかにした：'Execution Gap'（モデルは意図を正しく分類するが正しいアクションを実行しない）と'Empathy Resilience'（モデルは論理的エラーを犯しながら礼儀正しさを維持する）。

🟡 🤝 エージェント 2026年4月12日 · 2 分で読めます

GitHub Copilot CLI:初心者向け公式ガイド — ターミナルからクラウドエージェントへのタスク委任

GitHub は 4 月 10 日、Copilot CLI ツールの公式チュートリアルを公開しました。ガイドは npm によるインストール、GitHub アカウントによる認証、実用的な例(クラウドエージェントへのタスク委任を含む)をカバーしています。

🟡 🤝 エージェント 2026年4月11日 · 2 分で読めます

Anthropicがポリシーフレームワーク『Trustworthy agents in practice』を発表

Anthropicは、AIエージェントを信頼できる方法で開発、展開、使用することの意味を定義する包括的なポリシーフレームワーク『Trustworthy agents in practice』を発表しました。この文書は、エージェントを構築または使用する企業のためのガイドラインとして機能します。

🟡 🤝 エージェント 2026年4月11日 · 2 分で読めます

ArXiv PASK：ユーザーの意図を予測する長期記憶を持つプロアクティブAIエージェント

新しい論文PASKは、意図検出、ハイブリッドメモリ、自己主導のアクションを組み合わせたプロアクティブAIエージェントのフレームワークを提示します。IntentFlowモデルは、潜在的なユーザーニーズの認識において主要なGemini 3 Flashモデルのレベルに達しました。

🟡 🤝 エージェント 2026年4月11日 · 2 分で読めます

ArXiv SAVeR：LLMエージェントのためのセルフ監査 — 実行前に検証（ACL 2026）

ACL 2026に採択された新しい手法SAVeR（Self-Audited Verified Reasoning）は、LLMエージェントがアクションを実行する前に自己修正することを可能にします。目標：論理的制約に違反する首尾一貫した推論が誤った決定につながるのを防ぐこと。

🟢 🤝 エージェント 2026年4月11日 · 2 分で読めます

ArXiv KnowU-Bench：インタラクティブでプロアクティブなモバイルAIエージェントのための新しいベンチマーク

研究者たちはKnowU-Benchを発表しました。これは、長期的な使用を通じたインタラクティビティ、プロアクティビティ、パーソナライゼーションに焦点を当てた、新世代のモバイルAIエージェントを評価するための包括的なベンチマークです。

🟡 🤝 エージェント 2026年4月10日 · 2 分で読めます

AWS Agent Registry：エンタープライズ向けAIエージェントカタログがプレビュー公開

Amazonは、エンタープライズ組織向けのAIエージェント、ツール、エージェントスキルの一元的なカタログであるAWS Agent Registryのプレビュー版を公開しました。このシステムはホスト場所（AWS、他のクラウド、オンプレミス）を問わずエージェントをインデックス化し、キーワードとセマンティック検索の組み合わせに加えてIAMベースのアクセス制御を使用します。

🟡 🤝 エージェント 2026年4月10日 · 2 分で読めます

AWS Bedrock AgentCore：ステートフルMCPクライアントがインタラクティブなAIワークフローを実現

AmazonはBedrock AgentCore Runtimeに3つの新しいMCP機能を追加しました — elicitation（ユーザーからの構造化された入力要求）、sampling（クライアントからのLLM補完要求）、プログレス通知です。ステートフルセッションは隔離されたmicrovM内で最大8時間続き、エージェントとクライアント間の双方向通信を可能にします。