2026年5月12日火曜日

14 件 — 🟡 11 重要 , 🟢 3 注目

← 前日 翌日 →

🤖 モデル (2)

🤝 エージェント (4)

🟡 🤝 エージェント 2026年5月12日 · 4 分で読めます

arXiv:2605.10344: TMAS——マルチエージェントのテスト時スケーリングが推論ベンチマークで新記録を達成

編集用イラスト:階層的なメモリバンクを持つ協調ネットワークで接続された複数のAIエージェントノード、発光する推論パス。

TMAS(テスト時マルチエージェントスケーリング)は、LLM推論を階層的なメモリバンクを持つ専門化エージェント間のコラボレーションとして組織化するテスト時計算スケーリングの新しいアプローチです。著者(UCバークレー+DeepMind)は、同じ計算予算でMATH-500、AIME 2024、HumanEval、GPQA Diamondにおいて既存のすべてのベースライン手法(Best-of-N、MCTS、AutoTTS)を上回ることを示しています。単一のパイプラインで推論+検索+検証を組み合わせています。

🟡 🤝 エージェント 2026年5月12日 · 3 分で読めます

AWS: Strands Agents SDKとExaの統合により、エージェントがカスタムクローラー不要で自律的なウェブ検索を実現

編集用イラスト:AIネイティブ検索エンジンに接続するオープンソースSDKエージェント、自律的なウェブクエリを表す抽象的なデータフロー。

AWS Strands Agents SDKは自律型AIエージェント構築のためのオープンソースフレームワークであり、セマンティックレベルでウェブをインデックスするAIネイティブ検索エンジンのExaとの深い統合を実現しました。エージェントはいつウェブを検索するかを自律的に判断し、複数のソースからレポートを合成し、データを引用できるようになりました——カスタムクローラーやスクレイパーインフラを構築することなく。この統合により、ウェブ検索対応エージェントの開発が数十行のコードに簡略化されました。

🟡 🤝 エージェント 2026年5月12日 · 2 分で読めます

Microsoft Research: SocialReasoning-Bench が示す「AI エージェントはタスクを完了するがユーザーの利益を守らない」

Editorial illustration: SocialReasoning-Bench が示す「AI エージェントはタスクを完了するがユーザーの利益を守らない」

SocialReasoning-Bench は Microsoft Research の新しいベンチマークで、AI エージェントが他の当事者との交渉においてユーザーの真の利益を代弁しているかを測定します——タスクを完了するだけでなく。結果は、モデルがほぼ完璧に取引を締結する一方で、マーケットプレイスシナリオで一貫して価値を対面に残すことを示し、90% 以上の結果が非効率または怠慢と分類されました。

🟢 🤝 エージェント 2026年5月12日 · 2 分で読めます

arXiv:2605.07313:エージェントメモリはスケールしない——HippoRAG が無関係セッション増加で 16〜20 ポイントの信頼性を失う

Editorial illustration: 2605.07313: エージェントメモリはスケールしない——HippoRAG が無関係セッション増加で 16〜20 ポイントの信頼性を失う

arXiv:2605.07313 は、無関係なデータが蓄積する際にエージェントメモリシステムが機能し続けるかをテストするスケール条件付き評価プロトコルです。HippoRAG は 16〜20 パーセントポイントの予算準拠信頼性を失い、LiCoMemory はモデルサイズによって変動します。著者(Shao・Lu・Zhang・Luo)は信頼性損失が孤立した現象ではないと結論づけています。

🔧 ハードウェア (2)

🏥 実践 (3)

🟡 🏥 実践 2026年5月12日 · 2 分で読めます

Anthropic: Claude Code v2.1.139 — Agent View が全セッションを一覧表示、/goal コマンドで自律的タスク完了を実現

Editorial illustration: Claude Code v2.1.139 — Agent View が全セッションを一覧表示、/goal コマンドで自律的タスク完了を実現

Claude Code v2.1.139 は Anthropic の CLI エージェントの新バージョンで、リサーチプレビューとして Agent View(アクティブ・ブロック中・完了済み全セッションの統合一覧)を導入し、指定条件を満たすまで Claude が複数ステップにわたって自律的に作業する /goal コマンドと、経過時間・ステップ数・トークン消費量を表示するパネルを追加しました。

🟡 🏥 実践 2026年5月12日 · 3 分で読めます

IBM: Red Hat AI InferenceとOpenShift Virtualization ServiceがIBM Cloudでマネージド製品として発表

編集用イラスト:赤と青の光を放つエンタープライズクラウドインフラ、推論ワークロードを実行する抽象的なサーバー、ハイブリッドVMとコンテナオーケストレーション。

IBMは本日、Red Hat AI Inference ServiceとRed Hat OpenShift Virtualization ServiceをIBM Cloud上のマネージドエンタープライズ製品として発表しました。前者はオープンソースLLM(Granite、Llama、Mistral)向けに最適化されたサービング環境を自動スケーリングとSLA保証付きで提供し、後者は同じOpenShiftコントロールプレーン内でVMとコンテナの実行を可能にします。目的:独自のKubernetesインフラなしにオープンソースAIを使用したい企業チームの運用負荷を削減することです。

🟡 🏥 実践 2026年5月12日 · 3 分で読めます

OpenAI: DeployCo——2026年Q1業績発表とともに公開された企業向けAIデプロイメントの新独立組織

編集用イラスト:抽象的なAIインフラパイプラインとのエンタープライズコンサルティング握手、デプロイメントライフサイクルの可視化。

OpenAIは火曜日にDeployCo(The Deployment Company)を立ち上げました。これは企業がAIアプリケーションを本番環境で構築・スケールするのを支援する独立した組織です。目的:基盤モデルのR&Dと、これまでOpenAIの同じチームに存在していたエンタープライズデプロイメントコンサルティングを分離し、運用上の摩擦を解消することです。DeployCo はマネージドデプロイメント、カスタム評価、ローンチ後のモニタリング、業界特化のファインチューニングを提供します。

💬 コミュニティ (2)

🛡️ セキュリティ (1)

← 前日 翌日 →