2026年5月7日木曜日

19 件 — 🔴 4 重大 , 🟡 14 重要 , 🟢 1 注目

← 前日 翌日 →

🤖 モデル (3)

🟡 🤖 モデル 2026年5月7日 · 3 分で読めます

arXiv:2605.03195: Terminus-4B——40億パラメータのターミナル実行モデルがSWE-Bench ProでClaude OpusとGPT-5.3-Codexに匹敵し、メインエージェントのトークン使用量を約30%削減

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4BはエージェントシステムのターミナルExecution専用に特化した40億パラメータのQwen3ファインチューンモデルです。SWE-Bench ProベンチマークでClaude Sonnet/OpusとGPT-5.3-Codexのベースラインに匹敵または凌駕し、冗長なビルド/テストログをサブエージェントのコンテキストに隔離することでメインエージェントのトークン消費を約30%削減します。

🟡 🤖 モデル 2026年5月7日 · 2 分で読めます

arXiv:2605.04908: キュレーションされた製薬データベースを持つGossetがフロンティアLLMを3.2倍上回る

編集イラスト:精選製薬データベースを持つGossetがフロンティアLLMを3.2倍上回る

Gossetはキュレーションされた製薬データを持つ専門AIプラットフォームであり、4つのフロンティアシステムとの比較で、クエリあたり3.2倍多くの検証済み薬剤を返し、10のニッチながん・免疫学ターゲットで100%精度と完全再現率を達成しました。

🟡 🤖 モデル 2026年5月7日 · 2 分で読めます

Google: Gemini APIがマルチモーダルなFile Search画像検索とInteractions APIの破壊的変更を導入

編集イラスト:Gemini APIがマルチモーダルFile SearchとInteractions API破壊的変更を導入

GoogleはGemini File Searchをgemini-embedding-2モデルを使ったマルチモーダル画像検索に拡張し、視覚的な引用のためにグラウンディングメタデータにmedia_idを追加しました。同時に、Interactions APIの破壊的変更を発表しました。outputsがstepsに変わり、新しいデフォルトは2026年5月20日から、旧スキーマの廃止は2026年6月6日となります。

📦 オープンソース (1)

⚖️ 規制 (1)

🤝 エージェント (5)

🔴 🤝 エージェント 2026年5月7日 · 2 分で読めます

arXiv:2605.06651: Google DeepMindがAI Co-Mathematicianを発表、FrontierMath Tier 4で48%を達成

Editorial illustration: arXiv:2605.06651: Google DeepMindがAI Co-Mathematicianを発表、FrontierMath Tier 4で48%を達成

Google DeepMindチームが、AIエージェントと数学者がオープンな問題に協力する対話型ワークスペースであるAI Co-Mathematicianに関する論文を発表。このシステムはFrontierMath Tier 4ベンチマークで48%を達成し、すべてのAIシステムの新記録を樹立した。

🟡 🤝 エージェント 2026年5月7日 · 3 分で読めます

Anthropic:Managed Agentsがマルチエージェントセッション、Outcomes、Webhooks、Vault更新をパブリックベータで追加

Editorial illustration: dijagram više Claude agenata povezanih u jedan session canvas s vault i webhook ikonama

Claude Managed AgentsはAnthropicの管理型自律エージェントプラットフォームで、2026年5月6日のパブリックベータに4つの新機能が追加されました。マルチエージェントセッション、目標定義のためのOutcomesメカニズム、セッションとVaultのライフサイクルイベント向けWebhooks、mcp_oauthクレデンシャルのバックグラウンド更新です。セッションのステータスフィルタリングとイベントのタイプ・作成時刻フィルタリングも追加されました。

🟡 🤝 エージェント 2026年5月7日 · 3 分で読めます

GitHub:コンパイラ理論の支配節点解析でエージェント動作を検証、精度100% vs エージェント自己評価82%

Editorial illustration: dijagram graf strukture s istaknutim dominator čvorovima koji predstavljaju esencijalne korake u agentskom izvršavanju

GitHubが非決定論的AIエージェント向けの検証フレームワークを発表しました。コンパイラ理論の支配節点解析(Dominator Analysis)を借用し、Copilot Coding Agentの2〜10回の成功実行からどのステップが必須でどれがオプションかを学習し、エージェントのバグと真のプロダクトリグレッションの区別で100%の精度を達成します。

🟡 🤝 エージェント 2026年5月7日 · 2 分で読めます

GitHub: Copilot for VS Codeがターミナルアクセスと独自APIキーのサポートを獲得

編集イラスト:VS Code用CopilotがターミナルアクセスとBYO APIキーを獲得

GitHub Copilot for Visual Studio Codeは4月の更新サイクル(バージョン1.116〜1.119)で、コードベース全体のセマンティック検索、エージェントによる開いているターミナルへのアクセス、そしてAnthropicやOpenAIなどのプロバイダーへの独自APIキー接続機能を獲得しました。

🟡 🤝 エージェント 2026年5月7日 · 3 分で読めます

vLLM:Mooncake分散KVキャッシュストアの統合でマルチターンエージェントのスループット3.8倍、P50 TTFT 46倍改善

Editorial illustration: mreža GPU čvorova povezanih RDMA linkovima sa centralnim distributed KV cache poolom

vLLMがMooncake分散KVキャッシュストアを統合し、エージェントターン間のプレフィックス再計算を排除します。12台のGB200 GPUを使用した現実的なCodexトレースで、スループット3.8倍、P50 TTFT(最初のトークンまでの時間)46倍低下、エンドツーエンドレイテンシ8.6倍低下、キャッシュヒット率が1.7%から92.2%に向上しました。

🔧 ハードウェア (1)

🏥 実践 (4)

🟡 🏥 実践 2026年5月7日 · 2 分で読めます

Anthropic: Claude Code v2.1.132が25件以上の修正と新しいフック用環境変数を提供

編集イラスト:Claude Code v2.1.132が25件以上の修正とフック用新環境変数を提供

AnthropicはClaude Code v2.1.132をリリースしました。25件以上の修正と、フック統合向けのCLAUDE_CODE_SESSION_IDおよびネイティブスクロールバック用のCLAUDE_CODE_DISABLE_ALTERNATE_SCREENという2つの新しい環境変数が含まれています。MCPサーバーによる10GB超のRSSメモリ増大という深刻なバグも修正されました。

🟡 🏥 実践 2026年5月7日 · 2 分で読めます

Anthropic: Claude Code v2.1.133がworktree.baseRefとレースコンディション修正を提供

Editorial illustration: Claude Code v2.1.133がworktree.baseRefとレースコンディション修正を提供

Anthropicがworktree.baseRef、sandbox.bwrapPath/socatPath、フック内の環境変数CLAUDE_EFFORTを搭載したClaude Code v2.1.133をリリース。並行セッションでのレースコンディションとWindowsドライブルートパスの問題を修正。今週v2.1.131、v2.1.132に続く3回目のリリース。

🟡 🏥 実践 2026年5月7日 · 2 分で読めます

GitHub: エージェントワークフローの最適化で19%〜62%のトークン削減を達成

Editorial illustration: エージェントワークフローの最適化で19%〜62%のトークン削減を達成

GitHubは本番エージェントワークフローを計測し、トークン浪費の3大原因を特定した。不要なMCPツール、決定論的データフェッチ、誤設定のBashルールだ。最適化により各ワークフローで19%〜62%のトークン削減を達成した。

🟢 🏥 実践 2026年5月7日 · 2 分で読めます

arXiv:2605.04012: SymptomAIがFitbitアプリで約13,917名の患者を対象に鑑別診断で独立した臨床医を上回る

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAIはFitbitアプリに統合された対話型AIエージェントで、約13,917名の参加者でテストされました。臨床評価のサブセットでは、その診断推奨が同じ会話を評価した独立した臨床医に対してオッズ比2.47を達成しました。この研究はプレプリントです。

💬 コミュニティ (1)

🛡️ セキュリティ (3)

🟡 🛡️ セキュリティ 2026年5月7日 · 3 分で読めます

arXiv:2605.04019: 自動化レッドチームエージェントがMeta Llama Scoutに対して85%の成功率を達成、45以上の攻撃と450以上の変換を使用

Editorial illustration: automatizirani agent simultano pokreće desetke napadačkih vektora protiv jezičnog modela na ekranu kontrolne ploče

新論文は、Dreadnode SDK上に構築されたエージェント型レッドチームシステムを発表しています。45以上の攻撃、450以上の変換、130以上のスコアラーを使用してMeta Llama Scoutに対して85%の成功率を達成し、手書きのコードなしにセキュリティテストを数週間から数時間に短縮します。

🟡 🛡️ セキュリティ 2026年5月7日 · 2 分で読めます

arXiv:2605.04785: AgentTrustがAIエージェントのツール呼び出しを95〜97%の精度で傍受

編集イラスト:AgentTrustがAIエージェントのツール呼び出しを95〜97%の精度で傍受

AgentTrustはオープンソースのランタイムシステムで、AIエージェントのツール呼び出し(ファイル操作、SQLクエリ、シェルコマンド)を実行前に傍受し、4つの判定の1つを返します。930のテストシナリオで95〜97%の精度を達成し、シェル難読化攻撃では約93%の精度を示しました。

🟡 🛡️ セキュリティ 2026年5月7日 · 2 分で読めます

arXiv:2605.06390: 自動化されたアライメント研究は見かけよりも難しい

Editorial illustration: arXiv:2605.06390: 自動化されたアライメント研究は見かけよりも難しい

Geoffrey Irving(DeepMind/Anthropic)を含む4人の研究者による新論文が、AIエージェントはアライメント研究を信頼性高く自動化できないと主張している。明確な評価基準がなければ、最適化圧力は説得力があるが壊滅的に誤った安全評価を生み出し、人間のレビュアーには検出が難しい。

← 前日 翌日 →