2026年5月18日月曜日

11 件 — 🟡 5 重要 , 🟢 6 注目

🤖 モデル (1)

🟡 🤖 モデル 2026年5月18日 · 4 分で読めます

GitHub Copilot：GPT-5.3-CodexがBusinessおよびEnterpriseの基盤モデルに、12ヶ月LTS保証付き

GitHubは2026年5月17日、GPT-5.3-CodexがGPT-4.1に代わりCopilot BusinessおよびEnterpriseの基盤モデルになると発表しました。この変更はエンタープライズ・ティアのみが対象です（Copilot Pro、Pro+、Freeは対象外）。GPT-5.3-Codexは初のLTS（長期サポート）モデルであり、2026年2月5日から2027年2月4日まで12ヶ月の利用可能性が保証されます。価格：プレミアム・リクエスト乗数1×。GPT-4.1は2026年6月1日の廃止まで乗数0×（無料）で強制有効のまま維持されます。

📦 オープンソース (6)

🟡 📦 オープンソース 2026年5月18日 · 4 分で読めます

arXiv:2605.15041 CAST フレームワーク：事例ベースキャリブレーション LLM ツール使用が BFCLv2 で +5.85pp、推論長を26%削減

Editorial illustration: LLM agent s case library prikazom i tool call validation indicators.

CAST は、Renning Pang、Tian Lan、Leyuan Liu、Piao Tong、Sheng Cao、Xiaosong Zhang による2026年5月14日付 arXiv 論文で、LLM ツール使用のための事例ベースキャリブレーションフレームワークを導入しています。このアプローチは、強化学習のための構造化情報として過去の実行トラジェクトリを扱います。BFCLv2 ベースラインと比較して最大 +5.85パーセントポイントの実行精度向上と、平均推論長の26%削減を達成しています。

🟢 📦 オープンソース 2026年5月18日 · 5 分で読めます

arXiv:2605.15706 微分可能エージェント混合：動的ルーティングによるエージェント起動で9ベンチマーク中SOTA達成

Editorial illustration: neural network routing graf s LLM agentima i sparse activation indicator-ima.

微分可能エージェント混合（Differentiable Mixture-of-Agents）は、Xingjian Wu、Junkai Lu、Siyu Yan、Xiangfei Qiu、Jilin Hu、Chenjuan Guo、Bin Yangが2026年5月15日に発表したarXiv論文で、マルチエージェントLLM協調のための微分可能なルーティング・メカニズムを提案しています。固定トポロジーに代わり、推論ステップごとにエージェントを動的に選択・起動し、予測エントロピーの自己監視による外部アノテーション不要のテスト時適応で9ベンチマーク中SOTAを達成しています。

🟢 📦 オープンソース 2026年5月18日 · 4 分で読めます

arXiv:2605.15100 デュアルディメンション一貫性：5つのベンチマークで精度を維持しながらトークン消費量を10倍以上削減

Editorial illustration: paralelni reasoning paths s confidence score badge-ovima i pruning ikonom.

デュアルディメンション一貫性は、Rongman Xu、Yifei Li、Tianzhe Zhao、Yanrui Wu、Bo Li、Hang Yan による2026年5月14日付 arXiv 論文で、推論時スケーリングの効率性を扱っています。このフレームワークは信頼度加重ベイズプロトコルとトレンド対応階層型プルーニングを組み合わせています。5つのベンチマークを通じて、強力なベースラインと比較してトークン消費量を10倍以上削減しながら、精度を維持または向上させることを実証しています。

🟢 📦 オープンソース 2026年5月18日 · 4 分で読めます

arXiv:2605.15015 Small Private LM：教育評価設計において競争力のある結果を達成し、ヒューマン・イン・ザ・ループの導入を推奨

Editorial illustration: učionica scena s small LM ikonama, Bloom's taxonomy piramidom i human reviewer prikazom.

「教育評価設計のチームメンバーとしての小型プライベート言語モデル」は、Chris Davis Jaldi、Anmol Saini、Shan Zhang、Noah Schroeder、Cogan Shimizu、Eleni Ilkou による2026年5月14日付 arXiv 論文です。教育評価問題の生成における小型モデルと大型代替モデルの系統的比較を実施しています。小型モデルはプライバシー上の利点を伴いながら競争力のある結果を達成していますが、著者らはモデルベースの評価に系統的な不一致があることを強調し、ヒューマン・イン・ザ・ループアプローチを推奨しています。

🟢 📦 オープンソース 2026年5月18日 · 3 分で読めます

arXiv:2605.15109 トラバーサルコンテキスト：エージェント型 GraphRAG は真のプロベナンスのために訪問済み・未引用エンティティを記録しなければならない

Editorial illustration: knowledge graph s istaknutim traversal pathom i citation badge anotacijama uz uncited node-ove.

「近傍が重要な理由」は、Riccardo Terrenzi、Maximilian von Zastrow、Serkan Ayvaz の著者による2026年5月14日付 arXiv 論文です（IJCAI-ECAI 2026 GENAIK・NORA 合同ワークショップに採択）。著者らは、エージェント型 GraphRAG システムは引用忠実性をトラジェクトリレベルの問題として扱うべきであると主張しています。真のプロベナンスは引用済みの証拠だけでなく、モデルの推論に影響を与えた訪問済み・未引用のエンティティも対象とします。

🟢 📦 オープンソース 2026年5月18日 · 3 分で読めます

xAI SDK Python v1.13.0：prepare_extension() により生成クリップシリーズのバッチビデオ拡張が可能に

Editorial illustration: serija video frameova s batch processing ikonom i xAI SDK kod snippet vizualizacijom.

xAI SDK Python v1.13.0 が2026年5月16日にリリースされました（コミット作成者 @double-di、PR #141）。バッチビデオ拡張のための新しい prepare_extension() メソッドが追加されています。この機能は v1.10.0 で導入されたビデオ API を拡張し、バッチ処理機能を追加します。開発者は各クリップを個別に順次処理する代わりに、一度の呼び出しで一連のクリップの拡張処理を準備できるようになりました。

🤝 エージェント (3)

🟡 🤝 エージェント 2026年5月18日 · 4 分で読めます

arXiv:2605.16217 Argus：深層調査エージェント向けエビデンス・アセンブリ・アーキテクチャ、8並列サーチャーで+12.7pp達成

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argusは、Zhen Zhang、Liangcai Su、Zhuo Chenらが2026年5月15日に発表したarXiv論文で、深層調査エージェント向けのエビデンス・アセンブリ・フレームワークを提案しています。システムはデュアルエージェント・アーキテクチャ――サーチャー（ReActスタイルのトレース）+ナビゲーター（共有エビデンス・グラフ+RL合成）――を採用し、シングル・サーチャーで+5.5pp、8並列で+12.7pp、64並列でコンテキスト超過なしにBrowseCompで86.2スコアを達成しています。

🟡 🤝 エージェント 2026年5月18日 · 3 分で読めます

GitHub Copilot：Grok Code Fast 1 が2026年5月15日に非推奨化；推奨代替モデルは GPT-5 mini と Claude Haiku 4.5

Editorial illustration: deprecated stamp na xAI Grok ikoni s arrows prema GPT-5 mini i Claude Haiku 4.5 logosima.

GitHub は2026年5月15日、すべての Copilot エクスペリエンス（チャット、インライン編集、質問、エージェントモード、コード補完）において Grok Code Fast 1 モデルの正式な非推奨化を発表しました。非推奨化は5月8日の発表から1週間後に実施されました。推奨代替モデル：GPT-5 mini と Claude Haiku 4.5——いずれも標準のモデルポリシーで利用可能です。エンタープライズ管理者は Copilot 設定で代替モデルを有効化する必要があります。

🟢 🤝 エージェント 2026年5月18日 · 4 分で読めます

Databricks + Veeva Vault CRM：ライフサイエンス商業ワークフロー向け3種の専門AIエージェント

Editorial illustration: pharma sales rep s tablet i AI agent overlay s patient data dashboard.

Databricksは2026年5月18日、Veeva Systemsとのパートナーシップ深化を発表しました。ライフサイエンス業界向けVault CRMワークフローにGenie AIエージェントを直接統合します。3つの専門エージェント・ペルソナ――営業担当者エージェント、メディカル・サイエンス・リエゾン（MSL）エージェント、テリトリー・マネージャー・エージェント――はUnity Catalogガバナンスを通じてDatabricksレイクハウスにアクセスします。この発表はボストンで開催されるVeeva Commercial Summit（2026年5月19〜20日）に先立つものです。

🛡️ セキュリティ (1)

🟡 🛡️ セキュリティ 2026年5月18日 · 5 分で読めます

arXiv:2605.15338 スリーパー・メモリ・ポイズニング：LLMエージェントの永続メモリを介したGPT-5.5への攻撃成功率99.8%

Editorial illustration: LLM agent memory store s dormantnim adversarial token-ima i wake-up trigger ikone.

「Hidden in Memory」は、Sidharth Pulipaka、Stanislau Hlebik、Leonidas Raghav、Sahar Abdelnabi、Vyas Raina、Ivaxi Sheth、Mario Fritzが2026年5月14日に発表したarXiv論文で、ステートフルなLLMエージェントへの遅延実行攻撃を提案しています。外部コンテキスト（文書、Webページ）の敵対的コンテンツがエージェントの永続メモリを汚染し、GPT-5.5で99.8%、Kimi-K2.6で95%の成功率を達成。汚染されたメモリが攻撃者意図の行動を誘発する割合は60〜89%です。

← 前日翌日 →