🏥 実践

100 件

🟡 🏥 実践 2026年5月23日 · 3 分で読めます

arXiv:2605.22681:CUSPベンチマークがフロンティアモデルは科学的ブレークスルーを信頼できるほど予測できないことを示す

編集イラスト:科学的曲線のブレークスルーポイントと予測を外したAIシステム

CUSPベンチマークは4,700件のイベントのデータベースでAIモデルが科学的ブレークスルーを予測する能力をテストします。フロンティアモデル(GPT-5、Claude Opus 4.7、Gemini 3 Pro)はもっともらしい研究方向を特定しますが、過剰な信頼度で体系的に結果とタイミングを推測します。追加の締め切り前コンテキストは役立ちません——制限は情報的なものではなく構造的なものです。

🟡 🏥 実践 2026年5月23日 · 3 分で読めます

GitHub:2026年Gartnerマジッククアドラント——GitHub Copilotが企業AIコーディングエージェントで3年連続リーダーに

編集イラスト:象限マトリックスでGitHub CopilotがLeader領域に配置

Gartnerは2026年の企業AIコーディングエージェントのマジッククアドラントレポートでGitHubをリーダーとして位置付けました——このカテゴリが存在する3年連続となります。GitHub Copilotは現在世界中の140,000の組織で使用されており、評価ではコード生成だけでなく、コードからレビュー、セキュリティ、ガバナンスまでSDLC全体をカバーするエージェントワークフローが強調されました。

🟢 🏥 実践 2026年5月23日 · 4 分で読めます

arXiv:2605.22337:Meta-Softが組合せ可能なメタトークンと学習可能な直交基でKVキャッシュ圧縮を実現

編集イラスト:メタトークンがアテンションキャッシュを直交基底に圧縮

研究者たちはMeta-Softを提案しました。これはLLM推論における動的KVキャッシュ圧縮の新しい手法です。この手法は学習可能な直交基底行列とセレクタネットワークを使用し、長いプロンプトからの重要情報の圧縮表現であるソフトメタトークンを合成します。注意力フロー機構は削除されたトークンの意味情報を保持されたトークンに再分配し、ほとんどの長コンテキストベンチマークで既存のKVキャッシュ排除手法を上回ります。

🟢 🏥 実践 2026年5月23日 · 4 分で読めます

arXiv:2605.22664:WorkstreamBenchが金融分野のエンドツーエンドスプレッドシートタスクでLLMエージェントをテストし、フロンティアモデルが苦戦しています

編集イラスト:数式を含むExcelスプレッドシートとそれを分析するAIエージェント

WorkstreamBenchはThomson Yenが率いる10名の著者によるベンチマークで、金融ドメインにおける請求書・レポート・費用分析などの実際のExcelおよびスプレッドシートタスクをLLMエージェントに対してテストします。GPT-4o・Claude・Geminiを比較しましたが、どのモデルも全タスクセットを確実にこなすことができず、エンタープライズ財務向けの現在のエージェントインフラストラクチャに構造的な欠陥があることが示されています。

🟢 🏥 実践 2026年5月23日 · 3 分で読めます

Anthropic Claude Code v2.1.150 — ユーザー向けの変更なしの内部インフラストラクチャパッチ

編集イラスト:バージョン番号と内部の歯車が表示されたClaude Codeターミナル

AnthropicはUTC土曜日04:03にClaude Code CLIバージョンv2.1.150をリリースしました。v2.1.149からわずか1日後のリリースです。このバージョンにはユーザー向けの変更はなく、内部インフラストラクチャの改善のみが含まれています。Darwin・Linux・WindowsのARM64およびx64アーキテクチャ、そしてLinux muslビルドで利用可能です。

🟡 🏥 実践 2026年5月22日 · 3 分で読めます

arXiv:2605.21427:PALS — MoEモデルの電力対応LLMサービングで+26.3%エネルギー効率と4-7倍QoS違反削減を達成

編集イラスト:2605.21427:PALS — MoEモデルの電力対応LLMサービングで+26.3%エネルギー効率と4-7倍QoS違反削減を達成

研究者たちは2026年5月21日、arXivプレプリントサーバーにPALSを公表した。PALSはGPU電力制御をMoEモデルのLLMサービングに直接統合するランタイムシステムだ。軽量なオフライン電力性能モデルとフィードバックコントローラーを用いてスループット目標に基づく設定を動的最適化し、電力制約下で26.3%のエネルギー効率向上と4-7倍のQoS違反削減を実現する。APIの変更やモデルの再トレーニングなしにvLLMに統合可能で、データセンターの増大する運営上のボトルネック — GPUクラスターのエネルギー消費 — に直接対処する。

🟢 🏥 実践 2026年5月22日 · 3 分で読めます

CNCF:NetEase GamesがFluidプリフェッチレイヤーでKubernetes上の30秒LLMコールドスタートを達成

編集イラスト:NetEase GamesがFluidプリフェッチレイヤーでKubernetes上の30秒LLMコールドスタートを達成

CNCFは2026年5月21日、NetEase Games(廖海峰・張翔著)のケーススタディを公開した。CNCFインキュベーションプロジェクトFluidを使って70Bクラスのモデル読み込み時間をS3直接アクセスの42分から30秒未満に短縮した方法を詳述している。鍵はFluidプリフェッチレイヤーによるチーム間のモデル共有と、コールドスタートを排除する事前ウォーミングスケジューリングだ。Kubernetes上で大規模モデルのサーバーレスLLM推論を行うエンジニア向けの技術ケーススタディだ。

🟡 🏥 実践 2026年5月21日 · 2 分で読めます

AWS:SageMaker AIにOpenAI互換APIエンドポイントが登場

Editorial illustration: AWS SageMaker AIのOpenAI互換APIエンドポイント、自社GPUインフラへのドロップイン置き換えを実現

AWSは2026年5月20日、Amazon SageMaker AIのリアルタイム推論エンドポイントがOpenAI互換APIを提供するようになったと発表しました。OpenAI SDK、LangChain、Strands Agentsのドロップイン置き換えとしてURL変更のみで移行可能です。エンドポイントは/openai/v1パスでChat Completionsとストリーミングをサポートし、認証はAWS認証情報から生成された時間制限付きBearerトークンを使用します。

🟡 🏥 実践 2026年5月21日 · 2 分で読めます

Google DeepMind:WeatherNextがハリケーン「メリッサ」のカテゴリー5到達を5日前に予測

Editorial illustration: Google DeepMind WeatherNextがハリケーン「メリッサ」のカテゴリー5到達を初めて5日前に予測

Google DeepMindは2026年5月19日、WeatherNextモデルが80パーセントの信頼度でハリケーン「メリッサ」がカテゴリー5に達することを丸5日前に正確に予測したと発表しました。これは現代気象学で初めての事例です。モデルは50の並行シナリオのアンサンブルを使用し、前シーズンは米国国家ハリケーンセンターの評価でハリケーン予測の最上位システムとなりました。

🟢 🏥 実践 2026年5月19日 · 2 分で読めます

CNCF: Kubernetesデバッガがアクセス痕跡を削除――セキュリティ監査に深刻な問題

Editorial illustration: CNCFがkubectl debugセッション終了後に記録が残らない問題を警告――PCI DSSおよびSOC 2コンプライアンスへの脅威

CNCFは、Kubernetesコンテナの診断ツールであるkubectl debugがセッション終了後に一切の記録を残さないと警告しています。このため規制対象業界では「誰がどのコンテナを、どれくらいの時間見ていたか」という重要な問いに答えられず、PCI DSSおよびSOC 2の監査ログ要件に直接違反することになります。

🟡 🏥 実践 2026年5月16日 · 3 分で読めます

GitHub: Copilot Memoryがすべてのリポジトリにわたってコミットスタイル、PR構造、ユーザーのコミュニケーション設定を記憶します

編集用イラスト:リポジトリをつなぐメモリアイコンを持つCopilotインターフェース。

GitHub Copilot Memory ユーザー設定は2026年5月15日にリリースされた新しいパーソナライズ機能で、CopilotがリポジトリのエコシステムをまたいでユーザーのCopilot Memory設定を記憶できるようになります。コミットメッセージのスタイル、プルリクエストの構造、コミュニケーション設定(フォーマルかカジュアルかのトーン、詳細レベル)を記録し、ユーザーが作業するすべてのリポジトリに一貫して適用します。この機能はより広範なCopilotパーソナライズレイヤーの一部で、CursorやCodeiumの適応機能と競合します。

🟡 🏥 実践 2026年5月16日 · 3 分で読めます

OpenAI: ChatGPT Personal Finance——米国のPro契約者が金融口座を安全に連携しAI駆動のインサイトを取得

Editorial illustration: AI会話表示と銀行連携アイコンを示す金融ダッシュボード。

ChatGPT Personal Financeは2026年5月15日に発表されたOpenAIの新機能であり、米国のPro契約者がユーザーの具体的な財務状況、目標、優先事項に基づいたAI駆動のインサイトのために金融口座を安全に連携できるようにします。この機能はChatGPTを汎用チャットから個人向け金融アシスタント層に拡張し、Google FinanceおよびPerplexityのfinance_searchツール(5月13日発表)と直接競合します。

🟡 🏥 実践 2026年5月16日 · 3 分で読めます

OpenAI + Databricks: GPT-5.5がOfficeQA Pro新記録達成後にエンタープライズエージェントワークフローへ統合

Editorial illustration: DatabricksとOpenAIのロゴ、GPT-5.5アイコン、エンタープライズエージェントワークフローの表示。

OpenAI Databricksインテグレーションは2026年5月15日に発表された新しいエンタープライズエージェントパートナーシップであり、GPT-5.5モデルをエージェントワークフロー構築のためにDatabricksプラットフォームに導入します。この発表はパートナーチャネルを通じたGPT-5.5の初の明示的なデプロイメントです——このモデルはOfficeQA Proベンチマークで記録を打ち立て、現在Databricks Mosaic AIランタイムを通じてエンタープライズクライアントに提供されています。

🟢 🏥 実践 2026年5月16日 · 3 分で読めます

AWS: Amazon Quick — deny-by-defaultとALLOW/DENYルールによるS3ナレッジベースのドキュメントレベルのアクセス制御

編集用イラスト:アクセス前のユーザーID確認のためのACLレイヤーを持つドキュメントデータベース。

Amazon Quickドキュメントレベルのアクセス制御は、Josh DeMuthが2026年5月15日に公開した新しいエンタープライズRAGセキュリティメカニズムです。Amazon Quick内のS3ナレッジベースに対して、2つの設定方法(安定した構造向けの集中型JSONである全体ACLファイルと、ドキュメントレベルのメタデータファイル)を通じてドキュメントレベルのACLを可能にします。システムはdeny-by-defaultを使用し、ユーザーとグループのレベルでALLOW/DENYルールをサポートします(DENYが常に優先されます)。

🟡 🏥 実践 2026年5月15日 · 2 分で読めます

Amazon Lex: Assisted NLU LLMモードが追加料金なしで92%の意図認識精度と84%のスロット解決率を達成

編集イラスト:MLとLLMコンポーネントを持つチャットボット意図フロー。

Amazon Lex Assisted NLUは2026年5月14日に発表された、大規模言語モデルで従来のLex NLUを強化するチャットボット向け新LLM駆動モードです。平均92%の意図分類精度と84%のスロット解決精度を達成し、実際のデプロイメントでは意図分類が11〜15%改善、フォールバック応答が23.5%減少しました。プライマリモード(毎回入力)とフォールバックモード(低信頼度時のみ)の2モードが標準Lex料金に含まれます。

🟢 🏥 実践 2026年5月15日 · 3 分で読めます

GitHub Copilot Cloud Agent: 自動モデル選択でトークン乗数が10%割引に

編集イラスト:回転するモデルアイコンと割引率を持つAIエージェント。

GitHub Copilot Cloud Agent自動モデル選択は2026年5月14日に発表された新機能で、システム状態とモデルパフォーマンスシグナルに基づいてタスクに最適なモデルを自動的に選択します。自動モードのユーザーは標準モデル乗数に対して10%割引を受け、週ごとのレート制限が免除されます。この機能はモデルの手動選択の必要性を排除し、週末前にレート制限に達するエンタープライズユーザーの一般的なフラストレーションに対処します。

🟢 🏥 実践 2026年5月15日 · 3 分で読めます

IBM Consulting: Forward Deployed Units——6人のAI+人間チームがリヤドエア・ネスレ・ハイネケンで30人チームの仕事を担う

編集イラスト:ワークスペースで共に働く6人のチームメンバー——人間とAIエージェント。

IBM Forward Deployed Units(FDUs)は2026年5月14日にMohamad Ali(IBM Consulting シニアバイスプレジデント)が発表した新しいエンタープライズコンサルティングモデルです。シニアコンサルタント、エンジニア、AIエージェントで構成される6人のポッドが従来の30人コンサルティングチームを置き換えます。ワンショットのプロジェクト論理に代わる継続的なエンゲージメントを導入します。リヤドエア、ネスレ、ハイネケン、ピアソンで実際に展開済みです。

🟢 🏥 実践 2026年5月15日 · 3 分で読めます

OpenAI: Sea Limited(Garena、Shopee)がアジアのエンジニアリングチームを通じて Codex を展開——AI ネイティブ開発のケーススタディ

編集イラスト:複数のモニターに Codex CLI 表示を持つアジアのエンジニアリングチームの図。

OpenAI Sea Codex ケーススタディは、2026 年 5 月 14 日に発表されたエンタープライズ展開記事です。Sea Limited(Garena と Shopee の親会社)の CPO が、アジアのエンジニアリングチームを通じた OpenAI Codex コーディングエージェントの展開戦略を説明しています。Sea は Codex を AI ネイティブなソフトウェア開発ツールとして位置づけています——既存の慣行を加速させる開発支援ツールではなく、ワークフローの根本的な変革として捉えています。

🟡 🏥 実践 2026年5月14日 · 2 分で読めます

Perplexity: finance_search Agent API ツールが OHLCV・貸借対照表・決算トランスクリプト・アナリスト予測を一度の呼び出しで返す

編集イラスト:OHLCV グラフと AI エージェント矢印を持つ財務データダッシュボード。

Perplexity finance_search は2026年5月に公開された新しい Agent API ツールで、上場企業の構造化された財務データを返します。準リアルタイム価格、OHLCV 範囲、プレマーケット・アフターアワーズデータ、損益計算書、貸借対照表、キャッシュフロー、決算コールトランスクリプト、SEC ファイリング、アナリスト予測、ETF 構成銘柄が含まれます。モデルはプロンプトに基づいてどのフィールドを取得するかを自動的に決定します。

🟢 🏥 実践 2026年5月14日 · 3 分で読めます

AWS:Pulse AI + BedrockパイプラインがNova Microを金融文書向けにファインチューニング——3時間で1,000件の文書を処理します

編集イラスト:自動抽出パイプラインと構造化データを持つ金融文書。

AWS Pulse AI + Amazon Bedrock金融文書処理は、2026年5月13日にAWSが発表した新しいエンタープライズパイプラインブループリントです。複雑な金融文書(SEC提出書類・貸借対照表・監査資料)からのPulse AI抽出とAmazon Nova Microモデルのファインチューニングを組み合わせています。以前はマルチデイのターンアラウンドを要した1,000件の文書バッチが3時間以内に処理され、ファインチューニングされたモデルは小切手データ抽出で50%のベースラインに対して100%を達成しました。

🟢 🏥 実践 2026年5月14日 · 3 分で読めます

CNCF:KubeStellar AI エージェントが 91% テストカバレッジと 63 個の CI/CD ワークフローで 81% PR 承認率を達成

編集イラスト:AI エージェントアイコンと CI/CD パイプライン矢印を持つ Kubernetes クラスター。

KubeStellar AI Agents は、KubeStellar Console の主要メンテナー Andy Anderson による CNCF ブログ投稿の新しいケーススタディで、2026年5月14日に公開されました。2つの並列 AI コーディングエージェントを使用したマルチクラスター Kubernetes ダッシュボードが82日間で81%の PR 承認率を達成しました。インフラ:63の CI/CD ワークフロー、32のナイトリーテストスイート、12のシャード上で91%のカバレッジ、バグからマージまで約30分。Anderson は AI コードベース成熟度の5段階を定義しています。

🟢 🏥 実践 2026年5月14日 · 3 分で読めます

GitHub:Copilot Cloud Agent REST APIは大規模リファクタリング・リポジトリセットアップ・週次リリース準備に開放されます

編集イラスト:自律エージェントアイコンとREST APIエンドポイントを持つGitHub Actionsワークフロー。

GitHub Copilot Cloud Agent REST APIは、2026年5月13日にパブリックプレビューで発表された新しい開発者エンドポイントで、プログラムによる自律的なCopilotタスクの起動を可能にします。3つの主要ユースケース:多くのリポジトリにわたるコードリファクタリング/マイグレーションのファンアウト・開発者ポータルからのワンクリックリポジトリ初期化・リリースノートを含む自動週次リリース準備です。Copilot BusinessとEnterpriseの加入者が利用可能です。

🟡 🏥 実践 2026年5月13日 · 2 分で読めます

GitHub: Copilot Pro $10・Pro+ $39・新 Max $100 プランとフレックスクレジットモデルを導入

エディトリアルイラスト:開発者インターフェースでベースクレジットとフレックスクレジットのアイコンを含むサブスクリプション構造。

GitHub Copilot Flex Allotments と Max プランは 2026 年 5 月 12 日に発表された GitHub Copilot の新料金体系で、2026 年 6 月 1 日より適用されます。Pro ティアは月額 $10 で $15 の使用クレジット、Pro+ は $39 で $70 のクレジット、新しい Max プランは $100 で $200 のクレジットを提供します。コード補完と次の編集候補はすべての有料プランで無制限のままです。

🟡 🏥 実践 2026年5月13日 · 2 分で読めます

Perplexity: 4月更新ログがAgent APIにClaude Opus 4.7・GPT-5.5・Grok 4.20 Reasoningを追加

編集イラスト:開発者パネルにおけるAPIエンドポイント、モデルアイコン、セキュリティキーの概念図。

Perplexity 4月2026更新ログは、Agent APIプラットフォームに対する一連のアップデートです。Claude Opus 4.7・GPT-5.5・Grok 4.20 Reasoningモデルの追加、ネイティブn8n統合、AWS MarketplaceへのSaaSリスティング、ワンタイムAPIキー開示セキュリティモデル、OpenAI互換形式の新エンドポイント /v1/models が含まれます。

🟡 🏥 実践 2026年5月12日 · 2 分で読めます

Anthropic: Claude Code v2.1.139 — Agent View が全セッションを一覧表示、/goal コマンドで自律的タスク完了を実現

Editorial illustration: Claude Code v2.1.139 — Agent View が全セッションを一覧表示、/goal コマンドで自律的タスク完了を実現

Claude Code v2.1.139 は Anthropic の CLI エージェントの新バージョンで、リサーチプレビューとして Agent View(アクティブ・ブロック中・完了済み全セッションの統合一覧)を導入し、指定条件を満たすまで Claude が複数ステップにわたって自律的に作業する /goal コマンドと、経過時間・ステップ数・トークン消費量を表示するパネルを追加しました。

🟡 🏥 実践 2026年5月12日 · 3 分で読めます

IBM: Red Hat AI InferenceとOpenShift Virtualization ServiceがIBM Cloudでマネージド製品として発表

編集用イラスト:赤と青の光を放つエンタープライズクラウドインフラ、推論ワークロードを実行する抽象的なサーバー、ハイブリッドVMとコンテナオーケストレーション。

IBMは本日、Red Hat AI Inference ServiceとRed Hat OpenShift Virtualization ServiceをIBM Cloud上のマネージドエンタープライズ製品として発表しました。前者はオープンソースLLM(Granite、Llama、Mistral)向けに最適化されたサービング環境を自動スケーリングとSLA保証付きで提供し、後者は同じOpenShiftコントロールプレーン内でVMとコンテナの実行を可能にします。目的:独自のKubernetesインフラなしにオープンソースAIを使用したい企業チームの運用負荷を削減することです。

🟡 🏥 実践 2026年5月12日 · 3 分で読めます

OpenAI: DeployCo——2026年Q1業績発表とともに公開された企業向けAIデプロイメントの新独立組織

編集用イラスト:抽象的なAIインフラパイプラインとのエンタープライズコンサルティング握手、デプロイメントライフサイクルの可視化。

OpenAIは火曜日にDeployCo(The Deployment Company)を立ち上げました。これは企業がAIアプリケーションを本番環境で構築・スケールするのを支援する独立した組織です。目的:基盤モデルのR&Dと、これまでOpenAIの同じチームに存在していたエンタープライズデプロイメントコンサルティングを分離し、運用上の摩擦を解消することです。DeployCo はマネージドデプロイメント、カスタム評価、ローンチ後のモニタリング、業界特化のファインチューニングを提供します。

🟡 🏥 実践 2026年5月11日 · 2 分で読めます

OpenAI:企業がAI実装を組織でスケールさせる方法のガイド——実験から継続的なビジネスインパクトへ

Editorial illustration: OpenAI企業ガイド——実験から継続的なビジネスインパクトへのAIスケーリング

OpenAIは企業向けガイド「How enterprises are scaling AI」を発表し、予備的な実験から継続的なビジネスインパクトへの道筋を描きました。ガイドは4つの基本的な柱に焦点を当てています:組織的信頼、ガバナンスフレームワーク、ワークフロー設計、そして成長に伴う品質の維持。

🟢 🏥 実践 2026年5月11日 · 2 分で読めます

Google: AIを活用したFinanceがヨーロッパに拡大——株式サマリー、ポートフォリオ分析、AIアシスタント

Editorial illustration: Google AIを活用したFinanceがヨーロッパに拡大——株式サマリー、ポートフォリオ分析、AIアシスタント

Google FinanceのAI搭載プラットフォームが今週、現地語サポートを完備してヨーロッパ市場に拡大しました。株式と市場トレンドのAIリサーチ、高度なビジュアライゼーション、リアルタイムの暗号通貨・コモディティカバレッジ、企業決算コールのライブトランスクリプト、そして複雑な財務質問向けにグローバルで利用可能なDeep Searchが新たに利用できます。

🟡 🏥 実践 2026年5月9日 · 2 分で読めます

Anthropic: Claude Code v2.1.136が54件の修正、MCP OAuthフィックスとhard-dennyルールを導入

編集用イラスト:MCP OAuthフィックスとhard-denyルールの表示があるClaude Codeターミナル

Anthropicは54件の変更を含むClaude Code v2.1.136をリリースしました。自動モードで操作を無条件にブロックする新しいsettings.autoMode.hard_denyルール、ユーザーに毎日再ログインを強いていたMCP OAuthの競合状態の修正、および拡張思考でのAPI 400エラーの解決が含まれます。

🟢 🏥 実践 2026年5月9日 · 1 分で読めます

AWS: HalliburtonのAI地震アシスタントがワークフロー作成時間を95%超削減

編集用イラスト:Amazon Bedrockを通じて自然言語から生成された地震ワークフロー

HalliburtonはAWSと協力して、Amazon BedrockとClaudeモデルを使用して自然言語を地震ワークフローに変換するSeismic Engine向けAIアシスタントを構築しました。システムは84〜97%の成功率を達成し、作成時間を2〜20分から5.9〜16.6秒に短縮、95%以上の高速化を実現しました。

🟡 🏥 実践 2026年5月8日 · 2 分で読めます

GitHub: AIプルリクエストをレビューするための5つのリスクと10分フレームワーク

編集イラスト:AIプルリクエストをレビューするための5つのリスクと10分フレームワーク

GitHubはAI生成コードのレビューに関する実践的ガイドを公開し、5つの重要なリスクと10分間の構造化されたコードレビューフレームワークを定義しました。プラットフォーム上の5件に1件以上のプルリクエストにエージェントが関与しています。

🟡 🏥 実践 2026年5月7日 · 2 分で読めます

Anthropic: Claude Code v2.1.132が25件以上の修正と新しいフック用環境変数を提供

編集イラスト:Claude Code v2.1.132が25件以上の修正とフック用新環境変数を提供

AnthropicはClaude Code v2.1.132をリリースしました。25件以上の修正と、フック統合向けのCLAUDE_CODE_SESSION_IDおよびネイティブスクロールバック用のCLAUDE_CODE_DISABLE_ALTERNATE_SCREENという2つの新しい環境変数が含まれています。MCPサーバーによる10GB超のRSSメモリ増大という深刻なバグも修正されました。

🟡 🏥 実践 2026年5月7日 · 2 分で読めます

Anthropic: Claude Code v2.1.133がworktree.baseRefとレースコンディション修正を提供

Editorial illustration: Claude Code v2.1.133がworktree.baseRefとレースコンディション修正を提供

Anthropicがworktree.baseRef、sandbox.bwrapPath/socatPath、フック内の環境変数CLAUDE_EFFORTを搭載したClaude Code v2.1.133をリリース。並行セッションでのレースコンディションとWindowsドライブルートパスの問題を修正。今週v2.1.131、v2.1.132に続く3回目のリリース。

🟡 🏥 実践 2026年5月7日 · 2 分で読めます

GitHub: エージェントワークフローの最適化で19%〜62%のトークン削減を達成

Editorial illustration: エージェントワークフローの最適化で19%〜62%のトークン削減を達成

GitHubは本番エージェントワークフローを計測し、トークン浪費の3大原因を特定した。不要なMCPツール、決定論的データフェッチ、誤設定のBashルールだ。最適化により各ワークフローで19%〜62%のトークン削減を達成した。

🟢 🏥 実践 2026年5月7日 · 2 分で読めます

arXiv:2605.04012: SymptomAIがFitbitアプリで約13,917名の患者を対象に鑑別診断で独立した臨床医を上回る

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAIはFitbitアプリに統合された対話型AIエージェントで、約13,917名の参加者でテストされました。臨床評価のサブセットでは、その診断推奨が同じ会話を評価した独立した臨床医に対してオッズ比2.47を達成しました。この研究はプレプリントです。

🟡 🏥 実践 2026年5月6日 · 2 分で読めます

IBM: Enterprise AdvantageにContext Studioを追加——Providence Healthの採用管理時間を90%削減

編集イラスト:組織データでAIエージェントを構築するIBM Enterprise Advantage Context Studio

IBMはContext StudioのローンチによりEnterprise Advantageプラットフォームを拡張しました。これはデジタル主権を保護しながら組織独自のデータに基づいてAIエージェントを構築するツールです。Providence Healthは採用管理時間を90%削減し、IBMは18ヶ月以内に運用コストを25%以上削減すると予測しています。

🟢 🏥 実践 2026年5月6日 · 2 分で読めます

Anthropic: Claude Code v2.1.131 — Windows VS Code有効化とMantle x-api-keyホットフィックス

編集イラスト:Windows VS CodeとMantle認証のためのClaude Code v2.1.131ホットフィックス

AnthropicはClaude Code v2.1.131ホットフィックスリリースを公開しました。ハードコードされたビルドパスによるWindowsでのVS Code拡張機能の有効化失敗と、Mantle推論エンドポイントへのx-api-keyヘッダーの欠如という2つのバグを修正します。すべての主要プラットフォームのバイナリが公開されました。

🟡 🏥 実践 2026年5月5日 · 3 分で読めます

arXiv:2605.02740: ReClaim — 2億件の患者記録で学習した基盤モデルが1,000超の医療タスクで平均AUC 75.6%を達成

編集イラスト:コード・聴診器・医療チャートを表示するモニターがある開発者ワークスペース

新しいarXivプレプリントがReClaimeを紹介しています。2億件の患者記録から438億件の医療イベントで学習した17億パラメータの基盤モデルです。1,000を超える診断タスクで平均AUC 75.6%を達成し、LightGBM(66.3%)やDelphi専門モデル(69.4%)を大きく上回ります。行政的な医療データで学習した基盤モデルの新しい分類を切り開きます。

🟡 🏥 実践 2026年5月5日 · 3 分で読めます

Anthropic Claude Code v2.1.128:30件以上の修正、.zipプラグイン対応、サブエージェントのキャッシュ作成コストが約3分の1に

コンセプトイラスト:開発者のワークスペース、モニターの横に.zipアーカイブとプラグインインストールのプログレスバー

Claude Code v2.1.128(2026年5月4日リリース)は30件以上の改善を提供します。/mcpパネルへのツール数表示とツール0台サーバーのフラグ機能、--plugin-dirでの.zipプラグインアーカイブ対応、ローカルの未プッシュコミットを失うEnterWorktreeバグの修正、サブエージェントのcache_creationコスト約3分の1への削減、10MB超の標準入力パイプ時のクラッシュ修正が含まれます。

🟡 🏥 実践 2026年5月4日 · 2 分で読めます

IBM調査:76%の組織がChief AI Officerを設置、CEOは2030年までにAIが48%の運営決定を自律的に下すと予測

Editorial illustration: IBM調査:76%の組織がChief AI Officerを設置、CEOは2030年までにAIが48%の運営決定を自律的に下すと予測

IBM Institute for Business Valueが33カ国2000人のCEO調査結果を発表。Chief AI Officer職が1年で26%から76%の組織に拡大。CEOは2030年までにAIシステムが人間の介入なしに48%の運営決定を下すと予測しており、Cスイート全体の構造が再定義されている。

🔴 🏥 実践 2026年5月1日 · 3 分で読めます

DeepMind AIコ・クリニシャン:98件の一次診療クエリのブラインド評価で医師がツールより好評価、97/98例でゼロ重大エラー

編集イラスト:医療機器を備えた臨床シーンで医師と患者を支援するAIエージェント

Google DeepMindは2026年4月30日、AIコ・クリニシャン研究イニシアティブを発表しました——医師の臨床監督のもとでAIエージェントが患者を支援するトライアディックケアモデルです。98の現実的な一次診療クエリのブラインドの頭対頭評価において、医師は一貫してコ・クリニシャンの回答を2つの主要な証拠合成ツールより好評価し、システムは97/98ケースでゼロ重大エラーを記録しました。

🟡 🏥 実践 2026年5月1日 · 3 分で読めます

Amazon Nova 2 Lite、強化ファインチューニングで4.33/5.0を達成しClaudeモデルを上回る——法律契約の自動レビューで

編集イラスト:演台に立つAI評価者が法律契約を審査し、ロボットアームが条項をマーキングしている

強化ファインチューニング(RFT)とは、言語モデルが評価者(LLM-as-Judge)として機能しフィードバックを提供することで、高コストな人手ラベリングを不要にする学習手法です。Amazon Nova 2 Liteはこの手法により、法律契約の自動レビューで総合スコア4.33/5.0および完璧なJSON検証スコア1.00を達成し、Claude Sonnet 4.5とClaude Haiku 4.5を上回りました。

🟢 🏥 実践 2026年5月1日 · 2 分で読めます

IBM ResearchとDallara:AIサロゲートモデルGISTがレーシングカーの空力評価を数時間のCFDから10秒に短縮

編集イラスト:レーシングカーとリアディフューザー周辺の高速流れシミュレーションを示す矢印

GIST(ゲージ不変スペクトルトランスフォーマー)は、IBM ResearchとイタリアのレーシングカーシャシーメーカーDallaraが共同開発したグラフベースニューラル演算子のAIサロゲートモデルです。LMP2車両のリアディフューザーの空力評価が従来のCFDシミュレーションの数時間から約10秒に短縮され、研究はICLR 2026のAI & PDEワークショップで発表されました。

🟡 🏥 実践 2026年4月30日 · 2 分で読めます

Anthropic Claude for Creative Work:Blender、50 以上の Adobe Creative Cloud ツール、Autodesk Fusion、Ableton、SketchUp、Splice と連携

編集イラスト:3D モデリング、オーディオプロダクション、グラフィックデザインを繋ぐ AI アシスタント

Anthropic は 2026 年 4 月 28 日、Blender、Autodesk Fusion、Adobe(50 以上の Creative Cloud ツール)、Ableton、Splice、Affinity と Canva、Resolume Arena、SketchUp との連携によるプロフェッショナルなクリエイティブソフトウェア向けの Claude コネクターを発表しました。Claude は Blender 向けに Python スクリプトを作成し、VJ 向けに Resolume をリアルタイムで制御し、Affinity でアセットのバッチ処理を自動化し、Splice のサンプルカタログを検索できます。Anthropic は Blender Development Fund にパトロンとして参加し、RISD、Ringling College、Goldsmiths の 3 つの学術機関が学生に Claude との協働を学ぶ授業を開始します。

🟡 🏥 実践 2026年4月30日 · 2 分で読めます

Google ERA:科学研究向けAIシステムが入院予測でCDC最高位を達成、未解決の宇宙論問題を解決、10分ごとにCO2を観測

編集イラスト:科学ツールとAIネットワークが星座状の多分野連結に繋がっている

Google Researchは2026年4月29日、ERA(経験的研究支援システム)を発表しました。これはLLMを計算ツールと組み合わせて科学研究を加速する社内AIシステムです。異なる分野にわたる4つの具体的な成果:COVID/インフルエンザ/RSV入院予測でCDCランキング首位、宇宙弦の重力波に関する6つの新解、10分ごとに大気CO2を観測するニューラルネットワーク、ゼブラフィッシュの解釈可能な神経回路。

🟡 🏥 実践 2026年4月30日 · 3 分で読めます

EvalEval Coalition:AI評価が新たな計算ボトルネックに — GAIAのシングルラン$2,829、HALリーダーボード$40,000、学術監査人は技術的障壁より先に予算の壁に直面

編集イラスト:トレーニングコストより評価コストが重い天秤

EvalEval Coalition(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)は2026年4月29日、HuggingFaceブログにAIモデルの評価コストが爆発的に増加していることを示す分析を公開しました。単一のGAIAラン$2,829、HALリーダーボード$40,000(k=8信頼性$320,000)、PaperBenchはエージェントあたり約$9,500。静的ベンチマークは100-200倍圧縮可能ですが、エージェントベンチマークはわずか2-3.5倍。独立した監査人にとっての説明責任の障壁となっています。

🟡 🏥 実践 2026年4月29日 · 2 分で読めます

Anthropic Claude for Creative Work:60以上のクリエイティブツール向けコネクタ、新製品Claude Design、RISD・Ringling・Goldsmithsとのパートナーシップ

編集用イラスト:Claudeコネクタがデザインから動画・3D制作までのクリエイティブツールスタックに分岐している様子

AnthropicはClaude for Creative Workを発表しました。ClaudeをAdobe Photoshop・Premiere・50以上のCreative Cloudツール・Blender・Autodesk Fusion・Ableton Live & Push・Resolveシリーズ・SketchUp・Splice・Affinity by Canvaに接続するコネクタパッケージです。Anthropic Labsからは、Canvaエクスポート対応のソフトウェアインターフェースのアイデアを可視化する新製品Claude Designも発表されました。また、RISD・Ringling College・Goldsmiths University of Londonとの学術パートナーシップにより、クリエイティブコンピューテーションのカリキュラムにClaudeが導入されます。

🟡 🏥 実践 2026年4月29日 · 2 分で読めます

IBMがBobを発表:SDLC全体をカバーするAI開発パートナー、社内ユーザー8万人超、平均生産性45%向上

編集イラスト:中央にアシスタントエンブレムを持つソフトウェア開発ライフサイクルの歯車

IBMは2026年4月28日、ソフトウェア開発ライフサイクル全体——計画・設計・コーディング・テスト・デプロイ・運用・モダナイゼーション——をカバーするAIパートナー「Bob」を発表しました。BobはAnthropic Claude、Mistral、IBM Graniteのモデルを統括し、すでに8万人を超えるIBM社員が利用しており、平均45%の生産性向上を実現。bob.ibm.comで30日間の無料トライアルが利用可能です。

🟡 🏥 実践 2026年4月29日 · 1 分で読めます

OpenAIがAWSに登場:GPTモデル・Codex・Managed AgentsがエンタープライズユーザーのAWS環境で利用可能に

編集用イラスト:OpenAIのシンボルロゴがAWSクラウドアイコンと結合し、エンタープライズ配布の拡大を示している

OpenAIは2026年4月28日、GPTモデル・Codex・Managed AgentsがAWSで利用可能になったと発表しました。エンタープライズユーザーは自社のAWS環境内で安全なAIシステムを構築できます。この発表はOpenAI × Microsoftの改定パートナーシップ契約と同日に行われ、Microsoft Azureエコシステム以外での初めてのOpenAI配布となります。

アーカイブ全体を見る →