Anthropic:Project Fetch第2フェーズ——ロボット作業が20倍高速化、コード量10倍削減
Claude Opus 4.7が商用四足ロボットを自律制御し、人間チームと比較して約20倍速くタスクを完了しました。また、同等以上の成果を上げながら記述コード量は約10倍少なく、精密なクローズドループ制御のみが依然として課題として残っています。
過去 72 時間、カテゴリー別
Claude Opus 4.7が商用四足ロボットを自律制御し、人間チームと比較して約20倍速くタスクを完了しました。また、同等以上の成果を上げながら記述コード量は約10倍少なく、精密なクローズドループ制御のみが依然として課題として残っています。
CEO-Benchは500日間のスタートアップ経営をシミュレートし、監視なしでAIエージェントが経営上の意思決定を下す能力を検証するベンチマークです。Claude Opus 4.8とGPT-5.5のみが初期資本100万ドルを超えましたが、いずれのモデルも一貫した利益を達成できていません。
Amazon Bedrock AgentCore HarnessがプレビューフェーズからGAとなり、すべてのユーザーが本番環境で利用可能になりました。本番グレードのAIエージェントのデプロイは2回のAPI呼び出しのみで完了し、Claude・Nova・Llama・DeepSeek・GPT-5.5・GPT-5.4をサポート。セッション中にコンテキストを失わずモデルを切り替えることも可能です。
GitHubはissue作成時のリアルタイム重複検出を導入し、issue フィールドMCPサポートでMCPサーバーを拡張しました。AIエージェントはすべてのメタデータを自動設定してissueを作成でき、手動トリアージが不要になりました。
AWSはAmazon Bedrock AgentCoreを3つの知識レイヤーで拡張しました。エージェントリトリーバーを備えたマネージド知識ベース、Amazonインフラ上のウェブ検索、およびライセンスコンテンツへのアクセスのためのAgentCore Paymentsです。サイレント行動エラーを検出するMonitoring、本番環境でのA/Bテストを行うOptimization、および各エージェントアクションのプロンプトインジェクションとデータ露出を評価するGuardrailsが追加されました。AWS WAFは同時にAIトラフィックの収益化を導入しました。
ルーブリック条件付き自己蒸留は、科学的推論ベンチマークでGRPOを+1.0ポイント、OPSDを+0.9ポイント上回る新しい推論モデル訓練手法です。スカラー報酬の代わりにルーブリックをトークンレベルの指導として使用し、より精確な功績帰属を実現します。
GPT-5.5 Instantは、より強力な推論とより良いコンテキストを通じて、ChatGPTの健康・ウェルネスに関する回答を改善します。評価には医師のグループが参加し、医療的なトピックに関するより明確で信頼性の高いコミュニケーションを目指しています。
Googleはcかかりつけ医21名と盲検比較したNature研究で、医療AI「AMIE」が疾患管理において同等の水準に達し、治療計画の精度と診療ガイドラインへの適合性では統計的に優れていたことを発表しました。AMIEは共感的対話エージェントと深層推論エージェントの二重構成で、数百ページの臨床ガイドラインを相互検証します。Googleはその後、実際のバーチャルクリニックで全国規模の無作為化比較試験を開始しました。
GitHubはHyDRAモデルルーターを発表しました。推論の深さ、コードの複雑さ、ツールオーケストレーションの必要性に応じてCopilot向けのAIモデルを自動的に選択します。HyDRAは品質を維持したまま72.5%のコスト削減を実現し、保守モードでは70.8%のタスク解決率でOpenRouter Autoより3.3倍安価です。プロンプトキャッシングとツール検索を追加し、19言語でルーティング精度が英語ベースラインから4ポイント以内に収まります。
OpenAIとMolecule.oneは、GPT-5.4をベースとするほぼ自律型のAI化学者を発表しました。このシステムは最小限の人的介入で薬物合成における重要な反応を改善しました。メディシナルケミストリーにおける反応を最適化するもので、AI主導の医薬品研究開発に向けた一歩となります。全文が取得できなかったため、本記事はOpenAIの公式説明に基づいています。
TxBench-PPは4,800の軌跡と11のモデルを通じて小分子の前臨床薬理学におけるAIエージェントの性能を検証するベンチマークです。Claude Opus 4.8が59.3%の成功率でトップに立ち、GPT-5.5が55.3%で続きますが、いずれのモデルも医療応用に十分な信頼性水準には達していません。
MAI-Code-1-Flash——Microsoftがそのサイズで最高品質と位置づけるコンパクトなコーディングモデル——が、CLIからモバイルプラットフォームまでGitHub Copilotの8つの開発サーフェスで利用できるようになりました。freeからmaxまですべてのプランで提供されます。
OpenAIの推論モデルは、医師および研究機関との協力において、以前は未解決だった小児の希少遺伝疾患の症例で18件の新たな診断を特定しました。これらの結果は、臨床診断におけるAIの役割について新たな問いを提起しています。
PyTorchコアチームは、HelionカーネルのLLMガイドによる自動チューニングを発表し、GPUコードの最適化を分単位から秒単位に高速化しました。大規模言語モデルが網羅的な探索の代わりにカーネルパラメーター空間の探索をインテリジェントに誘導します。
GitHubはCopilotデスクトップアプリがmacOS、Windows、Linuxで一般提供(GA)開始になったと発表しました。このアプリは並行セッション、キャンバスUI、クラウド自動化、独自モデルとツールの統合をもたらします。GitHub Spark、Copilot Chat、Copilot CLIを統一されたデスクトップ体験に統合しています。このリリースは、HyDRAモデルルーティングや全ユーザー向けAutoモードを含む、同日のより広範なCopilot発表の一部です。
欧州委員会は第 4 回デジタルの十年年次現状報告を発表し、インフラ、ビジネス、スキル、公共サービスの 4 分野における 2030 年デジタル目標へのEUの進捗を評価しています。報告書は AI、半導体、クラウド、オープンソースを欧州の技術主権の柱と位置づけ、「規模・速度・一貫性を伴う成果の提供」を主要課題として挙げています。ユーロバロメーターによると、大多数の欧州市民がデジタル政策を EU の最優先課題と位置づけています。
CNCFはEU Data Actが2025年1月11日に全面施行されたことを受けて、クラウドネイティブプラットフォームのデジタル主権に関するアーキテクチャパターンのガイドを公開しました。規制当局は4つの特性を求めています:管轄区域の制約、運用の自律性、暗号化によるアクセス制御、可搬性。共有 control plane は管轄区域をまたいだリスク共有を意味するため、単一のKubernetesクラスターでは不十分です。各管轄区域が独自の control plane(vCluster)を持ち、GitOpsで境界を宣言するパターンが提案されています。
AgentFairBenchは、雇用、信用、医療トリアージの領域でLLMエージェントの回答だけでなく実際の行動における人口統計的不平等を測定する初のベンチマークです。反実仮想フリップ率と行動率格差の2つの指標を使用し、4つのエージェントスキャフォールドをテストします。864回の決定のパイロットでClaude Haikuはノイズレベルを超える人口統計的効果を示さず、6つのグループの単純な比較が不平等を約2.4倍過大評価する可能性があると警告しています。
この論文は、1,000システムの最終リーダーボードスナップショットが複数の非互換な歴史的軌跡に対応し得ることを示すベイズ監査フレームワークを提示しています。収束時間は23〜75ステップです。LiveBench、Open LLM Leaderboard v2、LMArena、GAIA、tau-benchのアーカイブデータに基づき、著者はスコアリング履歴を再構築しフロンティアモデルに関する根拠のない主張を棄却するarchive-and-adjudicationプロトコルを提案しています。
Google DeepMindは100万件のエージェントコーディング軌跡を分析し、AIエージェントのセキュリティインシデントとしてフラグが立てられたものの50%超が、外部からの敵対的攻撃ではなく、タスクの誤解やモデルの過剰な積極性に起因することを発見しました。この発見は防御の優先順位を変えます。
GitHubは1日でActionsに対する2つの補完的なセキュリティアップデートを発表しました。actions/checkout@v7がフォークPRからのpwnリクエスト攻撃をブロックし、新しいワークフロー実行保護機能により管理者が組織全体でアクターとイベントタイプ別のアローリストを設定できます。
新たなベンチマークPseudoBenchは、7つの最先端AIエージェントを5つの分野にわたる200件の疑似科学的主張でテストし、拒否率がほぼゼロであることを明らかにしました——最高の抵抗力でも27.4%にとどまりました。逆説的に、より高性能なモデルは疑似科学をより洗練された学術的な言語でパッケージ化し、リスクを高めます。著者らは、実験から論文執筆まで説得力のある偽の研究を生成できる自律型研究エージェントを大規模展開する前に、「科学的アライメント」が不可欠だと警告しています。
AnthropicのレッドチームはVerizonと共同で、実際のAI武装化サイバー作戦をMITRE ATT&CKフレームワークにマッピングした分析を発表しました。この研究では実践で観察されたAI支援攻撃のパターンを分析しています。並行して、レッドチームは大規模言語モデルがすでに公開済みだが未修正(N-day)の脆弱性の悪用を加速させる方法についての分析も発表しました。
AWSはAmazon BedrockにInvokeGuardrailChecksを導入しました。これは自動ブロックを行わず、事前に作成したguardrailリソースも不要なスコアを返す検出APIです。コンテンツフィルター、プロンプト攻撃検出(ジェイルブレイク、インジェクション、リーク)、および31種類のエンティティタイプを持つ個人情報認識の3種類の保護をカバーします。APIは0から1.0のスケールで深刻度と信頼度スコアを返し、開発チームが自らしきい値を制御する多段階エージェントループ向けに設計されています。
GitHubはプルリクエストリミットを導入し、メンテナーが外部コントリビューターからの同時オープンPR数を制御できるようになりました。2023年1月以来、マージされたPR数は月間2,500万から9,000万以上へと3.6倍に増加し、多くのプロジェクトを圧迫しています。
Anthropicはソウルにオフィスを開設しました。これはアジアにおける同社初のオフィスであり、韓国AIエコシステムとの新たな協力関係を発表しました。この動きは、米国と欧州以外への同社の広範なグローバル展開の一部です。個別のパートナーシップの詳細はソースでは入手できなかったため、本記事では意図的に言及していません。韓国は強力なテクノロジー産業とAI導入率の高い重要な市場です。
GitHubは2026年6月16日より、GitHub Models(プレイグラウンド、API、モデルカタログ)を新規組織に対して閉鎖しました。既存ユーザーは当面フルアクセスを維持しますが、完全廃止の詳細は後日発表される予定です。GitHubは新規ユーザーをAzure AI Foundryに誘導しています。発表には撤退理由は記載されていませんが、この動きはGitHubが開発者への直接AIモデル提供から撤退しつつあることを示しています。
OpenAIはパートナーネットワークを立ち上げました。グローバルパートナー向けにエンタープライズAI導入を加速する1億5000万ドルのプログラムです。この取り組みは企業がAIの実装、デプロイ、ビジネス変革において支援を受けることを目的としています。発表は2026年6月14日に行われました。完全な公告テキストにアクセスできなかったため、本記事はOpenAIの公式公告説明に基づいて執筆されました。
AMDは、スケールアウトGPUクラスター環境においてGPT-4、Llama 3、DeepSeek-V2、Grok 4.0の4つの大規模言語モデルを訓練する際に発生するRoCEネットワークトラフィックパターンの比較分析を公開しました。これはAIインフラ構築の実践的なガイドとなります。
AMD は Schola を発表しました。これは Unreal Engine 向けのオープンソースプラグインで、Python フレームワークと gRPC を通じて Gymnasium 互換の強化学習トレーニングを可能にします。例では、協調ロボットアーム xArm6 が Unreal Engine 5.7 上で MuJoCo 物理エンジン・PPO アルゴリズム・PyTorch を AMD ROCm GPU スタックで使用してトレーニングされます。チュートリアルはアームの先端をランダムな目標位置に移動させるリーチタスクを示しています。
AMDはMLPerf Training v6.0でInstinct MI355XがLLMベンチマークにおいて同等のNVIDIA GPUとの性能差が約5%であることを示しました。MI355Xは昨年のMI300Xより3.5倍高速で、前ラウンドより13〜19%高速です。AMDはMXFP4(FP4)トレーニングレシピとPrimusユニファイドフレームワークを初めて導入し、512基のMI300X GPU、64ノードのマルチノード提出も行いました。
NVIDIAはBlackwellプラットフォームがMLPerf Training 6.0の全7テストで最高成績を達成したと発表しました。GB300 NVL72はGB200 NVL72と比べて最大1.6倍高速なトレーニングを実現し、最大規模の提出では8192基のBlackwell GPUを使用して6710億パラメータのDeepSeek-V3モデルを学習しました。CoreWeaveは8192基のGPUでDeepSeek-V3 671Bを2.02分でトレーニングし、Microsoft AzureはLlama 3.1 405Bを7.07分で完了しました。
AMDはInstinct GPU向けの推論エンジンATOMを発表しました。OpenAI互換APIを公開し、KVキャッシュ、スケジューリング、並列性を調整します。ATOMはROCmスタックの最上位に位置し、AITERカーネルとMoRI RDMA通信を組み合わせ、TP・DP・EP並列性をサポートし、DeepSeek V2〜V4、Mixtral、Qwen3-MoEなどのMoEモデルに最適化されています。FP8、MXFP4、INT8、INT4量化とEAGLEプロポーザーを用いたMTP投機的デコーディングを提供します。
Robin Rombach——Black Forest Labs(FLUXモデルの開発者)の共同創業者兼CEO——がG7リーダーに直接呼びかけました。開放的かつ責任あるAI開発を世界的規範とすべきだという訴えです。Rombachは、AIパラメーターの公開がイノベーションを促進し技術の民主化を進めると主張しています。
Allen Instituteは、動画と「ボウルを回転させて」などの自然言語指示から物体の3D軌跡を予測する完全オープンソースモデルMolmoMotionを発表しました。PointMotionBenchでSOTAを達成し、平均変位は前記録の0.134mに対して0.109mです。ロボティクスのpick-and-placeタスク成功率を56%から76.3%へ20.3ポイント向上させました。3D軌跡と動作説明付き116万本の動画からなるMolmoMotion-1Mデータセットで訓練されています。
vLLMはSemantic Router Fusionを発表しました。これは複数のモデルが並行してパネルとして動作し、審判モデルがコンセンサスと差異を分析して単一の回答を合成するプリミティブです。ローカルvLLMおよびプライベートエンドポイントに加え、Gemini、Kimi、DeepSeek、Claudeなどのパブリックプロバイダーをサポートします。OpenRouter DRACOでの外部検証では、統合パネルが69%を達成し、最良の単一モデルの65.3%を上回りました。完全なOpenAI API互換性も備えています。
GitHubは、4000万以上のリポジトリにわたる8000万以上の分類行を含む多言語リポジトリデータセットを、完全なオープンCC0-1.0ライセンスで公開しました。各リポジトリについてREADME、最もコメントの多いissue、最もコメントの多いpull requestの3つのテキストソースを記録し、fastText、gcld3、lingua-pyの3つのツールで言語検出を行います。非英語READMEではポルトガル語がトップで、issueの議論では韓国語が最も目立ちます。
CNCFはOracleの300万ドルのOCIコンピュートクレジット寄付がOpenTelemetry、containerd、Falco、Longhorn、Crossplane、Jaegerを含む12以上のプロジェクトのArm64 CI/CDサポートを可能にしていると報告しています。需要は月5,000ドルの初期ガイドラインをすぐに超えました。この転換は新しいAWSインスタンスの50%以上とAzureインスタンスの33%がArm64アーキテクチャで動作しているというデータと並行しています。