AWS Nova蒸留によるビデオセマンティック検索:コスト95%削減、推論速度2倍
AWSはモデル蒸留がどのように大型Nova Premierモデルのインテリジェンスをビデオ検索ルーティング用のより小さなNova Microに転送するかを実証しました。結果は推論コストの95%削減、50%低レイテンシ(1741msに対して833ms)、LLM-as-judge評価で品質を維持(5点中4点)です。トレーニング全体でNova Premierから生成された10,000の合成サンプルを使用しました。
13 件 — 🔴 2 重大 , 🟡 7 重要 , 🟢 4 注目
AWSはモデル蒸留がどのように大型Nova Premierモデルのインテリジェンスをビデオ検索ルーティング用のより小さなNova Microに転送するかを実証しました。結果は推論コストの95%削減、50%低レイテンシ(1741msに対して833ms)、LLM-as-judge評価で品質を維持(5点中4点)です。トレーニング全体でNova Premierから生成された10,000の合成サンプルを使用しました。
AWS Nova マルチモーダル埋め込みは、テキストに変換せずにビデオの視覚・音声・テキストコンテンツを統一された1024次元ベクトル空間で同時に処理する新しいアーキテクチャです。セマンティック埋め込みとBM25語彙検索の組み合わせによりRecall@5が90%となり、ベースラインのcombinedモード埋め込みの51%と比較して——すべての指標で30〜40ポイント向上しました。
NVIDIAはHuggingFaceでNemotron OCR v2を公開しました。これは単一のA100 GPUで毎秒34.7ページを処理する多言語OCRモデルです。PaddleOCR v5の28倍速です。モデルは単一のアーキテクチャで英語、中国語、日本語、韓国語、ロシア語をサポートし、言語検出は不要です。1,220万枚の合成画像でトレーニングされ、モデルとデータセットはNVIDIA Open ModelライセンスとCC-BY-4.0で提供されています。
AC/DCはICLR 2026で発表された新しいフレームワークで、モデルマージングを通じてLLMモデルを、合成データを通じてタスクを同時に進化させます。発見されたモデル群体はベンチマークを明示的に最適化せずに、手動でキュレーションされたモデルより広い専門知識カバレッジを実証します。モデルはより少ないGPUメモリで大きな同等品を上回り、LLMの継続的開発の新しいパラダイムを代表します。
Agentic Engineering とは、AI エージェントの群れがコードを書くだけでなく、ソフトウェアのライフサイクル全体を担うアプローチです。LangChain と Cisco のエンジニアである Renuka Kumar と Prashanth Ramagopal は、2026 年 4 月 17 日に Leader エージェントと Worker エージェントによる参照アーキテクチャを公開しました。70 名のユーザーと 512 セッションを対象にした Cisco のパイロットでは、バグの根本原因の特定時間が 93% 短縮され、開発ワークフローの実行時間が 65% 削減されました。
Owlgebra AI チームは 2026 年 4 月 16 日、HuggingFace ブログで Ecom-RLVE-Gym プロジェクトを公開しました。これは EC(電子商取引)向け対話エージェントのための 8 つの検証可能な環境を持つオープンフレームワークで、LLM による評価ではなく算法的な報酬を使用します。200 万件の商品カタログ、Qwen 3 8B モデル、そして 12 軸の適応型カリキュラムを用いてエージェントに段階的に難易度を上げながら学習させることで、複雑な多ステップフローにおける教師あり fine-tuning の限界に対応しています。
Claude DesignはAnthropicが開発した新製品で、Claude Opus 4.7をデザイン・プロトタイプ・プレゼンテーション・ワンページャー作成のための協調的なビジュアル制作ツールに変えます。システムはコードベースとデザインファイルからデザインシステムを自動的に読み取り、インラインコメントとスライダー調整をサポートし、実装のためにClaude Codeへ直接ハンドオフできます。2026年4月17日よりPro、Max、Team、Enterpriseプランのユーザー向けにリサーチプレビューとして公開されています。
AnthropicのリサーチャーたちはRAM設定とCPUヘッドルームがエージェントコーディングベンチマークの結果を6パーセントポイント変動させる可能性を証明しました——これはリーダーボード上位モデル間の差より大きいです。Terminal-Bench 2.0とSWE-benchでテストされました。推奨:eval設定が文書化・整合されるまで、3パーセントポイント未満の優位性は懐疑的に見るべきです。
GitHub は 2026 年 4 月 17 日、Copilot CLI ツールの AI 自動モデル選択機能がすべての Copilot プランで一般提供(GA)になったと発表しました。システムは管理者のポリシーに応じて、GPT-5.4、GPT-5.3-Codex、Sonnet 4.6、Haiku 4.5 などのモデルへリクエストを動的にルーティングします。有料ユーザーは Auto モードを使うとモデルのマルチプライヤーが 10% 割引になります——1x マルチプライヤーのモデルは 1 プレミアムリクエストではなく 0.9 として計算されます。
Metaは2025年末に推薦モデルのオフライントレーニングで有効トレーニング時間(ETT)90%超を達成した方法を発表しました。手法にはPyTorchエコシステムの40以上の新たな最適化、PT2コンパイル時間を40%短縮するMegaCache、ジョブあたり30分節約するスタンドアロンモデル発行、非同期チェックポイントが含まれます。改善はPyTorchとTorchRecを通じてオープンソース化されています。
Amazon Bedrockがこれより推論コストをIAMプリンシパル——APIを呼び出す特定のユーザー、ロール、またはフェデレーティッドアイデンティティ——ごとに追跡できるようになりました。この機能はAWS Cost and Usage Reports(CUR 2.0)およびCost Explorerと追加費用なしで統合されます。直接IAMユーザー、アプリケーションロール、フェデレーティッド認証、LLMゲートウェイプロキシパターンの4つのシナリオをサポートします。すべての商用AWSリージョンで利用可能です。