AMD Primus Projection:InstinctGPUクラスターでLLMトレーニングを開始する前にメモリと速度を予測するツール
AMD Primus ProjectionはInstinct GPUクラスターでLLMトレーニングを開始する前にメモリ要件とスループットを予測するツールです。分析式と実際のGPUベンチマークを組み合わせ、LlamaとMixtralモデルに対するMI325XとMI355Xアクセラレーターでの予測誤差は約10%以内です。
9 件
AMD Primus ProjectionはInstinct GPUクラスターでLLMトレーニングを開始する前にメモリ要件とスループットを予測するツールです。分析式と実際のGPUベンチマークを組み合わせ、LlamaとMixtralモデルに対するMI325XとMI355Xアクセラレーターでの予測誤差は約10%以内です。
GoogleはCloud Next '26カンファレンスでTPU 8i(AIエージェント推論用)とTPU 8t(最も複雑なモデルのトレーニング用)という2つの新世代TPUチップを発表しました。この動きはGoogleのTPUラインを「エージェント時代」のコンピューティングにおける2つの専門的なブランチに正式に分割するものです。
NVIDIAとGoogle CloudはNVIDIAのGPUインフラとGoogle Cloudプラットフォームを組み合わせ、ロボティクス、自律型システム、エージェントの分野でエージェンティックAIとフィジカルAIのワークロードを加速する共同協力を発表しました。
NVIDIAとHuggingFaceは、Gemma 4がNVIDIA Jetson Orin Nano Super(8GBメモリ)上でVision Language Agent(VLA)として完全にローカルで動作するデモを披露しました。カメラ使用の自律判断から音声認識とTTSを含む完全なパイプライン処理まで、クラウド依存なしにすべてが実行されます。
GoogleはCloud Next '26カンファレンスにて、第8世代TPUチップを2つの専用バリアントとして発表しました。モデルのトレーニング向けのTPU 8tと、エージェント型推論向けのTPU 8iです。自律型AIエージェントとマルチステップ推論を主用途として設計された初めての世代となります。
AWS G7e インスタンスは、NVIDIA RTX PRO 6000 Blackwellチップと96GB GDDR7メモリを搭載した新しいSageMaker GPUインスタンスで、G6e世代比で最大2.3倍の推論性能向上をもたらします。Qwen3-32Bのコストは100万出力トークンあたり2.06ドルから0.79ドルに下がり、EAGLEを使ったSpeculative Decodingを組み合わせると最低0.41ドルまで下がります。
Amazon Web ServicesはAWS TrainiumチップとvLLMフレームワークを組み合わせたSpeculative Decodingの詳細な実装を発表し、デコード集約型ワークロードでトークン生成が最大3倍速くなることを実証しました。この技術は小さなドラフトモデルが次のNトークンを予測し、大きなターゲットモデルが1回のパスで一括検証することで、逐次生成のボトルネックを解消します。
NVIDIAはトークンあたりのコストがAIインフラにとって唯一関連するメトリクスであると主張する分析を発表しました。BlackwellとHopper世代の比較では、BlackwellはGPU時間あたりのコストが2倍高いものの、毎秒65倍のトークンを生成し、百万トークンあたりのコストが35倍低くなります——Hopperの4.20ドルに対して0.12ドル。
NVIDIAは2026年のNational Robotics Weekの一環として、シミュレーションから現実への移行のベンチマークであるRoboLab、Toyota Research Institute、Mimic Robotics、Doosan Roboticsとの協業、そしてIsaac Lab-Arenaのようなロボティクスポリシー評価のオープンリソースを含む、フィジカルAIの新プロジェクトを複数発表しました。