🔧 ハードウェア

19 件

🟢 🔧 ハードウェア 2026年5月23日 · 4 分で読めます

AMD:GluonブロックレベルモデルでInstinct MI355のMXFP4 5.255 TFLOPSを実現

編集イラスト:行列ユニットとパイプラインを持つGPUアクセラレータ

AMD ROCmチームがMI355 GPU向けGluonプログラミングモデルで高性能GEMMカーネルを作成するチュートリアルを公開しました。最適化されたFP16カーネルはMFMA効率98.75%で1.489 TFLOPSを達成し、BF8(3.257 TFLOPS)およびMXFP4(5.255 TFLOPS)への拡張は現代のAIワークロードへの有効性を示しています。チュートリアルにはL2キャッシュミスを530万から410万に削減するワークグループリマッピングとswizzleが含まれています。

🟡 🔧 ハードウェア 2026年5月21日 · 2 分で読めます

AMD:ROCm 7.13がMI350P GPU、マルチVF仮想化、TheRockモジュラーパッケージを導入

Editorial illustration: AMD ROCm 7.13がMI350P GPU、マルチVF仮想化、TheRockモジュラーパッケージを導入

AMDは2026年5月20日、オープンソースAIコンピュートスタックの新バージョンROCm 7.13を発表しました。MI350P GPUのサポート、MI300Xアクセラレーター1基あたり最大8つの分離vGPUによる仮想化、透明性のあるパフォーマンス分析のためのオープンソースROCprof Traceデコーダー、ドメイン固有SDKを備えたモジュラーTheRockパッケージングが新たに導入されます。Ubuntu 26.04とRHEL 9.6で検証済みで、MI350XとMI355XのVMware ESXi 9.1サポートも含まれます。

🟢 🔧 ハードウェア 2026年5月16日 · 4 分で読めます

AMD ROCm: BubbleFenceがメタデータヒューリスティックの代わりにVision Foundation Modelの埋め込みでビデオストリームを分割

Editorial illustration: 2D空間での埋め込みバブル可視化を持つビデオフレーム。

BubbleFenceは、AMDが2026年5月15日にROCmブログで発表した新しいAIツールで、意味的漏洩なしにビデオストリームを訓練/検証/テストセットに意味的に分割するという根本的なML問題を解決します。従来のメタデータベースのヒューリスティックの代わりに、BubbleFenceはVision Foundation Modelの埋め込み(CLIP)とLID重み付けを持つ適応バブルを使用して分割します。構成変更なしに自動運転(Zenseact Open Dataset)とMinecraftゲームプレイシナリオで実証されました。

🟢 🔧 ハードウェア 2026年5月15日 · 3 分で読めます

AMD ROCm: Quark + FlyDSL + AITER 推論スタックを通じた MI325X での Kimi-K2.5 W4A8 および W8A8 量子化

編集イラスト:W4A8 量子化レイヤーと推論加速アイコンを持つ AMD MI325X GPU の図。

AMD ROCm Kimi-K2.5 の MI325X 向け量子化は、2026 年 5 月 14 日に公開された新しい推論加速ブループリントです。AMD Quark 量子化ツールキットで Kimi-K2.5 モデルを W4A8 および W8A8 精度フォーマットに変換し、FlyDSL 推論サービングレイヤーと AITER 最適化スタックを組み合わせます。このアプローチは中国のフロンティアモデルに非 NVIDIA の推論パスを提供し、MI325X をオープンソース LLM サービングの H100/H200 の実行可能な代替として位置づける AMD の戦略を示しています。

🟡 🔧 ハードウェア 2026年5月12日 · 2 分で読めます

AMD: Instinct MI355X が ComfyUI ワークフロー 3 種で NVIDIA B200 を上回る——ROCm 7.2.0 の PyTorch 最適化が寄与

Editorial illustration: Instinct MI355X が ComfyUI ワークフロー 3 種で NVIDIA B200 を上回る——ROCm 7.2.0 の PyTorch 最適化が寄与

AMD Instinct MI355X はデータセンター GPU で、発表されたベンチマークで 3 つの ComfyUI 生成ワークフロー——テキストtoビデオ Wan2.2(1.44×)・テキストto画像 FLUX.1-dev(1.42×)・3D Hunyuan3D v2.1(1.20×)——において NVIDIA B200 を上回りました。ROCm 7.2.0 の AOTriton gfx950 カーネル・hipBLASLt GEMM チューニング・その他最適化によって実現しています。

🟡 🔧 ハードウェア 2026年5月12日 · 2 分で読めます

NVIDIA: Fleet Intelligence——大規模 GPU フリートの暗号学的整合性検証付きリアルタイム監視

Editorial illustration: Fleet Intelligence——大規模 GPU フリートの暗号学的整合性検証付きリアルタイム監視

NVIDIA Fleet Intelligence は、大規模な NVIDIA データセンター GPU フリートをリアルタイムで監視するマネージドサービスです——電力・温度・パフォーマンス・ECC エラーを監視し、NVIDIA Remote Attestation Service による GPU の暗号学的真正性確認を行います。Vera Rubin・Blackwell・Hopper GPU の所有者は無料で利用できます。

🟡 🔧 ハードウェア 2026年5月11日 · 2 分で読めます

vLLM: TurboQuant研究でFP8がKV-cacheで依然優位——3bit-ncは精度が約20ポイント低下

Editorial illustration: TurboQuant研究でFP8がKV-cacheで依然優位——3bit-ncは精度が約20ポイント低下

Red Hat AIチームはTurboQuantによる攻撃的なKV-cache量子化(3〜4ビット)とFP8標準を体系的に比較しました。結果はFP8がスループットと精度を維持する一方、3bit-nc変種がAIME25などの高難易度推論ベンチマークで約20ポイントの精度低下を示すことを明らかにしています。

🔴 🔧 ハードウェア 2026年5月7日 · 3 分で読めます

NVIDIA:Spectrum-X マルチパス信頼性接続がOCPオープン標準となり、ギガスケールAIネットワークへ

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X マルチパス信頼性接続(MRC)は、単一接続のトラフィックを複数のネットワークパスに分散させるRDMAトランスポートプロトコルで、Open Compute Projectを通じてオープン仕様として公開されました。MRCはすでにOpenAI、MicrosoftのFairwaterデータセンター、OracleのAbileneデータセンターで本番稼働しており、AMD・Broadcom・Intel・Microsoftとの共同開発で生まれました。

🟡 🔧 ハードウェア 2026年5月6日 · 2 分で読めます

AMD: FarSkip-Collective が AMD GPU 上の MoE 推論を 18〜34% 高速化

編集イラスト:アイドルブロックなしでの MoE 推論中に AMD GPU 間を流れる並列データストリーム

AMD ROCm チームが FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル時間を解消する改良型 MoE アーキテクチャです。結果:Llama-4 Scout の TTFT が 18% 短縮、DeepSeek-V3 で最大 1.34× の高速化、Moonlight の事前学習フェーズが 11% 高速化。

🟡 🔧 ハードウェア 2026年5月5日 · 3 分で読めます

ArXiv SAGA:AIエージェント向けワークフロー原子化GPUスケジューリング、64-GPUクラスターでタスク完了を1.64倍高速化、HPDC 2026採択

編集イラスト:原子的単位として接続されたエージェントワークフローを持つGPUクラスター、スケジューリングの象徴

Dongxin Guo、Jikun Wu、Siu Ming Yiuのチームは2026年5月1日、SAGA——GPUクラスター上のAIエージェント向けワークフロー原子化スケジューラーを発表しました。個々のLLM呼び出しではなく、エージェントのワークフロー全体を単一のスケジュール可能な単位として扱います。64-GPUクラスターでタスク完了時間の幾何平均1.64倍削減、マルチテナント負荷下でSLO達成率99.2%を実現します。論文はHPDC 2026(クリーブランド、2026年7月13-16日)に採択されました。

🟢 🔧 ハードウェア 2026年4月25日 · 3 分で読めます

AMD Primus Projection:InstinctGPUクラスターでLLMトレーニングを開始する前にメモリと速度を予測するツール

編集イラスト:AMD Primus Projection——LLMトレーニング予測

AMD Primus ProjectionはInstinct GPUクラスターでLLMトレーニングを開始する前にメモリ要件とスループットを予測するツールです。分析式と実際のGPUベンチマークを組み合わせ、LlamaとMixtralモデルに対するMI325XとMI355Xアクセラレーターでの予測誤差は約10%以内です。

🟢 🔧 ハードウェア 2026年4月24日 · 3 分で読めます

GoogleがCloud Next '26でTPU 8iとTPU 8tを発表:エージェントAIコンピューティング向け専用チップ

エディトリアルイラスト:Google TPU 8iと8t——専用AIチップ

GoogleはCloud Next '26カンファレンスでTPU 8i(AIエージェント推論用)とTPU 8t(最も複雑なモデルのトレーニング用)という2つの新世代TPUチップを発表しました。この動きはGoogleのTPUラインを「エージェント時代」のコンピューティングにおける2つの専門的なブランチに正式に分割するものです。

🟡 🔧 ハードウェア 2026年4月23日 · 3 分で読めます

NVIDIAとGoogle Cloudが共同インフラ上でエージェンティックAIとフィジカルAIの協力を発表

エディトリアルイラスト:AIチップ——hardware

NVIDIAとGoogle CloudはNVIDIAのGPUインフラとGoogle Cloudプラットフォームを組み合わせ、ロボティクス、自律型システム、エージェントの分野でエージェンティックAIとフィジカルAIのワークロードを加速する共同協力を発表しました。

🟢 🔧 ハードウェア 2026年4月23日 · 3 分で読めます

Gemma 4がNVIDIA Jetson Orin Nano Superでローカル動作するVision Language Agentとして実証

エディトリアルイラスト:AIチップ — hardware

NVIDIAとHuggingFaceは、Gemma 4がNVIDIA Jetson Orin Nano Super(8GBメモリ)上でVision Language Agent(VLA)として完全にローカルで動作するデモを披露しました。カメラ使用の自律判断から音声認識とTTSを含む完全なパイプライン処理まで、クラウド依存なしにすべてが実行されます。

🔴 🔧 ハードウェア 2026年4月22日 · 3 分で読めます

Googleが第8世代TPUチップを発表:エージェント型AI時代に向けた2つの専用バリアント

エディトリアルイラスト:エージェント型AIワークロードのトレーニングと推論向けの第8世代2種類のTPUチップ

GoogleはCloud Next '26カンファレンスにて、第8世代TPUチップを2つの専用バリアントとして発表しました。モデルのトレーニング向けのTPU 8tと、エージェント型推論向けのTPU 8iです。自律型AIエージェントとマルチステップ推論を主用途として設計された初めての世代となります。

🟡 🔧 ハードウェア 2026年4月21日 · 3 分で読めます

AWS G7e Blackwellインスタンス:SageMakerでQwen3-32Bが100万トークンあたり0.41ドル——推論コスト4倍削減

NVIDIA Blackwell GPUとGDDR7メモリモジュールを備えたデータセンターの編集用イラスト

AWS G7e インスタンスは、NVIDIA RTX PRO 6000 Blackwellチップと96GB GDDR7メモリを搭載した新しいSageMaker GPUインスタンスで、G6e世代比で最大2.3倍の推論性能向上をもたらします。Qwen3-32Bのコストは100万出力トークンあたり2.06ドルから0.79ドルに下がり、EAGLEを使ったSpeculative Decodingを組み合わせると最低0.41ドルまで下がります。

🟡 🔧 ハードウェア 2026年4月16日 · 2 分で読めます

AWS:TrainiumチップでのSpeculative DecodingがLLM推論を最大3倍高速化

Amazon Web ServicesはAWS TrainiumチップとvLLMフレームワークを組み合わせたSpeculative Decodingの詳細な実装を発表し、デコード集約型ワークロードでトークン生成が最大3倍速くなることを実証しました。この技術は小さなドラフトモデルが次のNトークンを予測し、大きなターゲットモデルが1回のパスで一括検証することで、逐次生成のボトルネックを解消します。

🟢 🔧 ハードウェア 2026年4月16日 · 2 分で読めます

NVIDIA:BlackwellはHopperより35倍安価にトークンを生成——トークンあたりのコストが唯一の指標

NVIDIAはトークンあたりのコストがAIインフラにとって唯一関連するメトリクスであると主張する分析を発表しました。BlackwellとHopper世代の比較では、BlackwellはGPU時間あたりのコストが2倍高いものの、毎秒65倍のトークンを生成し、百万トークンあたりのコストが35倍低くなります——Hopperの4.20ドルに対して0.12ドル。

🟡 🔧 ハードウェア 2026年4月10日 · 2 分で読めます

NVIDIAがNational Robotics WeekでRoboLabベンチマークと新たなフィジカルAIプロジェクトを発表

NVIDIAは2026年のNational Robotics Weekの一環として、シミュレーションから現実への移行のベンチマークであるRoboLab、Toyota Research Institute、Mimic Robotics、Doosan Roboticsとの協業、そしてIsaac Lab-Arenaのようなロボティクスポリシー評価のオープンリソースを含む、フィジカルAIの新プロジェクトを複数発表しました。