AMD Primus Projection:在Instinct GPU集群上启动LLM训练前预测内存和速度的工具
AMD Primus Projection是一款在Instinct GPU集群上启动LLM训练前预测内存需求和吞吐量的工具。它结合分析公式与真实GPU基准测试,在MI325X和MI355X加速器上针对Llama和Mixtral模型的预测误差约在10%以内。
9 条新闻
AMD Primus Projection是一款在Instinct GPU集群上启动LLM训练前预测内存需求和吞吐量的工具。它结合分析公式与真实GPU基准测试,在MI325X和MI355X加速器上针对Llama和Mixtral模型的预测误差约在10%以内。
Google在Cloud Next '26大会上发布了两款新一代TPU芯片:面向AI智能体推理的TPU 8i和面向最复杂模型训练的TPU 8t。此举正式将Google的TPU产品线划分为「智能体时代」计算的两个专业分支。
NVIDIA和Google Cloud宣布合作,将NVIDIA GPU基础设施与Google Cloud平台相结合,加速机器人、自主系统和智能体领域的智能体AI和实体AI工作负载。
NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体(VLA),在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头,并在本地完成包含语音识别和TTS在内的完整处理流水线,无需依赖云端。
谷歌在Cloud Next '26大会上发布了第八代TPU芯片,推出两种专用变体——用于模型训练的TPU 8t和用于智能体推理的TPU 8i。这是该系列首款专为自主AI智能体和多步推理而设计的芯片。
AWS G7e实例是搭载NVIDIA RTX PRO 6000 Blackwell芯片和96GB GDDR7内存的新型SageMaker GPU实例,相较G6e一代推理性能提升最高2.3倍。Qwen3-32B的成本从每百万输出令牌2.06美元降至0.79美元,配合EAGLE推测解码最低可达0.41美元。
亚马逊云服务(AWS)发布了在AWS Trainium芯片上结合vLLM框架实现推测解码的详细方案,对于解码密集型工作负载实现了高达3倍的令牌生成速度提升。该技术使用较小的草稿模型预测下N个令牌,而较大的目标模型在单次前向传播中一次性验证所有令牌,消除了顺序生成的瓶颈。
NVIDIA发布了一项分析,论证每令牌成本是AI基础设施唯一相关的指标。Blackwell与Hopper世代的比较显示,Blackwell每GPU小时成本高出两倍,但每秒生成令牌数多65倍,导致每百万令牌成本低35倍——0.12美元对比Hopper的4.20美元。
NVIDIA在2026年National Robotics Week期间推出了一系列新的物理AI项目,包括RoboLab——用于模拟到现实迁移的基准测试、与Toyota Research Institute、Mimic Robotics和Doosan Robotics的合作,以及用于机器人策略评估的开放资源(如Isaac Lab-Arena)。