AMD Primus Projection: Instinct GPU 클러스터에서 LLM 훈련 시작 전 메모리와 속도를 예측하는 도구
AMD Primus Projection은 Instinct GPU 클러스터에서 LLM 훈련을 시작하기 전에 메모리 요구 사항과 처리량을 예측하는 도구입니다. 분석 공식과 실제 GPU 벤치마크를 결합하며, MI325X와 MI355X 가속기에서 Llama와 Mixtral 모델에 대한 예측 오차는 약 10% 이내입니다.
9 개 뉴스
AMD Primus Projection은 Instinct GPU 클러스터에서 LLM 훈련을 시작하기 전에 메모리 요구 사항과 처리량을 예측하는 도구입니다. 분석 공식과 실제 GPU 벤치마크를 결합하며, MI325X와 MI355X 가속기에서 Llama와 Mixtral 모델에 대한 예측 오차는 약 10% 이내입니다.
Google이 Cloud Next '26 컨퍼런스에서 두 가지 새로운 세대의 TPU 칩을 발표했습니다: AI 에이전트 추론용 TPU 8i와 가장 복잡한 모델 훈련용 TPU 8t. 이 발표는 Google의 TPU 라인을 「에이전트 시대」 컴퓨팅의 두 가지 전문 브랜치로 공식 분리합니다.
NVIDIA와 Google Cloud는 NVIDIA GPU 인프라와 Google Cloud 플랫폼을 결합하여 로보틱스, 자율 시스템, 에이전트 분야의 에이전트 AI 및 피지컬 AI 워크로드를 가속화하는 공동 협력을 발표했습니다.
NVIDIA와 HuggingFace는 Gemma 4가 8GB 메모리를 갖춘 NVIDIA Jetson Orin Nano Super에서 비전 언어 에이전트(VLA)로서 카메라 사용을 자율적으로 결정하고 음성 인식과 TTS를 포함한 전체 파이프라인 처리를 클라우드 의존 없이 로컬에서 수행하는 것을 시연했습니다.
구글은 Cloud Next '26 컨퍼런스에서 8세대 TPU 칩을 두 가지 특화 변형으로 공개했습니다. 모델 학습용 TPU 8t와 에이전트형 추론용 TPU 8i입니다. 자율형 AI 에이전트와 다단계 추론을 주요 사용 사례로 설계된 최초의 세대입니다.
AWS G7e 인스턴스는 NVIDIA RTX PRO 6000 Blackwell 칩과 96GB GDDR7 메모리를 탑재한 새로운 SageMaker GPU 인스턴스로, G6e 세대 대비 최대 2.3배 향상된 추론 성능을 제공합니다. Qwen3-32B의 비용은 백만 출력 토큰당 2.06달러에서 0.79달러로 낮아지며, EAGLE 투기적 디코딩과 결합하면 0.41달러까지 가능합니다.
Amazon Web Services가 AWS Trainium 칩과 vLLM 프레임워크를 결합한 Speculative Decoding의 상세한 구현을 발표하며, 디코드 집약적 워크로드에서 토큰 생성 속도를 최대 3배 향상시켰습니다. 이 기술은 소규모 초안 모델이 다음 N개의 토큰을 예측하고 대규모 목표 모델이 단일 패스에서 한꺼번에 검증하여 순차적 생성의 병목을 제거합니다.
NVIDIA가 토큰당 비용이 AI 인프라에서 유일하게 관련된 지표임을 주장하는 분석을 발표했습니다. Blackwell과 Hopper 세대 비교에서 Blackwell은 GPU 시간당 비용이 2배 높지만 초당 65배 더 많은 토큰을 생성하여, 백만 토큰당 비용이 35배 낮아집니다——Hopper의 4.20달러 대비 0.12달러.
NVIDIA는 2026년 National Robotics Week의 일환으로 시뮬레이션에서 현실로의 전이를 위한 RoboLab 벤치마크, Toyota Research Institute, Mimic Robotics, Doosan Robotics와의 협업, 그리고 Isaac Lab-Arena와 같은 로봇 정책 평가를 위한 오픈 리소스를 포함한 다수의 새로운 피지컬 AI 프로젝트를 공개했습니다.