AWS G7e Blackwell-Instanzen: Qwen3-32B auf SageMaker für 0,41 $ pro Million Tokens — 4× günstigere Inferenz
Warum es wichtig ist
AWS G7e-Instanzen sind neue SageMaker-GPU-Instanzen mit dem NVIDIA RTX PRO 6000 Blackwell-Chip und 96 GB GDDR7-Speicher, die bis zu 2,3× bessere Inferenz als G6e bieten. Die Kosten für Qwen3-32B sinken von 2,06 $ auf 0,79 $ pro Million Output-Tokens, und mit EAGLE-spekultativem Decoding sogar auf 0,41 $.
Was bietet AWS mit den G7e-Instanzen?
AWS kündigte am 20. April 2026 G7e an — eine neue Generation von GPU-Instanzen für Amazon SageMaker AI. Die Instanzen verwenden die NVIDIA RTX PRO 6000 Blackwell Server Edition mit 96 GB GDDR7-Speicher — doppelt so viel Speicher wie die vorherige G6e-Generation, mit einem schnelleren und neueren Speicherstandard.
Das Ziel von G7e ist klar: günstigere und schnellere Inferenz großer Sprachmodelle auf SageMaker zu ermöglichen — der Plattform, die der Standard für Enterprise-ML-Deployment auf AWS ist.
Wie viel schneller sind sie?
AWS-Benchmarks zeigen bis zu 2,3× bessere Inferenzleistung gegenüber G6e für generative Modelle. Das konkrete Beispiel, das AWS nennt, ist das Modell Qwen3-32B:
- G6e — 2,06 $ pro Million Output-Tokens
- G7e — 0,79 $ pro Million Output-Tokens
- G7e + EAGLE spekulatives Decoding — 0,41 $ pro Million Output-Tokens
Mit EAGLE (einer Technik, bei der ein Draft-Modell Tokens im Voraus vorhersagt und ein Target-Modell sie überprüft) sinkt der Preis 4× gegenüber G6e mit derselben Technik. Für Produktionssysteme, die monatlich Milliarden von Tokens generieren, ist das der Unterschied zwischen Tausenden und Zehntausenden von Dollar.
Welche Modellgrößen werden unterstützt?
G7e ist in mehreren Konfigurationen erhältlich:
- g7e.2xlarge — 1 GPU, 4,20 $/h, unterstützt Modelle bis 35B Parameter (z. B. Qwen3-32B, Llama-3.1-8B)
- 2-GPU-Variante — für Modelle bis zu ~70B Parametern
- 4-GPU-Variante — für noch größere Modelle
- 8-GPU-Variante — bis zu 300B Parameter, für die größten Open-Source-Modelle
Das Angebot deckt die gesamte Skala ab — von kleinen Produktionsmodellen bis zur Grenze dessen, was heute selbst betrieben werden kann.
Was bedeutet ein EFA-Netzwerk mit 1.600 Gbps?
Für Multi-GPU- und Multi-Node-Deployments ist das Netzwerk zwischen Instanzen entscheidend. G7e unterstützt EFA-Networking (Elastic Fabric Adapter) bis zu 1.600 Gbps. EFA ist eine AWS-Technologie, die GPUs die direkte Kommunikation unter Umgehung des klassischen TCP/IP-Stacks ermöglicht — kritisch für verteilte Inferenz, bei der ein Modell auf mehrere Geräte aufgeteilt wird.
In der Praxis bedeutet das, dass ein 300B-Modell über 8 GPUs hinweg bereitgestellt werden kann, ohne dass das Netzwerk zum Engpass für die Latenz wird — was bisher bei schwächeren Instanztypen ein Problem war.
Implikationen für den Inferenzmarkt
G7e verändert die Ökonomie der selbst gehosteten LLM-Inferenz. Bislang war es günstiger, dedizierte Inferenz-Anbieter wie Groq, Together oder Fireworks zu nutzen, als ein Modell selbst auf AWS zu hosten. Mit einem Preis von 0,41 $ pro Million Tokens nähert sich AWS diesen Preisen und bietet dabei den Vorteil der vollen Modellkontrolle, des Fine-Tunings und des Datenschutzes.
Für Enterprise-Kunden, die bereits AWS-Verträge und Compliance-Anforderungen haben, wird G7e zu einer ernsthaften Alternative für Produktions-Inferenz. Es setzt auch Druck auf konkurrierende Inferenz-Anbieter — wenn AWS einen ähnlichen Preis mit einfacher SageMaker-Integration anbieten kann, muss die Differenzierung über eine andere Dimension erfolgen (Latenz, SLA, zusätzliche Funktionen).
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Gemma 4 läuft als Vision Language Agent lokal auf Jetson Orin Nano Super
NVIDIA und Google Cloud kündigen Zusammenarbeit für Agentic AI und Physical AI auf gemeinsamer Infrastruktur an
Google stellt 8. TPU-Generation vor: zwei spezialisierte Varianten für die Ära der agentischen KI