Was ist der Hauptunterschied gegenüber G6e?

G7e verwendet die NVIDIA RTX PRO 6000 Blackwell Server Edition mit 96 GB GDDR7-Speicher — doppelt so viel wie G6e. Mehr Speicher bedeutet, dass größere Modelle auf weniger GPUs passen, und schnellerer Speicher bedeutet besseren Durchsatz. Die Kombination liefert bis zu 2,3× bessere Inferenzleistung.

Was ist EFA-Networking und warum ist es wichtig?

EFA (Elastic Fabric Adapter) ist AWSs Hochdurchsatz-Netzwerktechnologie, die GPU-Instanzen direkt verbindet und den Standard-TCP/IP-Stack umgeht. Auf G7e-Instanzen erreicht sie bis zu 1.600 Gbps Bandbreite, was für die verteilte Inferenz großer Modelle über mehrere GPUs hinweg entscheidend ist.

Bedeutet das, dass selbst gehostete Inferenz jetzt mit Groq konkurrenzfähig ist?

Teilweise. 0,41 $/M Tokens mit EAGLE liegt nahe an den Preisen dedizierter Inferenz-Anbieter wie Groq oder Together, aber bei diesen muss keine Infrastruktur verwaltet werden. G7e ist interessant, wenn Sie Modellkontrolle, Datenschutz oder Fine-Tuning benötigen — Dinge, die SaaS-Inferenz nicht bietet.

AWS G7e Blackwell SageMaker: 4× günstigere KI-Inferenz

Was bietet AWS mit den G7e-Instanzen?

AWS kündigte am 20. April 2026 G7e an — eine neue Generation von GPU-Instanzen für Amazon SageMaker AI. Die Instanzen verwenden die NVIDIA RTX PRO 6000 Blackwell Server Edition mit 96 GB GDDR7-Speicher — doppelt so viel Speicher wie die vorherige G6e-Generation, mit einem schnelleren und neueren Speicherstandard.

Das Ziel von G7e ist klar: günstigere und schnellere Inferenz großer Sprachmodelle auf SageMaker zu ermöglichen — der Plattform, die der Standard für Enterprise-ML-Deployment auf AWS ist.

Wie viel schneller sind sie?

AWS-Benchmarks zeigen bis zu 2,3× bessere Inferenzleistung gegenüber G6e für generative Modelle. Das konkrete Beispiel, das AWS nennt, ist das Modell Qwen3-32B:

G6e — 2,06 $ pro Million Output-Tokens
G7e — 0,79 $ pro Million Output-Tokens
G7e + EAGLE spekulatives Decoding — 0,41 $ pro Million Output-Tokens

Mit EAGLE (einer Technik, bei der ein Draft-Modell Tokens im Voraus vorhersagt und ein Target-Modell sie überprüft) sinkt der Preis 4× gegenüber G6e mit derselben Technik. Für Produktionssysteme, die monatlich Milliarden von Tokens generieren, ist das der Unterschied zwischen Tausenden und Zehntausenden von Dollar.

Welche Modellgrößen werden unterstützt?

G7e ist in mehreren Konfigurationen erhältlich:

g7e.2xlarge — 1 GPU, 4,20 $/h, unterstützt Modelle bis 35B Parameter (z. B. Qwen3-32B, Llama-3.1-8B)
2-GPU-Variante — für Modelle bis zu ~70B Parametern
4-GPU-Variante — für noch größere Modelle
8-GPU-Variante — bis zu 300B Parameter, für die größten Open-Source-Modelle

Das Angebot deckt die gesamte Skala ab — von kleinen Produktionsmodellen bis zur Grenze dessen, was heute selbst betrieben werden kann.

Was bedeutet ein EFA-Netzwerk mit 1.600 Gbps?

Für Multi-GPU- und Multi-Node-Deployments ist das Netzwerk zwischen Instanzen entscheidend. G7e unterstützt EFA-Networking (Elastic Fabric Adapter) bis zu 1.600 Gbps. EFA ist eine AWS-Technologie, die GPUs die direkte Kommunikation unter Umgehung des klassischen TCP/IP-Stacks ermöglicht — kritisch für verteilte Inferenz, bei der ein Modell auf mehrere Geräte aufgeteilt wird.

In der Praxis bedeutet das, dass ein 300B-Modell über 8 GPUs hinweg bereitgestellt werden kann, ohne dass das Netzwerk zum Engpass für die Latenz wird — was bisher bei schwächeren Instanztypen ein Problem war.

Implikationen für den Inferenzmarkt

G7e verändert die Ökonomie der selbst gehosteten LLM-Inferenz. Bislang war es günstiger, dedizierte Inferenz-Anbieter wie Groq, Together oder Fireworks zu nutzen, als ein Modell selbst auf AWS zu hosten. Mit einem Preis von 0,41 $ pro Million Tokens nähert sich AWS diesen Preisen und bietet dabei den Vorteil der vollen Modellkontrolle, des Fine-Tunings und des Datenschutzes.

Für Enterprise-Kunden, die bereits AWS-Verträge und Compliance-Anforderungen haben, wird G7e zu einer ernsthaften Alternative für Produktions-Inferenz. Es setzt auch Druck auf konkurrierende Inferenz-Anbieter — wenn AWS einen ähnlichen Preis mit einfacher SageMaker-Integration anbieten kann, muss die Differenzierung über eine andere Dimension erfolgen (Latenz, SLA, zusätzliche Funktionen).

AWS G7e Blackwell-Instanzen: Qwen3-32B auf SageMaker für 0,41 $ pro Million Tokens — 4× günstigere Inferenz

Was bietet AWS mit den G7e-Instanzen?

Wie viel schneller sind sie?

Welche Modellgrößen werden unterstützt?

Was bedeutet ein EFA-Netzwerk mit 1.600 Gbps?

Implikationen für den Inferenzmarkt

Quellen

Verwandte Nachrichten