AWS G7e Blackwell instance: Qwen3-32B na SageMakeru za $0,41 po milijunu tokena — 4× jeftiniji inference
AWS G7e instance su nove SageMaker GPU instance s NVIDIA RTX PRO 6000 Blackwell čipom i 96 GB GDDR7 memorije koje donose do 2,3× bolji inference od G6e generacije. Trošak za Qwen3-32B pada s $2,06 na $0,79 po milijunu output tokena, a uz EAGLE spekulativno dekodiranje i do $0,41.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što AWS donosi s G7e instancama?
AWS je 20. travnja 2026. najavio G7e, novu generaciju GPU instanci za Amazon SageMaker AI. Instance koriste NVIDIA RTX PRO 6000 Blackwell Server Edition s 96 GB GDDR7 memorije — dvostruko više memorije nego prethodna G6e generacija, uz brži i noviji memorijski standard.
Cilj G7e je jasan: omogućiti jeftiniji i brži inference velikih jezičnih modela na SageMakeru, platformi koja je standard za enterprise ML deployment u AWS-u.
Koliko su konkretno brže?
AWS-ovi benchmarki pokazuju do 2,3× bolji inference performans u odnosu na G6e za generativne modele. Konkretan primjer koji AWS iznosi je model Qwen3-32B:
- G6e — $2,06 po milijunu output tokena
- G7e — $0,79 po milijunu output tokena
- G7e + EAGLE spekulativno dekodiranje — $0,41 po milijunu output tokena
Uz EAGLE (tehniku u kojoj draft model unaprijed predviđa tokene, a target model ih provjerava) cijena pada 4× u odnosu na G6e s istom tehnikom. Za produkcijske sustave koji generiraju milijarde tokena mjesečno to je razlika između tisuća i desetaka tisuća dolara.
Koje veličine modela podržava?
G7e dolazi u nekoliko konfiguracija:
- g7e.2xlarge — 1 GPU, $4,20/h, podržava modele do 35B parametara (npr. Qwen3-32B, Llama-3.1-8B)
- 2 GPU varijanta — za modele do ~70B parametara
- 4 GPU varijanta — za još veće modele
- 8 GPU varijanta — do 300B parametara, za najveće open-source modele
Raspored pokriva cijelu skalu — od malih produkcijskih modela do granice onoga što se danas može samostalno poslužiti.
Što znači EFA mreža od 1.600 Gbps?
Za multi-GPU i multi-node deploymente ključna je mreža između instanci. G7e podržava EFA (Elastic Fabric Adapter) networking do 1.600 Gbps. EFA je AWS tehnologija koja omogućuje GPU-ima direktnu komunikaciju zaobilazeći klasični TCP/IP stog — kritično za distribuirani inference gdje se model dijeli između više uređaja.
U praksi to znači da se 300B model može servirati preko 8 GPU-a bez da mrežni bottleneck dominira latentnost, što je dosad bio problem na slabijim instance tipovima.
Implikacije za inference tržište
G7e mijenja ekonomiku self-hosted LLM inferencea. Dosad je bilo jeftinije koristiti dedicated inference providere poput Groqa, Togethera ili Fireworksa nego samostalno posluživati model na AWS-u. S cijenom od $0,41 po milijunu tokena, AWS se približava tim cijenama uz prednost pune kontrole nad modelom, fine-tuningom i privatnošću podataka.
Za enterprise kupce koji već imaju AWS ugovore i compliance zahtjeve, G7e postaje ozbiljna alternativa za produkcijski inference. Također stavlja pritisak na konkurentske inference providere — ako AWS može ponuditi sličnu cijenu uz jednostavnu SageMaker integraciju, diferencijacija mora ići preko druge dimenzije (latencija, SLA, dodatne značajke).
Česta pitanja
- Koja je glavna razlika u odnosu na G6e?
- G7e koristi NVIDIA RTX PRO 6000 Blackwell Server Edition s 96 GB GDDR7 memorije, što je dvostruko više od G6e. Više memorije znači da veći modeli stanu na manje GPU-a, a brža memorija znači bolji throughput. Kombinacija daje do 2,3× bolji inference performans.
- Što je EFA networking i zašto je važan?
- EFA (Elastic Fabric Adapter) je AWS high-throughput mrežna tehnologija koja povezuje GPU instance direktno, zaobilazeći standardni TCP/IP stog. Na G7e instancama postiže do 1.600 Gbps propusnosti, što je ključno za distribuirani inference velikih modela preko više GPU-a.
- Znači li to da je self-hosted inference sada konkurentan Groq-u?
- Djelomično. $0,41/M tokena s EAGLE-om je blizu cijena dedicated inference providera poput Groqa ili Togethera, ali njima ne treba upravljati infrastrukturom. G7e je zanimljiv kada trebaš kontrolu nad modelom, privatnost podataka ili fine-tuning — što SaaS inference ne nudi.
Povezane vijesti
AMD: Gluon block-level model omogućuje GEMM kernele s 5.255 TFLOPS MXFP4 na Instinct MI355
AMD: ROCm 7.13 donosi MI350P GPU, multi-VF virtualizaciju i TheRock pakiranje
AMD ROCm: BubbleFence dijeli video streamove embeddingom iz Vision Foundation modela umjesto metadata heuristika