AWS G7e Blackwell SageMaker: 4× jeftiniji AI inference

AWS G7e instance su nove SageMaker GPU instance s NVIDIA RTX PRO 6000 Blackwell čipom i 96 GB GDDR7 memorije koje donose do 2,3× bolji inference od G6e generacije. Trošak za Qwen3-32B pada s $2,06 na $0,79 po milijunu output tokena, a uz EAGLE spekulativno dekodiranje i do $0,41.

Što AWS donosi s G7e instancama?

AWS je 20. travnja 2026. najavio G7e, novu generaciju GPU instanci za Amazon SageMaker AI. Instance koriste NVIDIA RTX PRO 6000 Blackwell Server Edition s 96 GB GDDR7 memorije — dvostruko više memorije nego prethodna G6e generacija, uz brži i noviji memorijski standard.

Cilj G7e je jasan: omogućiti jeftiniji i brži inference velikih jezičnih modela na SageMakeru, platformi koja je standard za enterprise ML deployment u AWS-u.

Koliko su konkretno brže?

AWS-ovi benchmarki pokazuju do 2,3× bolji inference performans u odnosu na G6e za generativne modele. Konkretan primjer koji AWS iznosi je model Qwen3-32B:

G6e — $2,06 po milijunu output tokena
G7e — $0,79 po milijunu output tokena
G7e + EAGLE spekulativno dekodiranje — $0,41 po milijunu output tokena

Uz EAGLE (tehniku u kojoj draft model unaprijed predviđa tokene, a target model ih provjerava) cijena pada 4× u odnosu na G6e s istom tehnikom. Za produkcijske sustave koji generiraju milijarde tokena mjesečno to je razlika između tisuća i desetaka tisuća dolara.

Koje veličine modela podržava?

G7e dolazi u nekoliko konfiguracija:

g7e.2xlarge — 1 GPU, $4,20/h, podržava modele do 35B parametara (npr. Qwen3-32B, Llama-3.1-8B)
2 GPU varijanta — za modele do ~70B parametara
4 GPU varijanta — za još veće modele
8 GPU varijanta — do 300B parametara, za najveće open-source modele

Raspored pokriva cijelu skalu — od malih produkcijskih modela do granice onoga što se danas može samostalno poslužiti.

Što znači EFA mreža od 1.600 Gbps?

Za multi-GPU i multi-node deploymente ključna je mreža između instanci. G7e podržava EFA (Elastic Fabric Adapter) networking do 1.600 Gbps. EFA je AWS tehnologija koja omogućuje GPU-ima direktnu komunikaciju zaobilazeći klasični TCP/IP stog — kritično za distribuirani inference gdje se model dijeli između više uređaja.

U praksi to znači da se 300B model može servirati preko 8 GPU-a bez da mrežni bottleneck dominira latentnost, što je dosad bio problem na slabijim instance tipovima.

Implikacije za inference tržište

G7e mijenja ekonomiku self-hosted LLM inferencea. Dosad je bilo jeftinije koristiti dedicated inference providere poput Groqa, Togethera ili Fireworksa nego samostalno posluživati model na AWS-u. S cijenom od $0,41 po milijunu tokena, AWS se približava tim cijenama uz prednost pune kontrole nad modelom, fine-tuningom i privatnošću podataka.

Za enterprise kupce koji već imaju AWS ugovore i compliance zahtjeve, G7e postaje ozbiljna alternativa za produkcijski inference. Također stavlja pritisak na konkurentske inference providere — ako AWS može ponuditi sličnu cijenu uz jednostavnu SageMaker integraciju, diferencijacija mora ići preko druge dimenzije (latencija, SLA, dodatne značajke).

Česta pitanja

Koja je glavna razlika u odnosu na G6e?

G7e koristi NVIDIA RTX PRO 6000 Blackwell Server Edition s 96 GB GDDR7 memorije, što je dvostruko više od G6e. Više memorije znači da veći modeli stanu na manje GPU-a, a brža memorija znači bolji throughput. Kombinacija daje do 2,3× bolji inference performans.

Što je EFA networking i zašto je važan?

EFA (Elastic Fabric Adapter) je AWS high-throughput mrežna tehnologija koja povezuje GPU instance direktno, zaobilazeći standardni TCP/IP stog. Na G7e instancama postiže do 1.600 Gbps propusnosti, što je ključno za distribuirani inference velikih modela preko više GPU-a.

Znači li to da je self-hosted inference sada konkurentan Groq-u?

Djelomično. $0,41/M tokena s EAGLE-om je blizu cijena dedicated inference providera poput Groqa ili Togethera, ali njima ne treba upravljati infrastrukturom. G7e je zanimljiv kada trebaš kontrolu nad modelom, privatnost podataka ili fine-tuning — što SaaS inference ne nudi.

AWS G7e Blackwell instance: Qwen3-32B na SageMakeru za $0,41 po milijunu tokena — 4× jeftiniji inference