🤖 24 AI
🟡 🔧 Hardware utorak, 21. travnja 2026. · 3 min čitanja

AWS G7e Blackwell instance: Qwen3-32B na SageMakeru za $0,41 po milijunu tokena — 4× jeftiniji inference

Editorial ilustracija podatkovnog centra s NVIDIA Blackwell GPU-ima i GDDR7 memorijskim modulima

Zašto je bitno

AWS G7e instance su nove SageMaker GPU instance s NVIDIA RTX PRO 6000 Blackwell čipom i 96 GB GDDR7 memorije koje donose do 2,3× bolji inference od G6e generacije. Trošak za Qwen3-32B pada s $2,06 na $0,79 po milijunu output tokena, a uz EAGLE spekulativno dekodiranje i do $0,41.

Što AWS donosi s G7e instancama?

AWS je 20. travnja 2026. najavio G7e, novu generaciju GPU instanci za Amazon SageMaker AI. Instance koriste NVIDIA RTX PRO 6000 Blackwell Server Edition s 96 GB GDDR7 memorije — dvostruko više memorije nego prethodna G6e generacija, uz brži i noviji memorijski standard.

Cilj G7e je jasan: omogućiti jeftiniji i brži inference velikih jezičnih modela na SageMakeru, platformi koja je standard za enterprise ML deployment u AWS-u.

Koliko su konkretno brže?

AWS-ovi benchmarki pokazuju do 2,3× bolji inference performans u odnosu na G6e za generativne modele. Konkretan primjer koji AWS iznosi je model Qwen3-32B:

  • G6e$2,06 po milijunu output tokena
  • G7e$0,79 po milijunu output tokena
  • G7e + EAGLE spekulativno dekodiranje$0,41 po milijunu output tokena

Uz EAGLE (tehniku u kojoj draft model unaprijed predviđa tokene, a target model ih provjerava) cijena pada 4× u odnosu na G6e s istom tehnikom. Za produkcijske sustave koji generiraju milijarde tokena mjesečno to je razlika između tisuća i desetaka tisuća dolara.

Koje veličine modela podržava?

G7e dolazi u nekoliko konfiguracija:

  • g7e.2xlarge — 1 GPU, $4,20/h, podržava modele do 35B parametara (npr. Qwen3-32B, Llama-3.1-8B)
  • 2 GPU varijanta — za modele do ~70B parametara
  • 4 GPU varijanta — za još veće modele
  • 8 GPU varijantado 300B parametara, za najveće open-source modele

Raspored pokriva cijelu skalu — od malih produkcijskih modela do granice onoga što se danas može samostalno poslužiti.

Što znači EFA mreža od 1.600 Gbps?

Za multi-GPU i multi-node deploymente ključna je mreža između instanci. G7e podržava EFA (Elastic Fabric Adapter) networking do 1.600 Gbps. EFA je AWS tehnologija koja omogućuje GPU-ima direktnu komunikaciju zaobilazeći klasični TCP/IP stog — kritično za distribuirani inference gdje se model dijeli između više uređaja.

U praksi to znači da se 300B model može servirati preko 8 GPU-a bez da mrežni bottleneck dominira latentnost, što je dosad bio problem na slabijim instance tipovima.

Implikacije za inference tržište

G7e mijenja ekonomiku self-hosted LLM inferencea. Dosad je bilo jeftinije koristiti dedicated inference providere poput Groqa, Togethera ili Fireworksa nego samostalno posluživati model na AWS-u. S cijenom od $0,41 po milijunu tokena, AWS se približava tim cijenama uz prednost pune kontrole nad modelom, fine-tuningom i privatnošću podataka.

Za enterprise kupce koji već imaju AWS ugovore i compliance zahtjeve, G7e postaje ozbiljna alternativa za produkcijski inference. Također stavlja pritisak na konkurentske inference providere — ako AWS može ponuditi sličnu cijenu uz jednostavnu SageMaker integraciju, diferencijacija mora ići preko druge dimenzije (latencija, SLA, dodatne značajke).

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.