AWS G7e Blackwell instance: Qwen3-32B na SageMakeru za $0,41 po milijunu tokena — 4× jeftiniji inference
Zašto je bitno
AWS G7e instance su nove SageMaker GPU instance s NVIDIA RTX PRO 6000 Blackwell čipom i 96 GB GDDR7 memorije koje donose do 2,3× bolji inference od G6e generacije. Trošak za Qwen3-32B pada s $2,06 na $0,79 po milijunu output tokena, a uz EAGLE spekulativno dekodiranje i do $0,41.
Što AWS donosi s G7e instancama?
AWS je 20. travnja 2026. najavio G7e, novu generaciju GPU instanci za Amazon SageMaker AI. Instance koriste NVIDIA RTX PRO 6000 Blackwell Server Edition s 96 GB GDDR7 memorije — dvostruko više memorije nego prethodna G6e generacija, uz brži i noviji memorijski standard.
Cilj G7e je jasan: omogućiti jeftiniji i brži inference velikih jezičnih modela na SageMakeru, platformi koja je standard za enterprise ML deployment u AWS-u.
Koliko su konkretno brže?
AWS-ovi benchmarki pokazuju do 2,3× bolji inference performans u odnosu na G6e za generativne modele. Konkretan primjer koji AWS iznosi je model Qwen3-32B:
- G6e — $2,06 po milijunu output tokena
- G7e — $0,79 po milijunu output tokena
- G7e + EAGLE spekulativno dekodiranje — $0,41 po milijunu output tokena
Uz EAGLE (tehniku u kojoj draft model unaprijed predviđa tokene, a target model ih provjerava) cijena pada 4× u odnosu na G6e s istom tehnikom. Za produkcijske sustave koji generiraju milijarde tokena mjesečno to je razlika između tisuća i desetaka tisuća dolara.
Koje veličine modela podržava?
G7e dolazi u nekoliko konfiguracija:
- g7e.2xlarge — 1 GPU, $4,20/h, podržava modele do 35B parametara (npr. Qwen3-32B, Llama-3.1-8B)
- 2 GPU varijanta — za modele do ~70B parametara
- 4 GPU varijanta — za još veće modele
- 8 GPU varijanta — do 300B parametara, za najveće open-source modele
Raspored pokriva cijelu skalu — od malih produkcijskih modela do granice onoga što se danas može samostalno poslužiti.
Što znači EFA mreža od 1.600 Gbps?
Za multi-GPU i multi-node deploymente ključna je mreža između instanci. G7e podržava EFA (Elastic Fabric Adapter) networking do 1.600 Gbps. EFA je AWS tehnologija koja omogućuje GPU-ima direktnu komunikaciju zaobilazeći klasični TCP/IP stog — kritično za distribuirani inference gdje se model dijeli između više uređaja.
U praksi to znači da se 300B model može servirati preko 8 GPU-a bez da mrežni bottleneck dominira latentnost, što je dosad bio problem na slabijim instance tipovima.
Implikacije za inference tržište
G7e mijenja ekonomiku self-hosted LLM inferencea. Dosad je bilo jeftinije koristiti dedicated inference providere poput Groqa, Togethera ili Fireworksa nego samostalno posluživati model na AWS-u. S cijenom od $0,41 po milijunu tokena, AWS se približava tim cijenama uz prednost pune kontrole nad modelom, fine-tuningom i privatnošću podataka.
Za enterprise kupce koji već imaju AWS ugovore i compliance zahtjeve, G7e postaje ozbiljna alternativa za produkcijski inference. Također stavlja pritisak na konkurentske inference providere — ako AWS može ponuditi sličnu cijenu uz jednostavnu SageMaker integraciju, diferencijacija mora ići preko druge dimenzije (latencija, SLA, dodatne značajke).
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Gemma 4 pokrenut kao Vision Language Agent lokalno na Jetson Orin Nano Super
NVIDIA i Google Cloud najavili suradnju za agentic AI i physical AI na zajedničkoj infrastrukturi
Google predstavio 8. generaciju TPU čipova: dvije specijalizirane varijante za agentic AI eru