🤖 24 AI
🔴 🔧 Hardware srijeda, 22. travnja 2026. · 3 min čitanja

Google predstavio 8. generaciju TPU čipova: dvije specijalizirane varijante za agentic AI eru

Editorial ilustracija: Dva specijalizirana TPU cipa 8. generacije za treniranje i inferenciju agentic AI workloada

Zašto je bitno

Google je na Cloud Next '26 konferenciji predstavio osmu generaciju svojih TPU čipova u dvije specijalizirane varijante — TPU 8t za treniranje modela i TPU 8i za agentic inference. Prva je to generacija posebno dizajnirana za autonomne AI agente i multi-step rezoniranje.

Google predstavio 8. generaciju TPU čipova: dvije varijante za agentic AI eru

Google je 22. travnja 2026. na svojoj Cloud Next ‘26 konferenciji predstavio osmu generaciju TPU (Tensor Processing Unit) čipova. Prvi put u povijesti linije, Google nudi dvije specijalizirane varijante — jednu za treniranje, drugu za inference autonomnih AI agenata.

Koje dvije varijante TPU-a Google nudi?

Nove čipove Google je nazvao TPU 8t i TPU 8i, gdje slovne oznake označavaju primarne workloade. TPU 8t (training) usmjeren je na treniranje složenih modela i raspolaže velikim jedinstvenim memorijskim bazenom, što omogućuje smještaj velikih modela bez razbijanja na više čvorova.

TPU 8i (inference) je, s druge strane, dizajniran za ono što Google naziva „agentic era” — svijet u kojem autonomni AI agenti moraju provoditi multi-step rezoniranje, planiranje i izvršavanje zadataka u stvarnom vremenu. Specijalizacija znači da se inference workloadi više ne izvršavaju na čipovima optimiziranim za training, što bi trebalo smanjiti latenciju i povećati ekonomičnost za AI agent produkte.

Google naglašava da je ovo prva generacija TPU-ova posebno dizajnirana s agentic AI-em kao glavnim use case-om, a ne kao nusproduktom training hardvera.

Zašto agentic AI zahtijeva drugačiji hardver?

Klasični chatbot ili generativni AI model generira odgovor u jednom prolazu kroz neuronsku mrežu. Agentic sustavi, međutim, rade potpuno drugačije — agent planira zadatak, poziva alate, obrađuje rezultate, ponovno rezonira i tako u krug, ponekad desetke puta po jednom korisničkom upitu.

Takav obrazac rada znači da latencija pojedinog inference poziva postaje kritična. Ako svaki korak agenta traje 2 sekunde, deset koraka znači 20 sekundi čekanja — neprihvatljivo za interaktivne aplikacije. Google tvrdi da je TPU 8i optimiziran upravo za ovaj obrazac: brza, responsive inference za multi-step workflow-e.

Druga razlika je u ekonomiji. Pri agentic upotrebi, broj inference poziva može biti 10-50 puta veći od klasične generativne upotrebe, pa je cijena po tokenu mnogo važnija. Namjenski inference čip teoretski troši manje energije po inference pozivu od čipa dizajniranog za training.

Što ovo znači za Google Cloud i konkurenciju?

Objava dolazi u trenutku kada Nvidia dominira AI hardverskim tržištem s Blackwell i sljedećim generacijama, a AMD agresivno gura MI serije. Googleov pristup s dvije specijalizirane varijante pokušaj je da se razlikuje po use case optimizaciji, a ne samo po sirovim performansama.

Google naglašava „full-stack purpose-built infrastrukturu” — kombinaciju čipova, networkinga, data centara i energetske efikasnosti koja treba isporučiti „responsive agentic AI u masovnom obujmu”. TPU 8t i 8i dolaze isključivo kroz Google Cloud, što znači da klijenti poput Anthropica (koji koristi TPU-e za Claude modele) i Google-ovih vlastitih Gemini modela dobivaju direktnu korist.

Ostaje za vidjeti hoće li Google objaviti konkretne benchmark brojeve i cijene po inference pozivu. Za sada, objava je više strategijska — signal da je agentic AI zrelio do točke na kojoj opravdava vlastitu generaciju hardvera, a ne samo novi software sloj iznad postojećih čipova.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.