Google: Gemini Nano na Pixelu 50%+ brži uz zamrznutu multi-token predikciju
Google je ubrzao Gemini Nano inferenciju na Pixelu 9 i 10 za više od 50% korištenjem zamrznute multi-token predikcije — tehnike koja generira prosječno ~2 tokena po jednom prolazu kroz model, uz uštedu 130 MB memorije po instanci i bez ikakve promjene izlaznih rezultata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Kako zamrznuta MTP glava ubrzava Gemini Nano?
Multi-token predikcija (MTP) tehnika je kojom model u jednom prolazu generira prijedlog za nekoliko tokena unaprijed, umjesto standardnog pristupa koji proizvodi samo jedan token po pozivu. Google je primijenio zamrznutu varijantu: MTP glava cross-attenta na frozen KV cache (privremenu memoriju ključeva i vrijednosti) glavnog modela, bez posebnog računanja za drafter. Rezultat — prosječno ~2 dodatna tokena po prolazu — bit-for-bit je identičan izlazu originalnog modela.
Koliko brže i koliko jeftinije na uređaju?
Ubrzanje inferencije na Pixelu 9 iznosi više od 50% u usporedbi sa standalone drafter modelima — zasebnim manjim mrežama koje su dotad služile kao pomoćni generatori prijedloga. Uz brzinu, arhitektura donosi i memorijsku uštedu od 130 MB po instanci, što je kritično na mobilnim uređajima s ograničenim RAM-om. Za predvidljive strukture poput pametnih odgovora (Smart Replies) stopa prihvaćanja predloženih tokena iznosi 55% više nego kod standardnog pristupa.
Zero-copy arhitektura i primjena na Pixelu
Google je opisao pristup kao zero-copy arhitekturu: MTP glava dijeli KV predmemoriju s glavnim modelom bez kopiranja međurezultata, što eliminira jedan od glavnih uzroka memorijskog i računalnog overhead-a kod spekulativnog dekodiranja. Tehnika je već deployana na Pixel 9 i Pixel 10 za dvije funkcije: AI Notification Summaries (sažeci obavijesti) i Proofread (lektura teksta). Obje koriste lokalni, on-device model bez slanja podataka na oblak.
Širi kontekst: on-device AI bez kompromisa
Dosad su ubrzanja inferencije na mobilnim uređajima često zahtijevala zasebne, manje drafter modele koji uvode i dodatni memorijski trag i ponekad različite izlaze. Googleov pristup pokazuje da se frozen MTP glava može integrirati u postojeći Gemini Nano bez fine-tuninga od nule i bez gubitka točnosti — korak prema on-device AI koji je i brz i vjeran originalnom ponašanju modela.
Česta pitanja
- Što je multi-token predikcija i kako se razlikuje od standardnog generiranja?
- Standardni jezični modeli generiraju jedan token po pozivu; multi-token predikcija (MTP) koristi dodatne glave koje u jednom prolazu predlažu nekoliko tokena unaprijed, a glavni model ih prihvaća ili odbacuje — rezultat je identičan, ali inferencija je brža.
- Zašto je MTP glava zamrznuta i što to znači u praksi?
- Zamrzavanje (engl. frozen) znači da se težine MTP glave ne treniraju zajedno s glavnim modelom nego se uče jednom i ostaju fiksne; to omogućuje dijeljenje KV predmemorije s glavnim modelom bez ponovnog računanja, što donosi i ubrzanje i uštedu memorije.