🤖 24 AI
🟡 🏥 U praksi četvrtak, 23. travnja 2026. · 3 min čitanja

AWS i NVIDIA Parakeet-TDT donose transkripciju za 25 jezika po cijeni od 0,00005 USD po minuti

Editorial illustration: AI u praksi — praksa

Zašto je bitno

AWS Machine Learning blog opisao je kako koristiti NVIDIA-in open-source model Parakeet-TDT-0.6B-v3 za jeftinu višejezičnu transkripciju zvuka u oblaku. Model pokriva 25 europskih jezika uz automatsku detekciju, a u kombinaciji s AWS Batchom obrada jedne minute zvuka košta svega 0,00005 USD na Spot instancama, odnosno 0,00011 USD na on-demand g6.xlarge GPU-ima, uz scale-to-zero politiku i mogućnost obrade audio zapisa duljih od deset sati kroz buffered streaming.

Open-source model s automatskom detekcijom 25 jezika

AWS Machine Learning tim objavio je detaljnu recept-arhitekturu koja koristi NVIDIA-in open-source automatski prepoznavač govora Parakeet-TDT-0.6B-v3 za višejezičnu transkripciju zvuka u velikim količinama. Model s 600 milijuna parametara objavljen je pod otvorenom licencom i izravno pokriva 25 europskih jezika, od hrvatskoga i srpskoga do ukrajinskoga i finskoga, uz ugrađenu automatsku detekciju jezika. To znači da korisnik ne mora unaprijed označavati jezik svake snimke, nego model sam prepoznaje izvor i vraća transkripciju.

Za tvrtke koje obrađuju multikulturalne sadržaje, primjerice medijske arhive, kontaktne centre, webinare ili podcasteve, izostanak obavezne predklasifikacije jezika znači znatno manje posla na ulazu podataka. Dodatna prednost je što je model dovoljno malen da se može izvršavati na jednom potrošačkom GPU-u, što ga čini prikladnim za masovne batch obrade gdje bi veliki transformerski modeli bili preskupi.

AWS Batch i scale-to-zero ekonomija

AWS-ova preporučena arhitektura kombinira Parakeet-TDT s AWS Batch servisom na GPU instancama tipa g6.xlarge. Ključni moment te arhitekture je scale-to-zero politika: kada nema poslova u redu čekanja, klaster se automatski spušta na nula GPU instanci, pa korisnik ne plaća ništa osim pohrane. Čim u red stigne novi audio zapis, Batch automatski podiže instancu, pokreće obradu i vraća transkripcijski rezultat u S3 bucket.

Ekonomika je uvjerljiva: 0,00011 USD po minuti zvuka u on-demand režimu i samo 0,00005 USD po minuti uz Spot instance. Konkretno, sat vremena audio zapisa u Spot režimu košta oko tri desetine američkog centa, što je red veličine jeftinije od komercijalnih transkripcijskih API-ja. Tekst blog-posta izričito ističe da kombinacija Spot instanci i scale-to-zero pristupa drastično smanjuje fiksne troškove, osobito za organizacije koje povremeno obrađuju velike arhive.

Buffered streaming za duge zapise i radni tempo

Jedan od tehničkih izazova govornih modela jest ograničena kontekstna duljina, zbog koje duge snimke treba ručno dijeliti na segmente. AWS je u ovom receptu implementirao buffered streaming mehanizam koji omogućuje obradu audio zapisa dužih od deset sati bez ručnog rezanja. Model klizno obrađuje zvuk u prozorima i spaja transkripte na logičnim granicama, što je ključno za podcaste, dugačka predavanja i snimke konferencija.

Što se tiče brzine, izvještaj navodi da je prosječno vrijeme obrade 0,49 sekundi po jednoj minuti ulaznog zvuka, dakle oko 120 puta brže od stvarnog vremena na jednom GPU-u. To znači da deset sati audio zapisa Parakeet-TDT obradi za otprilike pet minuta, uz trošak od približno 0,03 USD u Spot režimu. Za redakcije, pravne urede ili transkripcijske timove takva brzina i cijena mijenjaju poslovni model — transkripcija više nije usko grlo nego gotovo besplatan korak u pipelineu.

Što ovo znači za hrvatske korisnike

Podrška za hrvatski jezik ugrađena u Parakeet-TDT znači da domaće tvrtke i mediji po prvi put imaju pristup kvalitetnoj open-source transkripciji uz trošak koji je zanemariv čak i za dnevne volumene u stotinama sati. Za medijske kuće to otvara mogućnost automatskog titlanja arhivskih emisija, za pravne urede jeftinu obradu snimaka ročišta, a za obrazovne institucije transkripciju predavanja u realnom vremenu. Budući da je model open-source, nema dobavljačkog zaključavanja — isti recept moguće je prenijeti na vlastite GPU poslužitelje ili na druge cloud platforme, dokle god su dostupne GPU instance i S3 kompatibilna pohrana.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.