Ollama 0.30: llama.cpp, GGUF i do 20% brži inference

Ollama 0.30 donosi integraciju s llama.cpp za bolje performanse i GGUF kompatibilnost modela, uz do 20% bržu propusnost na NVIDIA GPU-ovima. Proširuje hardversku podršku Vulkanom na AMD i Intel uređajima te dodaje podršku za tool-calling. Nadopunjuje postojeći MLX engine za Apple silicij.

Ollama je 5. lipnja 2026. na svom blogu objavila izdanje Ollama 0.30, koje u prvi plan stavlja integraciju s llama.cpp, podršku za format GGUF i znatno bolje performanse. Riječ je o značajnom koraku za popularni alat za lokalno pokretanje jezičnih modela, koji ovim izdanjem proširuje i brzinu i raspon podržanog hardvera.

Što donosi integracija s llama.cpp i GGUF?

Središnja novost izdanja je integracija s llama.cpp, široko korištenim open-source projektom za izvođenje (inference) jezičnih modela. Ta integracija donosi bolje performanse i, što je jednako važno, GGUF kompatibilnost modela.

GGUF je format datoteke za pohranu kvantiziranih (sažetih) modela, vrlo raširen u zajednici. Njegovom podrškom Ollama 0.30 korisnicima omogućuje da jednostavno pokreću velik broj modela koji već postoje u tom formatu, čime se znatno proširuje katalog dostupnih modela.

Koliko je Ollama 0.30 brža?

Performansni dobici su konkretni. Zahvaljujući novoj integraciji, Ollama 0.30 postiže do 20% bržu propusnost (throughput) na NVIDIA GPU-ovima. Za korisnike koji lokalno pokreću modele na takvom hardveru to znači osjetno brže odgovore i bolju iskoristivost grafičkih kartica.

Brzina nije jedino poboljšanje na strani hardvera. Izdanje proširuje hardversku podršku omogućavanjem Vulkana — grafičkog i compute API-ja — na AMD i Intel uređajima. Time se ubrzano izvođenje proteže izvan NVIDIA ekosustava na širi raspon računala.

Koje nove obitelji modela su podržane?

Ollama 0.30 dodaje kompatibilnost s nekoliko novih familija modela. Među njima su LFM, Prism te Unsloth fine-tuned modeli dostupni s Hugging Facea, najveće platforme za dijeljenje modela.

Ovo proširenje izravno se nadovezuje na GGUF podršku: budući da je velik dio zajednice fine-tuned modela objavljen upravo u tom formatu, korisnici dobivaju jednostavan put do raznolikog izbora prilagođenih modela bez dodatnih konverzija.

Što je s Apple silicijem i tool-callingom?

Za korisnike Appleova hardvera, izdanje nadopunjuje postojeći MLX engine za Apple silicij. Time Ollama ne zamjenjuje, već širi dostupnost na raznolik hardver — od Apple čipova preko NVIDIA GPU-ova do AMD i Intel uređaja.

Posljednja istaknuta novost je podrška za tool-calling (pozivanje alata), koja modelu omogućuje da tijekom rada poziva vanjske funkcije. To otvara integraciju s coding agentima i asistentima izravno iz komandne linije, pa lokalno pokrenuti modeli mogu obavljati složenije zadatke potpomognute alatima — primjerice dohvaćanje podataka, pokretanje skripti ili rad s lokalnim alatima bez slanja upita u oblak.

Sve navedeno čini Ollama 0.30 zaokruženim izdanjem: integracija s llama.cpp i GGUF podrška šire katalog modela, do 20% brža propusnost i Vulkan ubrzavaju izvođenje na više vrsta hardvera, a tool-calling otvara sposobnije, agentima potpomognute scenarije. Kombinacijom bržeg izvođenja, šire hardverske podrške i pozivanja alata, Ollama 0.30 lokalni AI čini istovremeno bržim i sposobnijim, zadržavajući pritom prednost privatnosti koju donosi pokretanje modela na vlastitom računalu.

Česta pitanja

Što je GGUF i zašto je njegova podrška važna?

GGUF je format datoteke za pohranu kvantiziranih jezičnih modela, široko korišten u open-source zajednici. Podrška za GGUF u Ollami 0.30 znači da korisnici mogu lakše pokretati velik broj modela dostupnih u tom formatu, uključujući brojne fine-tuned modele s Hugging Facea.

Koliko je Ollama 0.30 brža?

Zahvaljujući integraciji s llama.cpp, Ollama 0.30 postiže do 20 posto bržu propusnost (throughput) na NVIDIA GPU-ovima. Uz to, omogućavanjem Vulkana proširuje hardversku podršku na AMD i Intel uređaje, čime ubrzava rad na širem rasponu računala.

Što donosi podrška za tool-calling?

Tool-calling (pozivanje alata) omogućuje modelu da poziva vanjske funkcije i alate tijekom generiranja odgovora. U Ollami 0.30 to otvara izravnu integraciju s coding agentima i asistentima iz komandne linije, pa lokalno pokrenuti modeli mogu obavljati složenije, alatima potpomognute zadatke.

Ollama 0.30: integracija s llama.cpp, GGUF podrška i do 20% brži inference

Što donosi integracija s llama.cpp i GGUF?

Koliko je Ollama 0.30 brža?

Koje nove obitelji modela su podržane?

Što je s Apple silicijem i tool-callingom?

Česta pitanja

Izvori

Povezane vijesti