Ollama 0.30: llama.cpp, GGUF und bis zu 20 % schneller

Ollama 0.30 bringt die Integration mit llama.cpp für bessere Leistung und GGUF-Modellkompatibilität, mit einem bis zu 20 % höheren Durchsatz auf NVIDIA-GPUs. Es erweitert die Hardware-Unterstützung mit Vulkan auf AMD- und Intel-Geräten und fügt Unterstützung für Tool-Calling hinzu. Es ergänzt die bestehende MLX-Engine für Apple Silicon.

Ollama veröffentlichte am 5. Juni 2026 in seinem Blog die Version Ollama 0.30, die die Integration mit llama.cpp, die Unterstützung für das GGUF-Format und deutlich bessere Leistung in den Vordergrund stellt. Es ist ein bedeutender Schritt für das beliebte Werkzeug zur lokalen Ausführung von Sprachmodellen, das mit dieser Version sowohl die Geschwindigkeit als auch den Umfang der unterstützten Hardware erweitert.

Was bringt die Integration mit llama.cpp und GGUF?

Die zentrale Neuerung der Version ist die Integration mit llama.cpp, einem weit verbreiteten Open-Source-Projekt zur Ausführung (Inferenz) von Sprachmodellen. Diese Integration bringt bessere Leistung und, ebenso wichtig, die GGUF-Kompatibilität der Modelle.

GGUF ist ein Dateiformat zur Speicherung quantisierter (komprimierter) Modelle, das in der Community sehr verbreitet ist. Mit seiner Unterstützung ermöglicht Ollama 0.30 den Nutzern, eine große Zahl von Modellen, die bereits in diesem Format existieren, einfach auszuführen, womit der Katalog verfügbarer Modelle erheblich erweitert wird.

Wie viel schneller ist Ollama 0.30?

Die Leistungsgewinne sind konkret. Dank der neuen Integration erreicht Ollama 0.30 einen bis zu 20 % höheren Durchsatz auf NVIDIA-GPUs. Für Nutzer, die Modelle lokal auf solcher Hardware ausführen, bedeutet das spürbar schnellere Antworten und eine bessere Auslastung der Grafikkarten.

Geschwindigkeit ist nicht die einzige Verbesserung auf der Hardwareseite. Die Version erweitert die Hardware-Unterstützung durch die Aktivierung von Vulkan — einer Grafik- und Compute-API — auf AMD- und Intel-Geräten. Damit erstreckt sich die beschleunigte Ausführung über das NVIDIA-Ökosystem hinaus auf eine größere Bandbreite von Computern.

Welche neuen Modellfamilien werden unterstützt?

Ollama 0.30 fügt die Kompatibilität mit mehreren neuen Modellfamilien hinzu. Darunter sind LFM, Prism sowie Unsloth fine-tuned Modelle, die von Hugging Face verfügbar sind, der größten Plattform zum Teilen von Modellen.

Diese Erweiterung knüpft direkt an die GGUF-Unterstützung an: Da ein großer Teil der Community fein abgestimmter Modelle gerade in diesem Format veröffentlicht ist, erhalten Nutzer einen einfachen Weg zu einer vielfältigen Auswahl angepasster Modelle ohne zusätzliche Konvertierungen.

Was ist mit Apple Silicon und Tool-Calling?

Für Nutzer von Apple-Hardware ergänzt die Version die bestehende MLX-Engine für Apple Silicon. Damit ersetzt Ollama nicht, sondern erweitert die Verfügbarkeit auf vielfältige Hardware — von Apple-Chips über NVIDIA-GPUs bis hin zu AMD- und Intel-Geräten.

Die letzte hervorgehobene Neuerung ist die Unterstützung für Tool-Calling (Werkzeugaufruf), die es dem Modell ermöglicht, während des Betriebs externe Funktionen aufzurufen. Das eröffnet die Integration mit Coding-Agenten und Assistenten direkt aus der Befehlszeile, sodass lokal ausgeführte Modelle komplexere, werkzeuggestützte Aufgaben erledigen können — etwa das Abrufen von Daten, das Ausführen von Skripten oder die Arbeit mit lokalen Werkzeugen, ohne Anfragen in die Cloud zu senden.

All das macht Ollama 0.30 zu einer abgerundeten Version: Die Integration mit llama.cpp und die GGUF-Unterstützung erweitern den Modellkatalog, ein um bis zu 20 % höherer Durchsatz und Vulkan beschleunigen die Ausführung auf mehr Hardware-Arten, und Tool-Calling eröffnet leistungsfähigere, agentengestützte Szenarien. Durch die Kombination aus schnellerer Ausführung, breiterer Hardware-Unterstützung und Tool-Calling macht Ollama 0.30 lokale KI zugleich schneller und leistungsfähiger und behält dabei den Datenschutzvorteil, der sich aus der Ausführung von Modellen auf dem eigenen Computer ergibt.

Häufig gestellte Fragen

Was ist GGUF und warum ist seine Unterstützung wichtig?

GGUF ist ein Dateiformat zur Speicherung quantisierter Sprachmodelle, das in der Open-Source-Community weit verbreitet ist. Die GGUF-Unterstützung in Ollama 0.30 bedeutet, dass Nutzer eine große Zahl von Modellen, die in diesem Format verfügbar sind, einfacher ausführen können, einschließlich zahlreicher fein abgestimmter Modelle von Hugging Face.

Wie viel schneller ist Ollama 0.30?

Dank der Integration mit llama.cpp erreicht Ollama 0.30 einen bis zu 20 Prozent höheren Durchsatz auf NVIDIA-GPUs. Zudem erweitert es durch die Aktivierung von Vulkan die Hardware-Unterstützung auf AMD- und Intel-Geräte und beschleunigt so die Arbeit auf einer größeren Bandbreite von Computern.

Was bringt die Unterstützung für Tool-Calling?

Tool-Calling (Werkzeugaufruf) ermöglicht es dem Modell, während der Antwortgenerierung externe Funktionen und Werkzeuge aufzurufen. In Ollama 0.30 eröffnet das die direkte Integration mit Coding-Agenten und Assistenten aus der Befehlszeile, sodass lokal ausgeführte Modelle komplexere, werkzeuggestützte Aufgaben erledigen können.

Ollama 0.30: Integration mit llama.cpp, GGUF-Unterstützung und bis zu 20 % schnellere Inferenz

Was bringt die Integration mit llama.cpp und GGUF?

Wie viel schneller ist Ollama 0.30?

Welche neuen Modellfamilien werden unterstützt?

Was ist mit Apple Silicon und Tool-Calling?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten