Ollama 0.30:llama.cppとの統合、GGUFサポート、最大20%高速な推論
Ollama 0.30は、より良い性能とモデルのGGUF互換性のためのllama.cppとの統合をもたらし、NVIDIA GPUで最大20%高速なスループットを実現する。VulkanによりAMDおよびIntelデバイスへハードウェアサポートを拡張し、ツール呼び出しのサポートを追加する。Appleシリコン向けの既存のMLXエンジンを補完する。
この記事はAIにより一次情報源から生成されました。
Ollamaは2026年6月5日、自社のブログでリリースOllama 0.30を公開した。これはllama.cppとの統合、形式GGUFのサポート、そして大幅に向上した性能を前面に押し出す。これは言語モデルをローカルで実行する人気のツールにとって重要な一歩であり、このリリースで速度とサポートされるハードウェアの範囲の両方を拡張する。
llama.cppとGGUFとの統合は何をもたらすか?
リリースの中心的な新機軸は、言語モデルの実行(推論)のための広く使われたオープンソースプロジェクトであるllama.cppとの統合である。この統合はより良い性能をもたらし、同じく重要なこととして、モデルのGGUF互換性をもたらす。
GGUFは、量子化(圧縮)されたモデルを保存するためのファイル形式で、コミュニティで非常に広く普及している。そのサポートにより、Ollama 0.30はユーザーがその形式ですでに存在する多数のモデルを簡単に実行できるようにし、これにより利用可能なモデルのカタログが大幅に拡張される。
Ollama 0.30はどれだけ速いか?
性能の利得は具体的である。新しい統合のおかげで、Ollama 0.30はNVIDIA GPUで最大20%高速なスループット(throughput)を達成する。そのようなハードウェアでモデルをローカルで実行するユーザーにとって、これは体感的に速い応答とグラフィックカードのより良い活用を意味する。
速度はハードウェア面における唯一の改善ではない。このリリースは、AMDおよびIntelデバイスでVulkan — グラフィックおよびcompute API — を有効にすることで、ハードウェアサポートを拡張する。これにより、高速化された実行がNVIDIAのエコシステムを超えてより広い範囲のコンピュータへ広がる。
どのような新しいモデルファミリーがサポートされるか?
Ollama 0.30はいくつかの新しいモデルファミリーとの互換性を追加する。そのなかには、LFM、Prism、そしてモデル共有の最大のプラットフォームであるHugging Faceから入手可能なUnsloth fine-tunedモデルがある。
この拡張はGGUFサポートに直接つながる。コミュニティのファインチューニング済みモデルの大部分がまさにその形式で公開されているため、ユーザーは追加の変換なしに多様な選択肢のカスタマイズされたモデルへの簡単な道を得る。
Appleシリコンとツール呼び出しはどうか?
Appleのハードウェアのユーザー向けに、このリリースはAppleシリコン用の既存のMLXエンジンを補完する。こうしてOllamaは置き換えるのではなく、Appleチップから、NVIDIA GPU、AMDおよびIntelデバイスまで、多様なハードウェアへ利用可能性を広げる。
最後の際立った新機軸はツール呼び出し(tool-calling)のサポートであり、これはモデルが動作中に外部の関数を呼び出すことを可能にする。これはコマンドラインから直接、コーディングエージェントやアシスタントとの統合を開くため、ローカルで実行されるモデルがツールに支援されたより複雑な課題 — 例えばデータの取得、スクリプトの実行、あるいはクラウドへ問い合わせを送ることなくローカルツールを扱うこと — を遂行できる。
以上のすべてがOllama 0.30を完結したリリースにする。llama.cppとの統合とGGUFサポートはモデルのカタログを広げ、最大20%高速なスループットとVulkanは複数の種類のハードウェアでの実行を高速化し、ツール呼び出しはより有能でエージェントに支援されたシナリオを開く。より速い実行、より広いハードウェアサポート、ツール呼び出しの組み合わせにより、Ollama 0.30はローカルAIを同時により速くより有能にし、その際、モデルを自分のコンピュータで実行することがもたらすプライバシーの利点を保持している。
よくある質問
- GGUFとは何ですか、そしてそのサポートはなぜ重要ですか?
- GGUFは、オープンソースコミュニティで広く使われている、量子化された言語モデルを保存するためのファイル形式です。Ollama 0.30におけるGGUFのサポートは、Hugging Faceからの数多くのファインチューニング済みモデルを含む、その形式で利用可能な多数のモデルを、ユーザーがより簡単に実行できることを意味します。
- Ollama 0.30はどれだけ速いですか?
- llama.cppとの統合のおかげで、Ollama 0.30はNVIDIA GPUで最大20パーセント高速なスループット(throughput)を達成します。さらに、Vulkanを有効にすることでハードウェアサポートをAMDおよびIntelデバイスへ拡張し、より広い範囲のコンピュータでの動作を高速化します。
- ツール呼び出しのサポートは何をもたらしますか?
- ツール呼び出し(tool-calling)は、モデルが回答の生成中に外部の関数やツールを呼び出すことを可能にします。Ollama 0.30ではこれが、コーディングエージェントやコマンドラインのアシスタントとの直接統合を開くため、ローカルで実行されるモデルがより複雑な、ツールに支援された課題を遂行できるようになります。