Ollama 0.30：llama.cpp、GGUF 与高达 20% 的推理提速

Ollama 0.30 带来了与 llama.cpp 的集成以提升性能，以及 GGUF 模型兼容性，在 NVIDIA GPU 上吞吐量提升高达 20%。它通过 Vulkan 将硬件支持扩展到 AMD 和 Intel 设备，并新增了对 tool-calling 的支持。它补充了面向 Apple silicon 的现有 MLX 引擎。

Ollama 于 2026 年 6 月 5 日在其博客上发布了 Ollama 0.30 版本，该版本将与 llama.cpp 的集成、对 GGUF 格式的支持以及显著提升的性能置于核心位置。对于这款广受欢迎的本地运行语言模型的工具而言，这是重要的一步，本次发布同时扩展了它的速度和所支持硬件的范围。

与 llama.cpp 和 GGUF 的集成带来了什么？

本次发布的核心创新是与 llama.cpp 的集成，这是一个被广泛使用的、用于执行（inference）语言模型的开源项目。该集成带来了更好的性能，以及同等重要的模型 GGUF 兼容性。

GGUF 是一种用于存储量化（压缩）模型的文件格式，在社区中极为普及。通过对它的支持，Ollama 0.30 让用户能够轻松运行该格式中已有的大量模型，从而显著扩展了可用模型的目录。

Ollama 0.30 快了多少？

性能收益是具体的。得益于这一新的集成，Ollama 0.30 在 NVIDIA GPU 上实现了高达 20% 的吞吐量（throughput）提升。对于在此类硬件上本地运行模型的用户而言，这意味着明显更快的回答以及对显卡更好的利用。

速度并非硬件方面唯一的改进。本次发布通过在 AMD 和 Intel 设备上启用 Vulkan——一个图形与计算 API——扩展了硬件支持。由此，加速执行从 NVIDIA 生态系统延伸到了更广泛的计算机上。

支持哪些新的模型家族？

Ollama 0.30 新增了对若干新模型家族的兼容。其中包括来自 Hugging Face（最大的模型共享平台）的 LFM、Prism 以及 Unsloth fine-tuned 模型。

这一扩展直接承接了 GGUF 支持：由于社区中很大一部分微调模型正是以该格式发布的，用户得以无需额外转换便可便捷地获取丰富多样的定制模型。

Apple silicon 和 tool-calling 方面如何？

对于 Apple 硬件的用户，本次发布补充了面向 Apple silicon 的现有 MLX 引擎。由此，Ollama 并未取代，而是将可用性扩展到多样化的硬件——从 Apple 芯片，经由 NVIDIA GPU，到 AMD 和 Intel 设备。

最后一项突出的创新是对 tool-calling 的支持（工具调用），它使模型能够在运行过程中调用外部函数。这开启了直接从命令行与编码智能体和助手的集成，于是本地运行的模型可以执行更复杂的、由工具辅助的任务——例如获取数据、运行脚本，或在不向云端发送查询的情况下使用本地工具。

上述所有内容使 Ollama 0.30 成为一次完整的发布：与 llama.cpp 的集成和 GGUF 支持扩展了模型目录，高达 20% 的吞吐提升和 Vulkan 加速了在更多类型硬件上的执行，而 tool-calling 则开启了更有能力的、由智能体辅助的场景。通过更快的执行、更广的硬件支持和工具调用的组合，Ollama 0.30 让本地 AI 同时变得更快、更有能力，并在此过程中保留了在自己计算机上运行模型所带来的隐私优势。

常见问题

什么是 GGUF，为什么对它的支持很重要？

GGUF 是一种用于存储量化语言模型的文件格式，在开源社区中被广泛使用。Ollama 0.30 对 GGUF 的支持意味着用户可以更轻松地运行该格式中大量可用的模型，包括来自 Hugging Face 的众多微调（fine-tuned）模型。

Ollama 0.30 快了多少？

得益于与 llama.cpp 的集成，Ollama 0.30 在 NVIDIA GPU 上实现了高达 20% 的吞吐量（throughput）提升。此外，通过启用 Vulkan，它将硬件支持扩展到 AMD 和 Intel 设备，从而在更广泛的计算机上加速运行。

对 tool-calling 的支持带来了什么？

Tool-calling（工具调用）使模型能够在生成回答的过程中调用外部函数和工具。在 Ollama 0.30 中，这开启了与编码智能体以及命令行助手的直接集成，于是本地运行的模型可以执行更复杂的、由工具辅助的任务。

Ollama 0.30：集成 llama.cpp、支持 GGUF，推理速度提升高达 20%

与 llama.cpp 和 GGUF 的集成带来了什么？

Ollama 0.30 快了多少？

支持哪些新的模型家族？

Apple silicon 和 tool-calling 方面如何？

常见问题

来源

相关新闻