Ollama 0.30: llama.cpp, GGUF, 최대 20% 빠른 inference

Ollama 0.30은 더 나은 성능과 GGUF 모델 호환성을 위한 llama.cpp 통합을 가져오며, NVIDIA GPU에서 최대 20% 빠른 처리량을 제공한다. AMD 및 Intel 기기에서 Vulkan으로 하드웨어 지원을 확장하고 tool-calling 지원을 추가한다. Apple 실리콘용 기존 MLX 엔진을 보완한다.

Ollama는 2026년 6월 5일 자사 블로그에서 llama.cpp 통합, GGUF 형식 지원, 그리고 크게 향상된 성능을 전면에 내세운 Ollama 0.30 버전을 공개했다. 이는 언어 모델을 로컬에서 실행하는 인기 도구의 의미 있는 진전으로, 이번 버전은 속도와 지원 하드웨어의 범위를 모두 확장한다.

llama.cpp와 GGUF 통합은 무엇을 가져오는가?

이번 버전의 핵심 신규 사항은 언어 모델 실행(inference)을 위한 널리 사용되는 오픈소스 프로젝트인 llama.cpp와의 통합이다. 이 통합은 더 나은 성능과, 그에 못지않게 중요한 모델의 GGUF 호환성을 가져온다.

GGUF는 양자화된(압축된) 모델을 저장하는 파일 형식으로, 커뮤니티에서 매우 널리 쓰인다. 그 지원으로 Ollama 0.30은 사용자가 이미 그 형식으로 존재하는 수많은 모델을 손쉽게 실행할 수 있게 하여, 이용 가능한 모델의 카탈로그를 크게 넓힌다.

Ollama 0.30은 얼마나 빠른가?

성능 이득은 구체적이다. 새로운 통합 덕분에 Ollama 0.30은 NVIDIA GPU에서 최대 20% 빠른 처리량(throughput)을 달성한다. 그러한 하드웨어에서 로컬로 모델을 실행하는 사용자에게 이는 눈에 띄게 빠른 응답과 더 나은 그래픽 카드 활용을 의미한다.

속도가 하드웨어 측면의 유일한 개선은 아니다. 이번 버전은 AMD 및 Intel 기기에서 그래픽·compute API인 Vulkan을 활성화하여 하드웨어 지원을 확장한다. 이로써 가속된 실행이 NVIDIA 생태계를 넘어 더 넓은 범위의 컴퓨터로 확대된다.

어떤 새로운 모델 계열이 지원되는가?

Ollama 0.30은 몇 가지 새로운 모델 계열과의 호환성을 추가한다. 그중에는 모델 공유 최대 플랫폼인 Hugging Face에서 제공되는 LFM, Prism, 그리고 Unsloth fine-tuned 모델이 있다.

이 확장은 GGUF 지원과 직접 맞물린다: fine-tuned 모델 커뮤니티의 상당 부분이 바로 그 형식으로 공개되어 있으므로, 사용자는 추가 변환 없이 다양한 맞춤 모델 선택지로 가는 손쉬운 경로를 얻는다.

Apple 실리콘과 tool-calling은 어떠한가?

Apple 하드웨어 사용자를 위해, 이번 버전은 Apple 실리콘용 기존 MLX 엔진을 보완한다. 이로써 Ollama는 대체하는 것이 아니라 다양한 하드웨어로 — Apple 칩부터 NVIDIA GPU, AMD 및 Intel 기기에 이르기까지 — 가용성을 넓힌다.

마지막으로 강조된 신규 사항은 tool-calling 지원(도구 호출)으로, 이는 모델이 작동 중 외부 함수를 호출할 수 있게 한다. 이는 커맨드라인에서 직접 코딩 에이전트 및 어시스턴트와의 통합을 열어주어, 로컬에서 실행되는 모델이 도구의 도움을 받는 더 복잡한 작업 — 예컨대 데이터 가져오기, 스크립트 실행, 클라우드로 질의를 보내지 않는 로컬 도구 작업 — 을 수행할 수 있게 한다.

이 모든 것이 Ollama 0.30을 완결된 버전으로 만든다: llama.cpp 통합과 GGUF 지원은 모델 카탈로그를 넓히고, 최대 20% 빠른 처리량과 Vulkan은 더 다양한 하드웨어에서 실행을 가속하며, tool-calling은 더 유능한 에이전트 지원 시나리오를 연다. 빠른 실행, 더 넓은 하드웨어 지원, 도구 호출의 조합으로 Ollama 0.30은 로컬 AI를 더 빠르고 더 유능하게 만들면서도, 자신의 컴퓨터에서 모델을 실행함으로써 얻는 프라이버시의 이점을 유지한다.

자주 묻는 질문

GGUF란 무엇이며 그 지원은 왜 중요한가?

GGUF는 양자화된 언어 모델을 저장하는 파일 형식으로, 오픈소스 커뮤니티에서 널리 사용된다. Ollama 0.30의 GGUF 지원은 사용자가 Hugging Face의 다수 fine-tuned 모델을 포함해 이 형식으로 제공되는 수많은 모델을 더 쉽게 실행할 수 있음을 의미한다.

Ollama 0.30은 얼마나 빠른가?

llama.cpp 통합 덕분에 Ollama 0.30은 NVIDIA GPU에서 최대 20% 빠른 처리량(throughput)을 달성한다. 또한 Vulkan을 활성화하여 하드웨어 지원을 AMD 및 Intel 기기로 확장함으로써, 더 넓은 범위의 컴퓨터에서 작동을 가속한다.

tool-calling 지원은 무엇을 가져오는가?

tool-calling(도구 호출)은 모델이 응답 생성 중 외부 함수와 도구를 호출할 수 있게 한다. Ollama 0.30에서 이는 코딩 에이전트 및 커맨드라인 어시스턴트와의 직접 통합을 열어주어, 로컬에서 실행되는 모델이 더 복잡한 도구 지원 작업을 수행할 수 있다.

Ollama 0.30: llama.cpp 통합, GGUF 지원, 최대 20% 빠른 inference

llama.cpp와 GGUF 통합은 무엇을 가져오는가?

Ollama 0.30은 얼마나 빠른가?

어떤 새로운 모델 계열이 지원되는가?

Apple 실리콘과 tool-calling은 어떠한가?

자주 묻는 질문

출처

관련 뉴스