
최근 로컬 LLM 실행 환경에 관심이 있다면 주목할 만한 소식이 나왔습니다.
바로 Ollama가 Apple Silicon에서 MLX 프레임워크 기반으로 구동되는 프리뷰 버전을 공개했다는 점입니다.
이번 업데이트는 단순한 실행 환경 변경이 아니라,
- Apple Silicon의 통합 메모리 아키텍처 활용,
- GPU Neural Accelerator 가속,
- NVFP4 양자화 지원,
- 캐시 시스템 전면 개선
등을 통해 첫 토큰 생성 시간(TTFT)과 전체 토큰 처리 속도 모두를 크게 향상시킨 것이 핵심입니다.
이 글에서는 MLX 기반 Ollama 프리뷰의 배경, 기술적 특징, 성능 개선 포인트, 실제 사용 방법, 그리고 향후 기대점까지 정리해보겠습니다.
Ollama MLX 프리뷰란 무엇인가
**Ollama**는 로컬 환경에서 대규모 언어 모델(LLM)을 손쉽게 실행할 수 있게 해주는 런타임입니다.
이번에 공개된 프리뷰 버전은 Apple의 MLX 머신러닝 프레임워크 위에서 동작하도록 새롭게 설계되었습니다.
- macOS 환경에서
- 개인 비서(OpenClaw)
- 코딩 에이전트(Claude Code, OpenCode, Codex 등)
을 더 빠르고 효율적으로 실행하는 것이 목표입니다.
- Apple Silicon의 CPU·GPU·메모리를 하나의 통합 메모리로 활용해 데이터 이동 비용을 줄였습니다.
Apple MLX 프레임워크 기반 전환의 의미
이번 변화의 중심에는 **Apple**의 MLX 프레임워크가 있습니다.
MLX의 특징은 다음과 같습니다.
- Apple Silicon에 최적화된 머신러닝 프레임워크
- 통합 메모리 아키텍처를 전제로 설계
- GPU 연산 활용에 유리한 구조
이를 기반으로 Ollama는
M5 / M5 Pro / M5 Max 칩의 GPU Neural Accelerator를 직접 활용해
- TTFT(첫 토큰 생성 시간)
- 지속적인 토큰 생성 속도
모두를 가속할 수 있게 됐습니다.
성능 개선 포인트: 숫자로 보는 변화
테스트 결과 요약
- 테스트 일자: 2026년 3월 29일
- 비교 대상:
- MLX 기반 Ollama (NVFP4)
- 기존 Ollama 구현 (Q4_K_M)
Qwen3.5-35B-A3B 모델을 기준으로,
Ollama 0.19 버전은 다음 성능을 기록했습니다.
- 프리필(prefill): 1851 token/s
- 디코드(decode): 134 token/s
이는 대형 모델을 로컬에서 실용적으로 사용 가능한 수준까지 끌어올렸다는 점에서 의미가 큽니다.
NVFP4 지원이 중요한 이유
이번 프리뷰의 또 다른 핵심은 **NVIDIA**의 NVFP4 양자화 형식 지원입니다.
NVFP4의 장점
- 모델 정확도를 최대한 유지
- 메모리 대역폭 사용량 감소
- 저장소 요구량 절감
- 추론 환경과 실제 서비스 환경 간 결과 일관성 확보
또한 NVIDIA Model Optimizer로 최적화된 모델을 그대로 실행할 수 있어,
- 연구 환경
- 실제 운영 환경
사이의 간극을 줄일 수 있습니다.
향후에는 하드웨어 및 사용 목적에 따라 **다양한 정밀도(precision)**도 추가될 예정입니다.
캐시 시스템 개선: 체감 속도를 바꾸는 요소
MLX 기반 Ollama는 캐시 구조 자체를 재설계했습니다.
주요 개선 사항
- 캐시 재사용
- 대화 간 메모리 사용량 감소
- 공유 시스템 프롬프트 사용 시 캐시 히트율 증가
- 지능형 체크포인트
- 프롬프트 처리량 감소
- 응답 속도 향상
- 스마트 캐시 제거 정책
- 오래된 브랜치가 제거돼도
- 공통 프리픽스(prefix)는 더 오래 유지
결과적으로 여러 에이전트를 동시에 쓰거나 반복 질의를 할수록 체감 성능이 더 좋아지는 구조입니다.
시작 방법: Ollama MLX 프리뷰 실행하기
사전 조건
- Ollama 0.19 버전
- 32GB 이상 통합 메모리를 가진 Mac
- Qwen3.5-35B-A3B (NVFP4) 모델
실행 예시
# Claude Code 실행
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
# OpenClaw 실행
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
# 일반 대화 실행
ollama run qwen3.5:35b-a3b-coding-nvfp4
코딩 작업에 맞게 샘플링 파라미터가 튜닝된 모델이 제공되기 때문에,
별도 설정 없이도 바로 활용할 수 있습니다.
향후 로드맵과 기대되는 변화
Ollama 팀은 다음과 같은 계획을 밝히고 있습니다.
- 더 많은 모델 지원
- 커스텀 모델 가져오기 기능 추가
- 지원 아키텍처 목록 지속 확장
특히 MLX 기반 구조가 안정화되면,
Apple Silicon 기반 로컬 AI 개발 환경의 표준 선택지 중 하나로 자리 잡을 가능성이 큽니다.
이번 Ollama MLX 프리뷰는 단순한 성능 개선을 넘어,
- Apple Silicon 하드웨어 특성을 제대로 활용한 설계
- 대형 LLM을 로컬 환경에서 현실적으로 운용할 수 있는 기반 마련
- 연구·개발·실사용 환경 간 간극 축소
라는 점에서 의미가 큽니다.
로컬 LLM, 개인 비서, 코딩 에이전트에 관심이 있다면
이번 MLX 기반 Ollama는 분명 한 번 직접 써볼 가치가 있는 업데이트라고 볼 수 있습니다.
Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog
Today, we're previewing the fastest way to run Ollama on Apple silicon, powered by MLX, Apple's machine learning framework.
ollama.com

'인공지능' 카테고리의 다른 글
| AI는 사람의 판단을 어디까지 흔들 수 있을까 - 유해한 AI 조작을 평가하는 새로운 인간-AI 상호작용 프레임워크 분석 (0) | 2026.04.01 |
|---|---|
| Claude Code를 제대로 쓰는 방법: 계획과 실행을 분리한 개발 워크플로우 정리 (0) | 2026.04.01 |
| Claude Code의 숨겨진 강력한 기능 15가지 한눈에 정리 - 자동화, 병렬 처리, 모바일 개발까지 가능한 차세대 AI 코딩 워크플로우 (0) | 2026.04.01 |
| Shopify의 데이터 구조화 여정 - One-Shot LLM에서 DSPy 기반 에이전틱 아키텍처로의 전환 (0) | 2026.04.01 |
| 프로덕션 환경에서 AI 에이전트를 실제로 돌리는 방법: Hive 런타임 하네스 완전 정리 (0) | 2026.03.30 |