본문 바로가기

인공지능

Ollama, 애플 실리콘에서 더 빨라지다: MLX 기반 프리뷰 버전 핵심 정리

728x90
반응형
728x170

최근 로컬 LLM 실행 환경에 관심이 있다면 주목할 만한 소식이 나왔습니다.
바로 Ollama가 Apple Silicon에서 MLX 프레임워크 기반으로 구동되는 프리뷰 버전을 공개했다는 점입니다.

이번 업데이트는 단순한 실행 환경 변경이 아니라,

  • Apple Silicon의 통합 메모리 아키텍처 활용,
  • GPU Neural Accelerator 가속,
  • NVFP4 양자화 지원,
  • 캐시 시스템 전면 개선
    등을 통해 첫 토큰 생성 시간(TTFT)과 전체 토큰 처리 속도 모두를 크게 향상시킨 것이 핵심입니다.

이 글에서는 MLX 기반 Ollama 프리뷰의 배경, 기술적 특징, 성능 개선 포인트, 실제 사용 방법, 그리고 향후 기대점까지 정리해보겠습니다.

반응형

Ollama MLX 프리뷰란 무엇인가

**Ollama**는 로컬 환경에서 대규모 언어 모델(LLM)을 손쉽게 실행할 수 있게 해주는 런타임입니다.
이번에 공개된 프리뷰 버전은 Apple의 MLX 머신러닝 프레임워크 위에서 동작하도록 새롭게 설계되었습니다.

  • macOS 환경에서
    • 개인 비서(OpenClaw)
    • 코딩 에이전트(Claude Code, OpenCode, Codex 등)
      더 빠르고 효율적으로 실행하는 것이 목표입니다.
  • Apple Silicon의 CPU·GPU·메모리를 하나의 통합 메모리로 활용해 데이터 이동 비용을 줄였습니다.

Apple MLX 프레임워크 기반 전환의 의미

이번 변화의 중심에는 **Apple**의 MLX 프레임워크가 있습니다.

MLX의 특징은 다음과 같습니다.

  • Apple Silicon에 최적화된 머신러닝 프레임워크
  • 통합 메모리 아키텍처를 전제로 설계
  • GPU 연산 활용에 유리한 구조

이를 기반으로 Ollama는
M5 / M5 Pro / M5 Max 칩의 GPU Neural Accelerator를 직접 활용해

  • TTFT(첫 토큰 생성 시간)
  • 지속적인 토큰 생성 속도
    모두를 가속할 수 있게 됐습니다.

성능 개선 포인트: 숫자로 보는 변화

테스트 결과 요약

  • 테스트 일자: 2026년 3월 29일
  • 비교 대상:
    • MLX 기반 Ollama (NVFP4)
    • 기존 Ollama 구현 (Q4_K_M)

Qwen3.5-35B-A3B 모델을 기준으로,
Ollama 0.19 버전은 다음 성능을 기록했습니다.

  • 프리필(prefill): 1851 token/s
  • 디코드(decode): 134 token/s

이는 대형 모델을 로컬에서 실용적으로 사용 가능한 수준까지 끌어올렸다는 점에서 의미가 큽니다.


NVFP4 지원이 중요한 이유

이번 프리뷰의 또 다른 핵심은 **NVIDIA**의 NVFP4 양자화 형식 지원입니다.

NVFP4의 장점

  • 모델 정확도를 최대한 유지
  • 메모리 대역폭 사용량 감소
  • 저장소 요구량 절감
  • 추론 환경과 실제 서비스 환경 간 결과 일관성 확보

또한 NVIDIA Model Optimizer로 최적화된 모델을 그대로 실행할 수 있어,

  • 연구 환경
  • 실제 운영 환경
    사이의 간극을 줄일 수 있습니다.

향후에는 하드웨어 및 사용 목적에 따라 **다양한 정밀도(precision)**도 추가될 예정입니다.


캐시 시스템 개선: 체감 속도를 바꾸는 요소

MLX 기반 Ollama는 캐시 구조 자체를 재설계했습니다.

주요 개선 사항

  • 캐시 재사용
    • 대화 간 메모리 사용량 감소
    • 공유 시스템 프롬프트 사용 시 캐시 히트율 증가
  • 지능형 체크포인트
    • 프롬프트 처리량 감소
    • 응답 속도 향상
  • 스마트 캐시 제거 정책
    • 오래된 브랜치가 제거돼도
    • 공통 프리픽스(prefix)는 더 오래 유지

결과적으로 여러 에이전트를 동시에 쓰거나 반복 질의를 할수록 체감 성능이 더 좋아지는 구조입니다.


시작 방법: Ollama MLX 프리뷰 실행하기

사전 조건

  • Ollama 0.19 버전
  • 32GB 이상 통합 메모리를 가진 Mac
  • Qwen3.5-35B-A3B (NVFP4) 모델

실행 예시

# Claude Code 실행
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

# OpenClaw 실행
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

# 일반 대화 실행
ollama run qwen3.5:35b-a3b-coding-nvfp4

코딩 작업에 맞게 샘플링 파라미터가 튜닝된 모델이 제공되기 때문에,
별도 설정 없이도 바로 활용할 수 있습니다.


향후 로드맵과 기대되는 변화

Ollama 팀은 다음과 같은 계획을 밝히고 있습니다.

  • 더 많은 모델 지원
  • 커스텀 모델 가져오기 기능 추가
  • 지원 아키텍처 목록 지속 확장

특히 MLX 기반 구조가 안정화되면,
Apple Silicon 기반 로컬 AI 개발 환경의 표준 선택지 중 하나로 자리 잡을 가능성이 큽니다.


728x90

이번 Ollama MLX 프리뷰는 단순한 성능 개선을 넘어,

  • Apple Silicon 하드웨어 특성을 제대로 활용한 설계
  • 대형 LLM을 로컬 환경에서 현실적으로 운용할 수 있는 기반 마련
  • 연구·개발·실사용 환경 간 간극 축소

라는 점에서 의미가 큽니다.

로컬 LLM, 개인 비서, 코딩 에이전트에 관심이 있다면
이번 MLX 기반 Ollama는 분명 한 번 직접 써볼 가치가 있는 업데이트라고 볼 수 있습니다.

300x250

https://ollama.com/blog/mlx

 

Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog

Today, we're previewing the fastest way to run Ollama on Apple silicon, powered by MLX, Apple's machine learning framework.

ollama.com

728x90
반응형
그리드형