본문 바로가기

인공지능

GLM-5.1 로컬 실행 가이드: 대규모 언어 모델을 내 PC에서 사용하는 방법

728x90
반응형
728x170

이 글은 Z.ai에서 공개한 최신 오픈 모델 GLM-5.1을 로컬 환경에서 실행하는 방법을 정리한 기술 블로그입니다.
GLM-5.1의 모델 특징과 배경, 하드웨어 요구 사항, 양자화(Quantization)를 통한 실행 전략, 그리고 Unsloth Studio와 llama.cpp를 활용한 실제 실행 방법까지 단계적으로 설명합니다.
대규모 언어 모델을 클라우드가 아닌 내 장비에서 직접 실행하고 싶은 개발자와 연구자를 위한 실전 가이드라고 보시면 됩니다.

반응형

GLM-5.1이란 무엇인가

GLM-5.1은 Z.ai에서 공개한 최신 오픈소스 대형 언어 모델입니다. 이전 세대인 GLM-5 대비 다음과 같은 영역에서 큰 개선이 이뤄졌습니다.

  • 코드 생성 및 코드 이해 성능 향상
  • 에이전트 기반 도구 사용 능력 강화
  • 복잡한 추론 및 장문 맥락 처리 능력 개선
  • 롤플레이 및 장기 작업 수행 안정성 향상
  • 전반적인 대화 품질 개선

특히 에이전트형 작업(agentic tasks)도구 호출(tool calling) 성능이 강화되어, 단순한 챗봇을 넘어 실제 자동화·개발 보조 시나리오에 적합한 모델로 평가됩니다.


모델 스펙과 로컬 실행의 현실적인 장벽

GLM-5.1의 전체 모델은 다음과 같은 스펙을 가집니다.

  • 전체 파라미터: 744B
  • 활성 파라미터: 40B (MoE 구조)
  • 최대 컨텍스트 길이: 약 200K 토큰
  • 원본 모델 디스크 요구량: 약 1.65TB

이 스펙만 보면 개인 장비에서 실행하기는 사실상 불가능해 보입니다.
이 문제를 해결하는 핵심 기술이 바로 Unsloth Dynamic Quantization입니다.


Unsloth Dynamic Quantization의 역할

Unsloth는 최신 동적 양자화 기술을 통해 GLM-5.1을 현실적인 크기로 줄였습니다.

  • Dynamic 2-bit GGUF: 약 220~236GB (약 80% 감소)
  • Dynamic 1-bit GGUF: 약 200GB (약 85% 감소)

중요한 점은 단순한 비트 감소가 아니라,

  • 중요한 레이어는 8bit 또는 16bit로 유지
  • 성능 저하를 최소화하면서 메모리 사용량을 크게 절감

이 덕분에 256GB 통합 메모리 Mac, 또는 24GB GPU + 256GB RAM 환경에서도 실행이 가능해졌습니다.


로컬 실행을 위한 하드웨어 가이드

GLM-5.1 실행 시 가장 중요한 기준은 다음 한 가지입니다.

VRAM + 시스템 RAM의 총합이 다운로드한 모델 크기보다 커야 한다

권장 기준은 다음과 같습니다.

  • Dynamic 2-bit: 약 236GB 메모리
  • Dynamic 1-bit: 약 220GB 메모리
  • 8-bit 모델: 약 805GB 메모리 필요

메모리가 부족한 경우 SSD/HDD 오프로딩으로 실행은 가능하지만, 추론 속도는 느려집니다.


추천 추론 설정 정리

GLM-5.1은 작업 유형에 따라 추론 설정을 다르게 가져가는 것이 좋습니다.

일반 대화 및 작업용

  • temperature: 1.0
  • top_p: 0.95
  • max new tokens: 131072

터미널·벤치마크 작업용

  • temperature: 0.7
  • top_p: 1.0
  • max new tokens: 16384

GLM-5.1은 기본적으로 thinking 모드가 활성화되어 있으며, 필요 시 옵션으로 비활성화할 수 있습니다.


Unsloth Studio로 실행하는 방법

Unsloth Studio는 로컬 AI 실행을 위한 오픈소스 웹 UI입니다.

주요 특징

  • GGUF 및 safetensors 모델 검색·다운로드·실행
  • 자동 추론 파라미터 튜닝
  • Python, Bash 코드 실행
  • llama.cpp 기반 CPU/GPU 혼합 추론
  • 도구 호출 및 웹 검색 지원

설치 방법

MacOS / Linux / WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

실행:

unsloth studio -H 0.0.0.0 -p 8888

브라우저에서 http://localhost:8888 접속 후 GLM-5.1을 검색하여
UD-Q2_K_XL (Dynamic 2bit) 버전을 선택하는 것이 권장됩니다.


llama.cpp로 직접 실행하는 방법

UI 없이 CLI 기반으로 실행하고 싶은 경우 llama.cpp를 사용할 수 있습니다.

기본 실행 예시

./llama-cli \
-hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
--ctx-size 16384 \
--temp 0.7 \
--top-p 1.0

GPU 메모리가 부족할 경우 --n-gpu-layers 옵션으로 GPU 오프로딩 레이어 수를 조절할 수 있습니다.


llama-server와 OpenAI 호환 API 사용

GLM-5.1은 llama-server를 통해 OpenAI API 호환 방식으로 서비스할 수 있습니다.

서버 실행

./llama-server \
--model GLM-5.1-UD-IQ2_M.gguf \
--alias "unsloth/GLM-5.1" \
--port 8001

Python에서 호출

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8001/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="unsloth/GLM-5.1",
    messages=[{"role": "user", "content": "Create a Snake game."}]
)

print(response.choices[0].message.content)

이 방식은 기존 OpenAI API 기반 애플리케이션을 거의 수정 없이 로컬 모델로 전환할 수 있다는 장점이 있습니다.


도구 호출과 에이전트 활용

GLM-5.1은 함수 호출 기반의 Tool Calling을 강력하게 지원합니다.

  • 수학 연산
  • Python 코드 실행
  • 터미널 명령 실행
  • 사용자 정의 함수 연동

이를 통해 단순 응답형 모델이 아닌, 실제 작업을 수행하는 로컬 AI 에이전트를 구축할 수 있습니다.


벤치마크로 보는 GLM-5.1의 위치

공개된 벤치마크 결과를 보면 GLM-5.1은 다음 영역에서 강점을 보입니다.

  • Tool 사용 기반 추론 성능
  • 코딩 및 터미널 작업
  • 장문 맥락 처리
  • 에이전트 벤치마크

특히 Tool 사용이 포함된 HLE, BrowseComp, τ³-Bench 등에서 높은 점수를 기록하며
실무형 LLM으로서의 가능성을 입증하고 있습니다.


728x90

GLM-5.1은 단순히 성능이 높은 모델이 아니라,
로컬 환경에서 실제로 활용 가능한 대규모 언어 모델이라는 점에서 의미가 큽니다.

  • 대규모 컨텍스트와 강력한 추론 능력
  • Unsloth 양자화를 통한 현실적인 실행 가능성
  • UI, CLI, API까지 모두 지원하는 유연한 실행 구조
  • 에이전트·도구 호출 중심의 차세대 활용 시나리오

앞으로 로컬 LLM을 기반으로 한 자동화, 개발 보조, 연구 환경 구축을 고려하고 있다면
GLM-5.1은 충분히 검토할 가치가 있는 선택지라고 볼 수 있습니다.

300x250

https://unsloth.ai/docs/models/glm-5.1

 

GLM-5.1 - How to Run Locally | Unsloth Documentation

Run the new GLM-5.1 model by Z.ai on your own local device!

unsloth.ai

728x90
반응형
그리드형