
대규모 언어 모델(LLM)의 성능 경쟁은 이제 단순히 “더 똑똑한 모델”을 넘어 “얼마나 빠르게 응답하는가”로 확장되고 있습니다. 특히 로컬 환경이나 모바일 디바이스, 엣지 환경에서 AI를 활용하려는 개발자들에게 추론 속도는 실제 서비스 품질을 좌우하는 핵심 요소입니다.
Google은 최근 공개한 Gemma 4 모델에 이어, 추론 성능을 획기적으로 개선할 수 있는 MTP(Multi-Token Prediction) Drafter 기술을 발표했습니다. 이 기술은 기존 대비 최대 3배 빠른 추론 속도를 제공하면서도 출력 품질과 추론 정확도는 그대로 유지하는 것이 특징입니다.
이번 글에서는 Gemma 4의 MTP Drafter가 무엇인지, 왜 필요한지, speculative decoding이 어떻게 동작하는지, 그리고 실제 개발 환경에서 어떤 이점을 제공하는지 자세히 살펴봅니다.
Gemma 4와 추론 속도의 한계
Gemma 4는 공개 직후 수천만 다운로드를 기록하며 강력한 오픈 모델 생태계를 형성하고 있습니다. 하지만 아무리 뛰어난 모델이라도 실제 서비스 환경에서는 “응답 속도”가 중요한 문제가 됩니다.
기존 LLM 추론 방식은 기본적으로 다음과 같은 구조를 가집니다.
- 이전 토큰을 기반으로 다음 토큰 1개 생성
- 생성된 토큰을 다시 입력으로 사용
- 다시 다음 토큰 1개 생성
즉, 한 번에 하나의 토큰만 순차적으로 생성하는 autoregressive 방식입니다.
문제는 이 과정이 매우 비효율적이라는 점입니다.
특히 대규모 모델에서는 GPU가 계산보다 메모리에서 파라미터를 가져오는 데 더 많은 시간을 사용하게 됩니다. 이를 memory-bandwidth bottleneck이라고 부르며, 실제로는 GPU 연산 자원이 충분해도 데이터 이동 때문에 속도가 제한됩니다.
결과적으로 다음과 같은 문제가 발생합니다.
- 높은 응답 지연(latency)
- GPU 활용률 저하
- 로컬 환경에서의 느린 생성 속도
- 모바일 및 엣지 환경의 배터리 소모 증가
MTP(Multi-Token Prediction) Drafter란 무엇인가
MTP Drafter는 이러한 병목 현상을 해결하기 위해 등장한 speculative decoding 기반 기술입니다.
핵심 아이디어는 매우 단순합니다.
“큰 모델이 토큰 하나를 생성하는 동안, 작은 모델이 미리 여러 개의 다음 토큰을 예측하도록 하자.”
즉 다음과 같은 구조입니다.
- Target Model
- 실제 정답을 검증하는 대형 모델
- 예: Gemma 4 31B
- Drafter Model
- 미래 토큰을 빠르게 예측하는 경량 모델
- 여러 개 토큰을 한 번에 초안 생성
이후 Target Model이 Drafter의 결과를 병렬 검증합니다.
만약 예측이 맞다면 여러 토큰을 한 번에 승인하게 되고, 결과적으로 훨씬 빠른 생성 속도를 얻을 수 있습니다.
Speculative Decoding은 어떻게 동작하는가
기존 방식은 아래처럼 한 토큰씩 생성합니다.
입력 → 토큰 1개 생성 → 다시 입력 → 다음 토큰 생성
반면 speculative decoding은 다음과 같이 동작합니다.
1. Drafter가 여러 토큰 예측
2. Target Model이 전체 시퀀스 검증
3. 맞다면 한 번에 승인
4. 추가 토큰까지 동시에 생성
예를 들어 다음 문장을 생성한다고 가정해보겠습니다.
"Actions speak louder than ..."
대부분의 경우 다음 단어는 “words”일 가능성이 높습니다.
기존 방식은 이 단어 하나를 생성하기 위해 전체 모델 연산을 수행합니다. 하지만 speculative decoding은 작은 모델이 미리 다음 토큰들을 예측하고, 큰 모델은 이를 빠르게 검증만 수행합니다.
즉, “예측”과 “검증”을 분리해 효율을 극대화한 방식입니다.
Gemma 4 MTP Drafter의 핵심 기술
Gemma 4의 MTP Drafter는 단순히 작은 모델을 추가한 것이 아닙니다. 실제 속도 향상을 위해 여러 최적화 기술이 적용됐습니다.
1. KV Cache 공유
일반적으로 모델은 이전 문맥(Context)을 계산하기 위해 KV Cache를 사용합니다.
Gemma 4의 Drafter는 Target Model의 KV Cache를 공유합니다.
즉:
- 동일한 Context를 다시 계산하지 않음
- 메모리 사용량 감소
- 중복 연산 제거
- 추론 속도 향상
이 구조 덕분에 Drafter는 매우 가볍게 동작할 수 있습니다.
2. Activation 재사용
Drafter는 Target Model이 이미 계산한 activation 정보를 재활용합니다.
즉:
- 이전 계산 결과를 그대로 활용
- 연산량 감소
- latency 감소
결과적으로 speculative decoding 오버헤드를 최소화할 수 있습니다.
3. Edge 환경 최적화
Gemma 4 E2B 및 E4B 모델은 모바일 및 엣지 환경을 고려해 추가 최적화가 적용됐습니다.
특히 embedder 단계에서 clustering 기반 최적화를 적용해:
- logit 계산 비용 감소
- 배터리 효율 개선
- 모바일 생성 속도 향상
을 달성했습니다.
실제 성능 향상 효과
Google에 따르면 MTP Drafter를 활용하면 최대 3배 수준의 속도 향상이 가능합니다.
특히 다음 환경에서 효과가 큽니다.
- 로컬 개발 환경
- Consumer GPU
- 모바일 디바이스
- Agent 워크플로우
- 실시간 채팅 시스템
- 음성 AI 애플리케이션
Gemma 4 26B 모델은 NVIDIA RTX PRO 6000 환경에서 기존 대비 약 2배 이상의 Tokens/sec 향상을 보여주기도 했습니다.
또한 Apple Silicon 및 NVIDIA A100 환경에서도 배치 처리 시 추가 성능 향상이 확인됐습니다.
개발자가 얻는 실질적인 이점
응답성 향상
가장 직접적인 장점은 latency 감소입니다.
사용자는:
- 더 빠른 응답
- 자연스러운 대화 경험
- 실시간 AI 인터랙션
을 경험할 수 있습니다.
특히 음성 AI나 에이전트 시스템에서는 체감 차이가 매우 큽니다.
로컬 AI 개발 가속화
Gemma 4 26B 및 31B 모델은 상당한 규모의 모델입니다.
기존에는:
- 로컬 환경에서 속도가 느림
- Consumer GPU 활용 한계
- 개발 생산성 저하
문제가 있었지만, MTP를 활용하면 개인 워크스테이션에서도 훨씬 현실적인 속도로 대형 모델을 운영할 수 있습니다.
모바일 및 엣지 AI 강화
온디바이스 AI 환경에서는 속도뿐 아니라 전력 효율도 중요합니다.
MTP Drafter는:
- 빠른 생성 속도
- 낮은 전력 소비
- 배터리 절약
측면에서 강점을 가집니다.
이는 모바일 AI 서비스 확대에 매우 중요한 요소입니다.
출력 품질은 유지되는가
가장 중요한 부분 중 하나는 “속도가 빨라지면 품질이 떨어지는 것 아닌가?”라는 점입니다.
Gemma 4 MTP의 핵심은 최종 검증을 항상 Target Model이 수행한다는 점입니다.
즉:
- 추론 정확도 유지
- reasoning 품질 유지
- hallucination 증가 없음
- 동일한 출력 품질 보장
속도만 개선되고 결과 품질은 그대로 유지됩니다.
사용 가능한 프레임워크와 환경
Gemma 4 MTP Drafter는 다양한 생태계에서 활용 가능합니다.
지원 환경은 다음과 같습니다.
- Hugging Face Transformers
- MLX
- vLLM
- LiteRT-LM
- SGLang
- Ollama
또한 Android 및 iOS 기반 Google AI Edge Gallery에서도 활용할 수 있습니다.
라이선스는 Gemma 4와 동일한 Apache 2.0 오픈소스 라이선스를 사용합니다.
간단한 활용 예시
개발자는 기존 Gemma 4 모델과 함께 Drafter 모델만 추가하면 speculative decoding을 사용할 수 있습니다.
예를 들어:
target_model = "gemma-4-31b"
drafter_model = "gemma-4-mtp-drafter"
generate(
model=target_model,
drafter=drafter_model
)
이 구조를 통해:
- 여러 토큰 예측
- 병렬 검증
- 빠른 출력 생성
이 가능해집니다.
MTP Drafter가 중요한 이유
이번 발표가 중요한 이유는 단순한 속도 개선 때문만은 아닙니다.
LLM 시장은 이제:
- 더 큰 모델
- 더 높은 정확도
뿐 아니라,
- 더 낮은 latency
- 더 높은 효율성
- 더 나은 온디바이스 성능
경쟁으로 이동하고 있기 때문입니다.
특히 AI 에이전트 시대에서는 빠른 다단계 추론이 필수입니다.
응답 속도가 느리면:
- 사용자 경험 저하
- 작업 흐름 단절
- 실시간성 부족
문제가 발생합니다.
MTP는 이러한 현실적인 병목을 해결하는 매우 중요한 기술 방향으로 평가받고 있습니다.
Gemma 4의 MTP Drafter는 단순한 최적화 기능이 아니라, 대규모 언어 모델 추론 구조 자체를 효율적으로 재설계한 기술입니다.
특히 speculative decoding을 활용해:
- 최대 3배 빠른 추론 속도
- 동일한 출력 품질
- 낮은 latency
- 향상된 온디바이스 성능
을 동시에 달성했다는 점이 핵심입니다.
앞으로 AI 애플리케이션은 단순히 “똑똑한 AI”를 넘어 “빠르게 반응하는 AI”가 중요해질 가능성이 높습니다.
Gemma 4 MTP Drafter는 그 방향성을 잘 보여주는 사례이며, 로컬 AI와 엣지 AI 시대를 더욱 가속화할 기술로 주목받고 있습니다.
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
Accelerating Gemma 4: faster inference with multi-token prediction drafters
An overview of how Multi-Token Prediction (MTP) drafters are making Gemma 4 models up to 3x faster at inference.
blog.google

'인공지능' 카테고리의 다른 글
| garak으로 알아보는 LLM 보안 취약점 진단과 레드팀 테스트 방법 (0) | 2026.05.07 |
|---|---|
| 초거대 AI 학습을 가속하는 슈퍼컴퓨터 네트워크, OpenAI의 MRC 프로토콜 완전 정리 (0) | 2026.05.07 |
| Understand-Anything: 코드와 지식베이스를 인터랙티브 지식 그래프로 분석하는 AI 플러그인 (0) | 2026.05.07 |
| 에이전트 경제 시대, 누가 사라지고 누가 살아남는가: AI 에이전트가 재편하는 2026 엔터프라이즈 시장 (0) | 2026.05.07 |
| 구글이 ‘에이전틱 AI 거버넌스’를 제품으로 만들었다는 의미— 기업 AI는 왜 아직 따라가지 못하고 있을까 (0) | 2026.05.06 |