
대규모 언어 모델은 점점 더 긴 컨텍스트를 이해하고, 더 복잡한 추론과 에이전트형 작업을 수행하도록 요구받고 있습니다.
하지만 컨텍스트 길이가 늘어날수록 연산 비용과 추론 지연은 기하급수적으로 증가하는 문제가 발생합니다.
이번 글에서는 Xiaomi가 공개한 MiMo-V2-Flash를 중심으로,
이 모델이 어떻게 초장문 컨텍스트 처리 능력, 추론 효율, 에이전트형 AI 성능이라는 세 가지 상충되는 요구사항을 동시에 만족시키는지 기술적으로 분석합니다.
특히 Hybrid Attention 구조, Multi-Token Prediction, 그리고 대규모 Agentic RL 기반 후처리(Post-Training) 전략에 초점을 맞춰 살펴봅니다.
MiMo-V2-Flash 개요
MiMo-V2-Flash는 Mixture-of-Experts(MoE) 구조를 기반으로 한 초대규모 언어 모델입니다.
- 총 파라미터 수: 309B
- 활성 파라미터 수: 15B
- 최대 컨텍스트 길이: 256K 토큰
MoE 구조의 핵심은 모든 파라미터를 항상 사용하는 것이 아니라,
각 토큰마다 일부 전문가(Experts)만 활성화함으로써 연산 비용을 제어하면서도 모델 용량을 확장하는 데 있습니다.
MiMo-V2-Flash는 이러한 MoE 장점을 극대화하기 위해
어텐션 구조, 디코딩 방식, 학습 파이프라인 전반을 재설계한 것이 특징입니다.
Hybrid Attention Architecture의 기술적 의미
기존 문제점: 장문 컨텍스트의 계산 복잡도
Transformer의 Self-Attention은 시퀀스 길이에 대해 **O(n²)**의 계산 복잡도를 가집니다.
컨텍스트 길이가 수만, 수십만 토큰으로 확장될 경우, KV 캐시 메모리와 연산 비용이 병목이 됩니다.
MiMo-V2-Flash는 이 문제를 해결하기 위해 **Sliding Window Attention(SWA)**과
**Global Attention(GA)**을 결합한 하이브리드 구조를 도입했습니다.
Hybrid Attention 구성 방식
- 하나의 하이브리드 블록은 다음 구조를 가집니다.
- SWA 레이어 5개
- GA 레이어 1개
- 이러한 블록을 총 8개(M=8) 스택으로 구성
SWA는 각 토큰이 국소적인 윈도우(128 토큰) 내에서만 어텐션을 수행하도록 제한하여
계산량과 KV 캐시 크기를 크게 줄입니다.
GA는 주기적으로 전체 컨텍스트를 다시 참조함으로써
장문 의존성(long-range dependency)이 완전히 사라지는 것을 방지합니다.
Learnable Attention Sink Bias
128 토큰이라는 공격적인 윈도우 크기는 성능 저하 위험을 동반합니다.
이를 보완하기 위해 MiMo-V2-Flash는 Learnable Attention Sink Bias를 도입했습니다.
이 메커니즘은 모델이 장문 컨텍스트에서 중요한 토큰을
일종의 “주의 집중 지점(sink)”으로 학습하도록 유도하여,
국소 어텐션 구조에서도 장기 정보 보존이 가능하도록 합니다.
결과적으로 KV 캐시 사용량은 약 6배 감소하면서도
장문 이해 성능은 유지됩니다.
Multi-Token Prediction(MTP)의 구조와 효과
기존 디코딩 방식의 한계
일반적인 언어 모델은 Auto-Regressive 방식으로,
한 번에 하나의 토큰만 생성합니다.
이는 모델이 커질수록 GPU 자원이 충분히 활용되지 못하는 문제를 발생시킵니다.
MTP의 핵심 아이디어
MiMo-V2-Flash는 Multi-Token Prediction(MTP) 모듈을 모델 구조에 직접 통합했습니다.
- speculative decoding과 달리, 별도의 보조 모델에 의존하지 않음
- 학습과 추론 단계 모두에서 동일한 구조 사용
MTP의 구조적 특징
- MoE 대신 Dense Feed-Forward Network 사용
- Global Attention 대신 Sliding Window Attention 사용
- 블록당 파라미터 증가량: 약 0.33B
이 설계는 파라미터 증가를 최소화하면서도
동시에 여러 토큰을 예측할 수 있도록 합니다.

성능적 효과
- 추론 시 토큰 생성 속도 최대 3배 향상
- 소규모 배치 기반 RL 학습 시 GPU 유휴 시간 감소
- Self-Speculative Decoding을 통한 안정적인 가속
즉, MTP는 단순한 추론 가속 기법이 아니라
학습 파이프라인 전반의 효율성을 개선하는 핵심 요소입니다.
사전 학습 전략과 초장문 컨텍스트 지원
MiMo-V2-Flash는 학습 단계부터 장문 처리를 고려해 설계되었습니다.
- 총 학습 토큰 수: 27T
- 정밀도: FP8 mixed precision
- 기본 시퀀스 길이: 32K
- 확장 컨텍스트 길이: 최대 256K
FP8 기반 혼합 정밀도 학습은
메모리 사용량을 줄이면서도 대규모 학습 안정성을 확보하는 데 기여합니다.
이로 인해 초장문 문서 분석, 대규모 코드베이스 이해, 로그 기반 추론 등
실제 업무 시나리오에 적합한 성능을 제공합니다.
벤치마크 결과로 본 모델 특성
Base 모델 성능 해석
MiMo-V2-Flash-Base는 활성 파라미터 15B라는 비교적 작은 연산 규모에도 불구하고,
- 고난도 수학 추론(GSM8K, MATH, AIME)
- 지식 기반 추론(MMLU-Pro, GPQA)
- 코드 생성 및 이해(BigCodeBench, HumanEval+)
- 초장문 이해(NIAH-Multi, Long Context Bench)
등에서 더 많은 활성 파라미터를 사용하는 모델들과 경쟁 가능한 성능을 보입니다.
이는 MoE 라우팅 효율과 어텐션 구조 설계가 효과적으로 작동하고 있음을 의미합니다.
Post-Training 이후 성능 변화
Post-Training 단계에서는
MOPD와 Agentic RL을 통해 추론과 에이전트 능력이 크게 향상됩니다.
특히 SWE-Bench, Terminal-Bench 계열에서의 성능 향상은
MiMo-V2-Flash가 단순 질의응답 모델을 넘어
실제 문제 해결형 에이전트로 활용 가능함을 보여줍니다.
Post-Training 핵심 기술 분석
Multi-Teacher On-Policy Distillation(MOPD)
MOPD는 기존 지식 증류 방식을 강화학습 문제로 재정의합니다.
- 토큰 단위의 밀집된 지도 신호 제공
- 학생 모델의 자체 생성 결과를 기반으로 학습
- 교사 모델과의 분포 차이를 보상으로 사용
이 접근법은 노출 편향(exposure bias)을 줄이고,
보상 해킹에 강한 학습 특성을 제공합니다.
대규모 Agentic RL 확장
- 10만 개 이상의 실제 GitHub 이슈 기반 코드 에이전트 환경
- 1만 개 이상의 동시 실행 파드 지원
- 웹 개발 작업에서는 영상 기반 검증기를 활용해 기능적 정확성 평가
이러한 환경에서 학습된 에이전트 능력은
수학 및 일반 추론 영역으로도 일반화됩니다.
RL 인프라 최적화
- Rollout Routing Replay(R3): MoE 라우팅 불일치 해결
- Request-Level Prefix Cache: 멀티턴 에이전트 학습 효율 향상
- Fine-Grained Data Scheduler: GPU 자원 활용 극대화
- Ray 기반 Toolbox 구조: 도구 실행 지연 및 자원 충돌 최소화
MiMo-V2-Flash는 단순히 “큰 모델”이 아니라,
대규모 언어 모델이 실전 환경에서 어떻게 효율적으로 동작해야 하는지에 대한 하나의 해답을 제시합니다.
- Hybrid Attention을 통한 장문 처리 비용 제어
- MTP를 통한 추론 및 학습 속도 개선
- Agentic RL 기반 후처리를 통한 실제 문제 해결 능력 강화
이러한 설계는 향후 대형 언어 모델이
연구용을 넘어 실제 서비스와 에이전트 시스템의 핵심 엔진으로 진화하는 방향을 보여줍니다.
MiMo-V2-Flash는
성능과 효율의 트레이드오프를 구조적으로 해결한 사례라는 점에서
의미 있는 이정표라 할 수 있습니다.
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
XiaomiMiMo/MiMo-V2-Flash · Hugging Face
MiMo-V2-Flash MiMo-V2-Flash is a Mixture-of-Experts (MoE) language model with 309B total parameters and 15B active parameters. Designed for high-speed reasoning and agentic workflows, it utilizes a novel hybrid attention architecture and Multi-Token Predic
huggingface.co

'인공지능' 카테고리의 다른 글
| Agentic AI 시대의 핵심 기준, Agent Quality 완전 정리 - 자율형 AI를 신뢰할 수 있는 시스템으로 만드는 방법 (0) | 2025.12.18 |
|---|---|
| AI의 과학적 추론 능력을 평가하는 새로운 기준, FrontierScience 벤치마크 (0) | 2025.12.17 |
| OpenAgents 상세 분석 - 실사용 환경을 위한 오픈소스 언어 에이전트 플랫폼 (0) | 2025.12.17 |
| 오픈AGI ‘럭스(Lux)’ AI 에이전트 기술 분석: 컴퓨터 사용 AI의 새로운 기준 (0) | 2025.12.17 |
| Wan 2.6이 바꾸는 AI 영상 제작 방식 - 멀티샷 스토리텔링과 오디오·비주얼 동기화를 동시에 잡다 (0) | 2025.12.16 |