
대규모 AI 모델의 경쟁이 가속화되면서 업계의 기술 방향이 명확하게 바뀌고 있다. 더 이상 모델을 단순히 ‘크게 만드는 것’만으로는 성능 한계를 넘기 어렵다. 지금의 AI는 똑같이 큰 모델이라도 어떻게 더 빠르고 효율적으로 동작하느냐가 핵심이 되었고, 그 해답으로 Mixture of Experts(MoE) 구조가 사실상 새로운 표준으로 자리 잡았다.
이 글에서는 MoE가 왜 AI 모델의 주류가 되었는지, 그리고 NVIDIA의 GB200 NVL72가 어떻게 최신 MoE 모델을 기존 대비 10배 빠르게 실행할 수 있게 만들었는지 기술적 배경을 정리한다. 또한 DeepSeek-R1, Kimi K2 Thinking, Mistral Large 3 같은 모델들이 실제로 어떤 성능 향상을 얻었는지도 함께 살펴본다.
MoE(Mixture of Experts)란 무엇인가?
기존의 대형 AI 모델은 Dense 구조를 사용한다. 즉, 수백억에서 수천억 개의 모든 파라미터가 매 토큰마다 사용된다. 성능은 좋지만 연산량과 비용이 지나치게 커서 확장성이 떨어지는 방식이다.
반면 MoE는 이름처럼 여러 개의 전문가(Experts)로 구성된다. 각 전문가는 특정 유형의 문제를 잘 해결하도록 훈련돼 있으며, 매 토큰 생성 시 **라우터(router)**가 가장 적합한 전문가 몇 개만 선택해 사용한다.
그 결과:
- 모델 전체 파라미터는 거대하지만
- 실제 토큰 생성 시 사용하는 파라미터는 극히 일부이며
- Dense 모델 대비 계산량이 대폭 감소한다
결과적으로 지능 수준은 높이고, 연산 비용은 줄이는 구조가 가능해진다. 인간의 뇌가 특정 자극에 따라 필요한 영역만 선택적으로 사용하는 방식과 매우 유사하다.
왜 MoE가 Frontier 모델의 표준이 되었는가
최근 공개된 오픈소스 AI 모델 중 상위권은 대부분 MoE 기반이다.
Artificial Analysis(AA) 리더보드 Top 10 모델을 보면 모두 MoE 구조를 채택하고 있다.
대표적인 모델:
- DeepSeek-R1
- Kimi K2 Thinking
- Mistral Large 3
- OpenAI gpt-oss-120B
이 구조가 선택받는 이유는 명확하다.
- 성능 향상: 필요한 전문가만 사용해 더 높은 추론 품질 확보
- 비용 효율성: Dense 대비 파라미터 사용량 감소
- 확장성: 모델 크기를 크게 늘려도 실제 추론 비용은 상대적으로 낮음
특히 2023년 이후 MoE의 도입이 급격히 증가하며 AI 모델의 지능 수준은 약 70배 가까이 향상되었다.
MoE 모델 운영 시 기존 GPU(H200)에서의 병목
MoE는 이론적으로 뛰어난 구조지만 실제 운영에서는 큰 문제가 있었다.
대표적인 것이 **전문가 병렬성(Expert Parallelism)**이다.
MoE는 여러 전문가를 여러 GPU에 분산해 실행해야 하는데 이 과정에서 다음과 같은 병목이 발생한다.
1. 메모리 대역폭 문제
토큰마다 필요한 전문가의 파라미터를 HBM에서 계속 불러와야 하기 때문에
GPU 메모리에 과도한 부하가 걸린다.
2. All-to-All 통신 지연
각 전문가의 결과를 GPU 간 빠르게 주고받아야 하는데
8개 이상의 GPU를 넘어서면 통신 지연이 크게 증가한다.
이 때문에 MoE는 구조는 효율적이지만 실제 운영은 어려운 모델로 평가되곤 했다.
NVIDIA GB200 NVL72: MoE를 위한 극단적 코드사인(Extreme Co-Design)
이 문제를 해결한 것이 NVIDIA의 GB200 NVL72 랙 스케일 시스템이다.
이 시스템은 하드웨어와 소프트웨어를 동시에 최적화해 MoE의 병목을 근본적으로 제거했다.
핵심 요소는 다음과 같다.
1. 72개의 Blackwell GPU를 하나처럼 연결
- 1.4 Exaflops AI 성능
- 30TB의 초고속 공유 메모리
- GPU 간 통신 속도: NVLink로 130TB/s
이 구조는 사실상 72개의 GPU가 하나의 거대한 GPU처럼 작동하도록 만든다.
2. 전문가 분산의 효율 증가
- 72개의 GPU 전체에 전문가를 나눠 배치
- GPU당 전문가 수 감소 → HBM 압력 대폭 완화
- 긴 입력 길이와 더 많은 동시 사용자 처리 가능
3. All-to-All 통신 병목 제거
모든 GPU가 NVLink Switch를 통해 직접 연결되어 있어
전문가 간 통신이 즉각적으로 이루어진다.
즉, MoE가 가진 구조적 장점을 NVL72가 하드웨어적으로 완벽히 지원하는 형태다.
NVIDIA Software Stack의 역할
NVL72의 성능은 하드웨어만이 아니다.
NVIDIA의 소프트웨어 스택 역시 MoE에 최적화돼 있다.
NVIDIA Dynamo
프리필(prefill)과 디코드(decode) 작업을 각각 다른 GPU로 분리해
작업 부하를 균형 있게 배치한다.
NVFP4 포맷
정확도를 유지하면서 효율을 극대화하는 데이터 포맷.
TensorRT-LLM / vLLM / SGLang
MoE 모델을 위한 큰 규모의 병렬 처리 기법 지원.
특히 SGLang은 실제 NVL72 MoE 성능 최적화에서 핵심 역할을 했다.
실제 성능: 주요 모델의 10배 성능 향상
GB200 NVL72는 단순한 벤치마크 결과가 아닌
다수의 실제 모델에서 10배 향상이라는 결과를 보여주었다.
DeepSeek-R1
- NVIDIA GTC에서 Jensen Huang이 직접 발표
- H200 대비 NVL72에서 10배 가속
Kimi K2 Thinking
- AA 리더보드에서 가장 지능 지수가 높은 오픈소스 모델
- NVL72에서 10배 더 빠른 토큰 생성
- Fireworks AI에서 실제 서비스용으로 배포
Mistral Large 3
- MoE 모델로 NVL72에서 10배 성능 향상
- 낮은 비용, 높은 효율, 더 많은 사용자 처리량 확보
이 성능 향상은 단순히 속도 증가가 아니라
전력 대비 성능(performance per watt) 개선까지 포함한다.
이는 데이터센터 비용 구조를 완전히 바꿀 수 있는 수준이다.
왜 이 변화가 중요한가: MoE 구조의 미래
AI 모델이 멀티모달과 에이전트 구조로 확장되면서
‘전문가를 선택적으로 사용하는’ 방식은 더욱 중요해지고 있다.
예를 들어:
- 멀티모달 모델: 언어, 비전, 오디오 모듈을 선택적으로 호출
- 에이전트 시스템: 계획, 추론, 검색, 도구 사용 등 각기 다른 에이전트를 라우팅
- 여러 애플리케이션이 공동으로 전문가 풀을 공유하는 구조
이 모든 구조는 MoE가 가진 철학과 완전히 일치한다.
결국 MoE는 단순한 모델 아키텍처가 아니라
대규모 AI를 운영하는 새로운 패러다임이다.
MoE는 앞으로의 AI 인프라의 중심, NVL72는 그 핵심 엔진
정리하면 다음과 같다.
- MoE는 Dense 모델 대비 훨씬 효율적이며, 거대한 모델을 낮은 비용으로 운영할 수 있는 구조이다.
- 현재 가장 뛰어난 AI 모델들은 대부분 MoE 기반으로 전환했다.
- NVIDIA GB200 NVL72는 MoE 모델의 병목을 제거해 실제 운영 환경에서 10배 성능 향상을 제공한다.
- 이는 단순한 성능 향상을 넘어 AI 데이터센터의 비용과 확장성, 사용자 경험에 직접적인 혁신을 가져온다.
AI 모델이 점점 더 거대하고 복잡해지는 시대,
MoE는 확장성과 비용 문제를 동시에 해결할 수 있는 가장 현실적인 대안이며,
NVL72는 그 가능성을 실제 환경에서 실현하는 핵심 기술이다.
앞으로의 AI는 더 많은 전문가를 갖춘 모델이 될 것이며,
그 전문가들이 제대로 일할 수 있는 환경을 만드는 것이 바로 NVL72의 역할이다.
Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster on NVIDIA Blackwell NVL72
Kimi K2 Thinking, DeepSeek-R1, Mistral Large 3 and others run 10x faster on NVIDIA GB200 NVL72.
blogs.nvidia.com

'인공지능' 카테고리의 다른 글
| AG-UI: 에이전트 기반 애플리케이션을 위한 인터랙션 프로토콜 (0) | 2025.12.06 |
|---|---|
| Qwen3-VL: 256K 멀티모달 컨텍스트로 진화한 비전-언어 모델의 핵심 정리 (0) | 2025.12.05 |
| 브라우저에서 실행되는 Postgres, PGlite 완전 정리 (0) | 2025.12.05 |
| Anthropic Interviewer: 1,250명 전문가가 말한 AI 활용의 진짜 변화 (0) | 2025.12.05 |
| Claude 4.5 Opus ‘소울 문서’ 논란 정리: AI 내부 가치 구조가 드러난 첫 사례 (0) | 2025.12.05 |