
NVIDIA가 새로운 오픈소스 대규모 언어 모델(LLM) Nemotron 3 모델군을 공개했습니다.
이번 발표는 단순한 모델 출시를 넘어, 추론 효율성·확장성·신뢰성을 핵심으로 한 차세대 Agentic AI를 겨냥하고 있다는 점에서 주목받고 있습니다.
이 글에서는 NVIDIA Nemotron 3가 무엇인지, 기존 LLM과 어떤 기술적 차별점을 가지는지, 그리고 왜 이 모델이 현재 AI 시장에서 의미 있는 선택지로 평가받는지를 핵심 기술 중심으로 정리합니다.
NVIDIA Nemotron 3 모델군 개요
NVIDIA Nemotron 3는 Nano, Super, Ultra 세 가지 모델로 구성된 오픈소스 LLM 제품군입니다.
- Agentic AI 애플리케이션을 목표로 설계
- 최대 1M 토큰 컨텍스트 길이 지원
- 높은 추론 처리량과 효율성 중심의 구조
- 모델 가중치, 학습 소프트웨어, 데이터까지 공개 예정
특히 Nemotron 3 Nano는 이미 공개되었으며, Super와 Ultra 모델은 향후 순차적으로 출시될 예정입니다.
Hybrid Mamba-Transformer MoE 아키텍처
Nemotron 3의 가장 핵심적인 기술은 Hybrid Mamba-Transformer MoE 아키텍처입니다.
기존 Transformer의 한계
기존 Transformer 기반 LLM은 Self-Attention 계층에서 KV Cache가 시퀀스 길이에 따라 선형적으로 증가해,
긴 문맥 처리 시 추론 병목과 메모리 부담이 발생합니다.
Nemotron 3의 접근 방식
Nemotron 3는 다음 세 요소를 균형 있게 결합합니다.
- MoE (Mixture-of-Experts): Sparse Parameter Scaling
- Self-Attention: 고정밀 정보 라우팅
- Mamba-2 계층: 고정된 연산·메모리로 시퀀스 모델링
이를 통해 Self-Attention 계층 수를 최소화하면서도,
동급 Transformer MoE 대비 훨씬 높은 추론 처리량을 달성합니다.
예: Nemotron 3 Nano는 Qwen3-30B-A3B 대비 약 3.3배 높은 처리량을 기록
LatentMoE: 정확도를 유지하며 더 효율적으로
LatentMoE는 Nemotron 3의 또 다른 핵심 기술로,
“Accuracy per Byte”를 개선하기 위한 새로운 MoE 설계 방식입니다.
어떻게 동작하나?
- 토큰 임베딩을 원본 차원(d)에서 더 작은 Latent 차원(ℓ)으로 투영
- 전문가 라우팅과 연산을 Latent Space에서 수행
- 이후 다시 원본 차원으로 복원
기대 효과
- 파라미터 로드 및 All-to-All 통신량을 d/ℓ 배 감소
- 절약된 자원을 활용해:
- 전문가 수 증가
- 토큰당 활성 전문가 수 증가
- 계산·통신 비용은 유지하면서 모델 품질 향상
실제로 LatentMoE는 MMLU-Pro, 코드, 수학, 상식 이해 등 다양한 벤치마크에서
기존 MoE 대비 일관된 정확도 향상을 보여주었습니다.
Multi-Token Prediction(MTP): 빠르고 똑똑한 추론
Nemotron 3는 Multi-Token Prediction(MTP) 기법을 통합해
정확도와 추론 속도를 동시에 개선합니다.
핵심 포인트
- 한 번에 여러 미래 토큰을 예측
- 모델이 여러 단계를 미리 계획하도록 학습
- Speculative Decoding용 Draft Token으로 활용 가능
결과
- 약 2.4% 정확도 향상
- 첫 두 토큰 예측에서 97% Accept Rate
- 별도 Draft 모델 없이도 실질적인 추론 가속 달성
NVFP4 Training: 대규모 모델을 위한 학습 효율
Nemotron 3 Super 및 Ultra 모델은 NVFP4 Number Format을 사용해 사전 학습됩니다.
주요 특징
- Weight, Activation, Gradient 모두 NVFP4로 양자화
- GB300 기준 FP4 처리량은 FP8 대비 3배
- 안정성을 위해:
- 네트워크 마지막 15%는 BF16 유지
- Attention QKV 및 Projection도 BF16 유지
결과적으로 BF16 대비 Loss Gap이 작고,
모델 규모가 커질수록 성능 차이는 더욱 줄어듭니다.
최대 1M 토큰 Long Context 지원
Nemotron 3는 최대 1M 토큰 컨텍스트 길이를 지원해
장기적이고 복잡한 Agentic 추론을 가능하게 합니다.
기술적 장점
- Mamba 계층이 암묵적 위치 정보를 제공
- RoPE 미사용 → OOD 문제 회피
- Nano 모델은:
- 512k 토큰 CPT
- 256k 토큰 SFT 수행
긴 입력에서도 NLL이 감소하며,
긴 문맥을 효과적으로 활용할 수 있음이 벤치마크로 입증되었습니다.
Multi-environment RL 후처리 학습
Nemotron 3는 단일 목적이 아닌,
다양한 Agentic 환경을 동시에 학습합니다.
포함된 RL 환경
- 수학·과학 추론
- 경쟁 코딩
- 명령어 수행
- 소프트웨어 엔지니어링
- 검색, 채팅, 도구 사용
- Long Context 환경
이 방식은 기존 단계별 학습보다:
- 더 안정적
- Reward Hacking에 덜 취약
- 전반적인 성능이 우수합니다
Granular Reasoning Budget Control
Nemotron 3는 추론 시 사고 토큰 예산을 사용자가 직접 제어할 수 있습니다.
- 지정된 토큰 예산 내에서 사고(Thinking Trace) 수행
- 예산 초과 시 </think> 토큰으로 사고 종료
- 정확도와 효율성 간의 Trade-off를 세밀하게 조절 가능
이는 실제 AI 서비스 환경에서 매우 실용적인 기능입니다.
NVIDIA Nemotron 3는 단순한 오픈소스 LLM이 아닙니다.
추론 효율성, 대규모 컨텍스트, Agentic AI 활용성, 그리고 투명성을 모두 고려한 설계입니다.
특히:
- Hybrid 아키텍처 기반 고속 추론
- LatentMoE와 MTP를 통한 품질·효율 동시 확보
- 모델, 데이터, 학습 도구까지 공개하겠다는 명확한 방향성
이는 보안과 신뢰성을 중시하는 기업·정부·연구 기관에게
의존 가능한 오픈소스 AI 모델이라는 강력한 메시지를 전달합니다.
앞으로 Super와 Ultra 모델이 공개되면,
Nemotron 3는 오픈소스 LLM 생태계에서 더욱 중요한 기준점이 될 것으로 기대됩니다.
https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-White-Paper.pdf

'인공지능' 카테고리의 다른 글
| DeepCode: 논문을 읽고 스스로 코드베이스를 완성하는 자율 코딩 에이전트의 진화 (0) | 2025.12.16 |
|---|---|
| Google TPU란 무엇인가? - 딥러닝 시대, 성능이 아닌 운영 효율을 선택한 Google의 계산 전략 (0) | 2025.12.16 |
| CUDA-L2: 강화학습으로 cuBLAS를 넘어서는 행렬 곱셈 CUDA 커널 최적화 기술 (0) | 2025.12.16 |
| LLM 강화학습의 기본기로 돌아가다: Qwen 팀이 밝힌 안정적인 RL의 원칙 (0) | 2025.12.16 |
| AI 코딩 도구로 프로그래밍 효율과 코드 품질을 함께 높이는 실전 전략 정리 (0) | 2025.12.15 |