본문 바로가기

인공지능

INTELLECT-3: 100B+ 규모 RL 기반 Mixture-of-Experts 모델의 탄생과 기술적 혁신

반응형

최근 AI 업계에서는 대규모 언어 모델의 성능 경쟁이 한층 치열해지고 있습니다. 그 가운데 INTELLECT-3는 단순히 “더 큰 모델”이 아니라, 대규모 강화학습(RL)을 실제로 확장해 실용적 성과를 낸 모델이라는 점에서 주목받고 있습니다. 특히 100B+ 규모의 Mixture-of-Experts 구조에 RL을 결합해 수학, 코드, 과학, 추론 등 다양한 고난도 영역에서 동급 모델 대비 최고 수준의 성능을 기록했습니다.

이 글에서는 INTELLECT-3의 기술적 개념, RL 기반 학습 방식, 사용된 인프라, 오픈소스 생태계, 그리고 앞으로 기대되는 변화까지 전체 흐름을 쉽게 정리해 소개합니다.

반응형

1. INTELLECT-3란 무엇인가

INTELLECT-3는 106B 파라미터 규모의 Mixture-of-Experts(MoE) 모델로, GLM 4.5 Air 기반 모델을 Supervised Fine-Tuning(SFT)과 대규모 Reinforcement Learning(RL)로 강화한 모델입니다.
기존 RL 모델들이 소규모 실험에 머물렀다면, INTELLECT-3는 512개의 NVIDIA H200 GPU 클러스터에서 두 달간 실제 대규모 환경에서 RL을 안정적으로 확장해냈습니다.

이 모델의 핵심은 다음 두 가지입니다.

  • 대규모 RL을 실제 production 규모로 확장
  • 수학·코드·추론 등 복잡한 reasoning 태스크에서 동급 모델 대비 최고 성능 달성

또한 PrimeIntellect는 모델뿐 아니라 학습 프레임워크(PRIME-RL), verifiers, RL environments 등 전체 학습 레시피와 생태계를 오픈소스로 공개하며 투명성과 재현성을 보장했습니다.


2. 성능 및 벤치마크 특징

INTELLECT-3는 동일 규모 모델을 넘어 일부 더 큰 모델보다도 뛰어난 성능을 기록했습니다. 특히 다음 영역에서 강점을 보입니다.

  • 수학 문제 해결 성능
  • 코드 생성 및 디버깅
  • 과학적 추론
  • 논리 추론 및 에이전트형 reasoning

학습 과정에서도 벤치마크 점수는 꾸준히 상승하며 plateau에 이르지 않아, 추가 학습 시 더 높은 성능 향상 가능성도 확인되었습니다.


3. INTELLECT-3를 가능하게 한 학습 인프라

INTELLECT-3의 가장 큰 차별점 중 하나는 모델 자체보다, 그 모델을 학습시키는 데 사용된 강력한 RL 및 인프라 스택입니다.

3-1. PRIME-RL: 비동기(async-only) 대규모 RL 프레임워크

PRIME-RL은 INTELLECT-3 학습의 핵심 기술입니다. 이 프레임워크는 다음과 같은 특징을 가집니다.

1) 완전 비동기(async-only)

기존 RL은 느린 rollout이 전체 학습 속도를 떨어뜨리는 병목이 있었습니다.
INTELLECT-3는 항상 오프폴리시(off-policy) 상태로 학습되며, 비동기 구조를 통해 느린 태스크가 전체 진행을 방해하지 않게 설계돼 있습니다.

2) verifiers 및 Environments Hub와의 네이티브 통합

PRIME-RL은 평가, synthetic data 생성, RL training을 하나의 흐름으로 연결해
데이터 → 학습 → 검증이 자동 순환되는 구조를 제공합니다.

3) 긴 롤아웃(long-horizon) 에이전트 학습에 적합

에이전트형 코딩, 연구, 탐색 기반 태스크에서 long-horizon 행동을 학습하기 위한 구조를 갖추고 있어 향후 agentic LLM 발전 기반을 마련했습니다.


3-2. Verifiers & Environments Hub

Environments Hub는 RL 기반 LLM 학습을 위한 오픈 커뮤니티 환경 저장소입니다.

주요 특징은 다음과 같습니다.

  • verifiers 기반의 환경을 독립된 Python 모듈로 버전 관리
  • 학습 환경과 모델 학습 코드를 분리하여 반복 실험·업데이트 용이
  • 수학·과학·코딩·논리·연구 등 500개 이상의 RL 환경 제공

INTELLECT-3는 이 허브의 다양한 reasoning 환경을 활용하여 모델의 고차원 능력을 크게 향상시켰습니다.


3-3. Prime Sandboxes: 초고속 에이전트 코드 실행 플랫폼

에이전트형 모델은 안전한 코드 실행 환경이 필수적입니다.
PrimeIntellect는 기존 Kubernetes 기반 구조의 속도 한계를 해결하기 위해 Sandboxes를 새롭게 제작했습니다.

Sandboxes의 핵심은 다음과 같습니다.

  • Kubernetes control plane을 우회하는 직접 Rust-to-pod 실행 경로
  • 수백 개의 샌드박스를 노드당 동시에 처리
  • 샌드박스 실행 준비(sub-10s) 및 실제 코드 실행 지연(ms 단위)
  • 모델 reasoning과 샌드박스 준비를 겹쳐서 startup time을 사실상 제거

이는 에이전트형 태스크를 대량으로 병렬 처리할 때 결정적인 성능 이점을 제공합니다.


3-4. Compute Orchestration: 512 H200 GPU 클러스터 운영

대규모 RL 실험을 안정적으로 실행하기 위해 복잡한 분산 시스템 관리가 필요합니다.

INTELLECT-3는 다음 인프라 구성을 갖추고 있습니다.

  • 64개 노드 × 8 H200 GPU = 총 512 GPU
  • Ansible 기반 Provisioning 및 자동 장애 노드 격리
  • Slurm + Cgroup v2를 통한 안정적 job 관리
  • Lustre 고속 스토리지 + NVMe 기반 NFS
  • Prometheus + DCGM 기반 고가용성 모니터링

이 덕분에 두 달간 대규모 실험을 안정적으로 유지하며 모델 성능을 꾸준히 끌어올릴 수 있었습니다.


4. INTELLECT-3 학습 레시피

INTELLECT-3 학습은 크게 두 단계로 이뤄졌습니다.

단계 1: Supervised Fine-Tuning

GLM 4.5 Air 기반 모델에 고품질 데이터로 감독 학습 진행.

단계 2: 대규모 Reinforcement Learning

다양한 RL environment mixture(수학, 과학, 코드, 논리, 연구, SW 엔지니어링)를 사용해 모델의 reasoning·에이전트 성능을 강화.

총 2개월 동안 512 H200 GPU를 활용해 여러 ablation과 실험이 병행되었습니다.


5. 오픈소스 자료와 활용 방법

PrimeIntellect는 INTELLECT-3와 관련된 전체 스택을 공개했습니다.

  • 모델 가중치
  • PRIME-RL
  • verifiers
  • 환경 모듈(Environments Hub)
  • 기술 보고서

이로써 누구나 동일한 프레임워크로 자체 RL 기반 모델을 학습시키는 것이 가능해졌습니다.

사용자는 PRIME-RL과 Environments Hub 기반으로 원하는 태스크를 구성하고, 공개된 weight 또는 자신의 모델을 활용해 reasoning 성능을 강화할 수 있습니다.


6. 앞으로의 발전 방향

PrimeIntellect는 다음과 같은 확장 계획을 밝히고 있습니다.

6-1. 더 큰 규모의 Agentic RL

현재도 보상이 상승 중이며 학습이 plateau에 도달하지 않았습니다.
앞으로 더 많은 agentic task를 포함해 추가 성능 향상이 예상됩니다.

6-2. 더 풍부한 RL 환경

500개 이상의 환경 중 일부만 INTELLECT-3 학습에 활용했습니다.
더 다양한 환경으로 확장하면 더욱 폭넓은 reasoning 능력을 확보할 수 있습니다.

6-3. Long-Horizon Agent 연구

모델 스스로 context를 관리하고, 필요한 경우 context를 분리·절단·재구성하는 방식으로
장기 행동을 강화하는 연구를 이어갈 계획입니다.


728x90

INTELLECT-3가 만들어갈 변화

INTELLECT-3는 단순히 또 하나의 대형 모델이 아닙니다.
다음과 같은 의미가 있습니다.

  • 대규모 RL로 실제 SOTA 모델을 학습 가능한 시대의 시작
  • 모델뿐 아니라 전체 학습 생태계(Open RL stack)를 공개한 첫 사례 중 하나
  • 기업·연구자가 자체 에이전트형 LLM을 구축할 수 있는 기반 마련

앞으로 강화학습 기반의 LLM은 단순 지식 답변을 넘어,
코드 작성, 연구 탐색, 자동화, 장기 reasoning 등 더 높은 수준의 행동을 가능하게 할 것입니다.
INTELLECT-3는 이러한 변화의 중요한 전환점에 있는 모델로,
오픈 생태계를 통해 그 가능성이 더 크게 확장될 전망입니다.

300x250

https://www.primeintellect.ai/blog/intellect-3

 

INTELLECT-3: A 100B+ MoE trained with large-scale RL

Today, we release INTELLECT-3, a 100B+ parameter Mixture-of-Experts model trained on our RL stack, achieving state-of-the-art performance for its size across math, code, science and reasoning benchmarks, outperforming many larger frontier models.

www.primeintellect.ai

728x90
반응형
그리드형