
이 글은 Allen Institute for AI(Ai2)가 공개한 오픈소스 언어 모델 패밀리 Olmo 3를 중심으로, 왜 이 모델이 기존 오픈소스 AI와 다른지, 어떤 구조와 학습 과정을 거쳤는지, 그리고 연구와 개발 관점에서 어떤 의미를 가지는지를 정리한 글입니다. 단순히 “성능 좋은 모델”을 넘어, 데이터부터 코드, 체크포인트까지 모든 개발 흐름(model flow)을 공개한 Olmo 3의 특징과 활용 가치를 살펴봅니다.
Olmo 3란 무엇인가
Olmo 3는 Ai2가 공개한 차세대 오픈소스 언어 모델 패밀리로, 핵심 목표는 모델의 최종 결과뿐 아니라 전체 개발 과정 자체를 투명하게 공개하는 것입니다.
여기서 말하는 모델 플로우(model flow)는 다음을 모두 포함합니다.
- 데이터 수집과 전처리
- 사전학습과 후학습
- 미세조정과 강화학습
- 각 단계별 체크포인트
이 접근 방식 덕분에 연구자와 개발자는 모델이 어떤 데이터로, 어떤 과정을 거쳐 현재의 성능에 도달했는지를 직접 확인하고, 필요한 지점에서 수정하거나 재학습할 수 있습니다.
Olmo 3는 7B와 32B 파라미터 모델로 제공되어, 개인 연구 환경부터 대규모 연구 클러스터까지 폭넓게 활용할 수 있도록 설계되었습니다.
Olmo 3 모델 구성과 목적별 활용
Olmo 3는 단일 모델이 아니라, 연구 목적에 따라 선택할 수 있는 네 가지 모델 계열로 구성됩니다.
Olmo 3-Base (7B, 32B)
- 완전히 공개된 베이스 언어 모델
- 코드, 수학, 독해 등 다양한 영역에서 최상급 성능
- Qwen 2.5, Gemma 3 등 동급 모델과 경쟁
- 최대 65K 토큰 컨텍스트 지원
기초 연구나 도메인 특화 파인튜닝의 출발점으로 적합합니다.
Olmo 3-Think (7B, 32B)
- 다단계 추론 문제에 특화된 모델
- 강화학습(RL) 연구와 장기적 사고 실험에 적합
- 32B 모델은 MATH, OMEGA, BigBenchHard 등에서 동급 최고 수준 성능
복잡한 추론 과정 분석이나 사고 체인 연구에 활용할 수 있습니다.
Olmo 3-Instruct (7B)
- 대화, 명령 수행, 도구 사용에 최적화
- Qwen 2.5, Gemma 3, Llama 3.1과 비교해 동급 혹은 상회
- 안전성(Safety) 평가에서 87.3점으로 최고 수준
실제 서비스형 챗봇이나 명령 기반 AI에 적합한 모델입니다.
Olmo 3-RL Zero (7B)
- 강화학습 알고리듬 평가용으로 설계
- 수학, 코드, 지시 따르기 등 4개 도메인 체크포인트 제공
- 강화학습 전 과정이 공개된 실험 환경 제공
RL 알고리듬 자체를 연구하는 연구자에게 의미 있는 기준점을 제공합니다.

성능과 벤치마크 결과
Olmo 3는 “완전 공개”를 유지하면서도 경쟁력 있는 성능을 보여줍니다.
- Olmo 3-Base 32B
- GSM8k(수학): 80.5점
- HumanEval(코드): 66.5점
- Marin 32B, Apertus 70B 등 완전 공개 모델 능가
- Olmo 3-Think 32B
- Qwen 3 32B와 유사하거나 근접한 성능
- HumanEvalPlus, IFEval 등에서 최고 점수 기록
- Olmo 3-Instruct 7B
- 안전성 평가에서 비교 모델 중 최고 점수
이는 투명성과 성능을 동시에 달성할 수 있음을 보여주는 사례입니다.
아키텍처와 학습 과정의 투명성
Olmo 3는 디코더 전용 트랜스포머 구조를 사용하며, 학습 과정이 단계별로 명확히 공개됩니다.
사전학습
- 3단계 구성: 기초 → 중간 → 장문(Long Context)
후학습
- SFT → DPO → RLVR
- 각 단계별 체크포인트 공개
연구자는 원하는 시점의 모델을 포크해 실험하거나, 특정 학습 전략의 효과를 직접 검증할 수 있습니다.
데이터셋 공개와 추적 가능성
Olmo 3의 또 다른 핵심은 학습 데이터의 투명성입니다.
- Dolma 3: 약 9.3조 토큰 규모
- Dolma 3 Mix: 6조 토큰
- Dolmino: 1,000억 토큰
- Longmino: 500억 토큰
- Dolci 데이터셋
- SFT, DPO, RLVR 단계별로 분리 제공
또한 OlmoTrace 도구를 통해 모델의 출력이 어떤 학습 데이터에서 비롯되었는지 실시간으로 추적할 수 있어, 모델 행동의 원인을 분석하고 신뢰성을 검증할 수 있습니다.
효율적인 학습 인프라와 도구 생태계
Olmo 3는 대규모 학습 환경에서도 효율성을 고려해 설계되었습니다.
- 최대 1,024개의 H100 GPU 사용
- 7B 모델 기준 7.7K 토큰/초 처리
- RL 학습 효율 4배 향상
관련 도구들도 모두 오픈소스로 공개됩니다.
- Olmo-core: 분산 학습 프레임워크
- Open Instruct: 후학습 파이프라인
- datamap-rs, duplodocus: 데이터 정제 및 중복 제거
- OLMES: 평가 툴킷
이를 통해 연구자는 모델의 중간 추론 단계와 실패 지점을 체계적으로 분석할 수 있습니다.
Olmo 3의 의의와 기대 효과
Olmo 3는 단순한 오픈 웨이트 모델이 아니라, 검증 가능한 AI 연구를 위한 기준점을 제시합니다.
- 모델 개발 전 과정 공개로 재현성과 검증 가능성 강화
- 연구·교육·응용 개발 전반에서 신뢰 가능한 AI 구축 지원
- 누구나 모델을 이해하고 개선할 수 있는 개방형 연구 환경 제공
Ai2가 밝힌 것처럼, Olmo 3는 “접근성”을 넘어 신뢰와 책임, 공동 발전을 지향하는 오픈소스 AI의 새로운 방향을 보여줍니다.
앞으로 Olmo 3는 투명한 AI 연구 생태계를 확장하는 핵심 사례로 활용될 가능성이 큽니다.
https://allenai.org/blog/olmo3
Olmo 3: Charting a path through the model flow to lead open-source AI | Ai2
Our new flagship Olmo 3 model family empowers the open source community with not only state-of-the-art open models, but the entire model flow and full traceability back to training data.
allenai.org

'인공지능' 카테고리의 다른 글
| OpenAI Circuit-Sparsity 공개: 가중치 희소 트랜스포머와 해석 가능한 회로의 연결 (0) | 2025.12.15 |
|---|---|
| Claude Code Philosopher Ignition: 비즈니스·기술 문제 해결을 한 단계 끌어올리는 사고 프레임워크 (0) | 2025.12.15 |
| OpenAI ChatGPT와 Codex CLI에 도입된 Skills 기능 정리와 활용 사례 (0) | 2025.12.15 |
| LLM 실제 활용 트렌드를 드러낸 OpenRouter 100조 토큰 분석 보고서 (0) | 2025.12.12 |
| 최대 5배까지 빨라진 LLM 파인튜닝: Unsloth 커스텀 커널과 패킹 기술 완전 정리 (0) | 2025.12.12 |