
최근 DeepSeek AI가 공개한 DeepSeekMath-V2는 단순한 수학 특화 AI 모델이 아니다. 이 모델은 올림피아드급 난이도의 문제를 스스로 증명하고, 스스로 검증하며, 스스로 수정하는 새로운 접근법을 통해 Putnam 2024에서 118/120점을 기록했다. 이는 같은 해 최고 인간 점수인 90점을 크게 넘어서는 성적이다.
이 글에서는 DeepSeekMath-V2가 어떤 방식으로 이런 성능을 달성했는지, 기존 수학 모델과 무엇이 다른지, 그리고 왜 이 모델이 중요한 기술적 전환점인지 하나씩 정리한다.
DeepSeekMath-V2란 무엇인가
DeepSeekMath-V2는 DeepSeek V3.2 Exp Base를 기반으로 한 685B 파라미터 Mixture-of-Experts(MoE) 모델이다.
특징은 다음과 같다.
- 자연어 기반 수학 정리 증명(Natural-Language Theorem Proving)에 최적화
- 증명 과정의 정확성, 논리적 일관성, 완결성을 평가하는 자체 검증(Self-Verification) 구조
- Apache 2.0 라이선스로 오픈 웨이트 공개
- Hugging Face에서 바로 다운로드 가능
이 모델의 핵심 목표는 단순히 답을 맞히는 것이 아니라,
**‘올바른 논리적 과정을 통해 답을 도출하는 것’**이다.
기존 수학 모델의 한계: 정답 중심 보상의 문제
대부분의 수학 모델은 RL 보상을 줄 때 최종 답이 맞았는지만 본다.
예를 들어 AIME, HMMT처럼 단일 숫자로 답을 제출하는 문제에 최적화된다.
하지만 이 방식에는 두 가지 구조적 문제가 있다.
- 정답이 맞아도 추론이 틀릴 수 있다
계산 실수가 우연히 상쇄되어 답만 맞는 경우, 모델은 잘못된 추론을 계속 강화하게 된다. - 증명형 문제는 정답이 없다
IMO나 CMO 문제는 논리적 설명을 포함한 완전한 증명을 요구한다.
즉, 정답 기반 보상만으로는 수준 높은 수학 추론 모델을 만들 수 없다.
DeepSeekMath-V2는 이 한계를 해결하기 위해 ‘정답’이 아닌 ‘증명 품질’ 자체를 보상 신호로 사용한다.
Verifier-First 접근: 먼저 채점기를 만든다
DeepSeekMath-V2의 가장 중요한 혁신은 Proof Generator보다 Verifier를 먼저 학습하는 구조다.
Verifier는 무엇을 하는가?
- 입력: 문제 + 후보 증명
- 출력:
- 증명 분석(Natural Language)
- 품질 점수 {0, 0.5, 1}
예:
0 = 논리 오류, 누락된 단계
0.5 = 부분적으로 맞지만 불완전
1 = 완전한 증명
학습 데이터
- Art of Problem Solving(AoPS) 기반, 17,503개 증명형 문제 크롤링
- DeepSeek-V3.2 모델이 생성한 다양한 수준의 후보 증명
- 수학 전문가가 0/0.5/1 점수 부여
Verifier는 GRPO(Group Relative Policy Optimization)로 학습되며
- 출력 포맷 점수
- 정답 점수
두 가지 보상을 통해 매끄럽고 일관된 평가를 수행하는 ‘수학 채점기’로 완성된다.
Meta Verifier의 등장: “그 분석, 정말 맞아?”
Verifier가 완성되면 문제가 하나 남는다.
“채점은 맞는데 분석이 틀렸다면?”
예를 들어 Verifier가 이런 식으로 속일 수도 있다.
- 최종 점수는 정확히 맞춤
- 하지만 분석에서 존재하지 않는 오류를 지적하거나 잘못된 논리를 언급함
이를 막기 위해 등장한 것이 Meta Verifier이다.
Meta Verifier의 역할
입력:
- 문제
- 후보 증명
- Verifier의 분석
출력:
- 분석이 증명 내용과 일치하는지,
- 지적한 문제가 실제 문제인지,
- 결론과 분석이 일관되는지
를 점수화한 Meta Score.
Meta Verifier 또한 GRPO로 학습된다.
이 구조 덕분에 Verifier의 분석 품질은 Validation에서 0.85 → 0.96으로 향상되었다.
Self-Verifying Proof Generator: 스스로 쓰고 스스로 검증한다
Verifier와 Meta Verifier가 충분히 강해지면 이제 **Proof Generator(생성기)**를 학습한다.
Proof Generator는 세 가지를 한 번에 생성한다.
- 증명
- 자기 분석(Self-Analysis)
- 자기 채점(Self-Score)
보상 구성
보상은 다음 세 요소의 조합이다.
- Verifier의 증명 점수
- Self Score와 Verifier Score의 일치도
- Self Analysis에 대한 Meta Score
가중치:
- α = 0.76 (증명 점수 비중)
- β = 0.24 (분석 정합성 비중)
즉,
잘못된 증명을 높은 점수로 주장하면 오히려 패널티가 커진다.
모델이 정직하게 스스로를 평가하도록 강하게 설계된 것이다.
Sequential Refinement: 128K 컨텍스트를 활용한 순차 개선
어려운 문제는 한 번에 완벽히 고칠 수 없다.
특히 긴 증명은 128K 토큰 안에 모두 넣기 어렵기 때문이다.
그래서 DeepSeekMath-V2는 다음과 같은 루프를 반복한다.
- 초안 증명 생성
- Self Analysis 생성
- Verifier & Meta Verifier가 문제점 지적
- 이전 증명 + 분석을 입력으로 넣고 새로운 증명 생성
이 반복 과정을 통해 점점 더 완성도 높은 증명이 만들어진다.
이 방식은 IMO Shortlist 2024 평가에서 ‘Best-of-32’ 성능을 크게 끌어올렸다.
자동 증명 라벨링 파이프라인: 사람이 하지 않아도 된다
Proof Generator가 강해지면 사람이 라벨링을 따라잡기 어렵다.
DeepSeek AI는 이를 해결하기 위해
Scaled Verification 기반 자동 라벨링 시스템을 도입했다.
동작 방식:
- Verifier가 여러 버전의 분석을 생성
- 모든 분석을 Meta Verifier로 평가
- 높은 품질의 분석만 남김
- 공통으로 지적된 문제가 실제 결함이면 “오답”
- 문제가 없으면 “정답”
최종 단계에서는 사람이 거의 개입하지 않아도 안정적으로 라벨링이 가능해졌다.
실제 성능: 인간 최고점을 넘어서는 수학 AI
DeepSeekMath-V2는 다양한 벤치마크에서 강력한 결과를 보였다.
내부 CNML 91문항 평가
- 대수, 기하, 조합론, 수론 등 전 분야에서
- Gemini 2.5 Pro, GPT-5 Thinking High보다 높은 평균 증명 점수 달성
IMO Shortlist 2024
- Sequential refinement 반복 횟수가 증가할수록 품질이 지속적으로 향상됨
IMO ProofBench
- DeepMind DeepThink IMO Gold보다 높은 성능
- Basic subset은 명확한 우위
- Advanced subset은 근소한 차이로 경쟁 수준
대회 성적
- IMO 2025: 6문 중 5문 완전 해결 (Gold 수준)
- CMO 2024: 4문 완전 해결 + 1문 부분 점수
- Putnam 2024: 118/120점(인간 최고점 90점 초과)
이 결과는 DeepSeekMath-V2가 단순 문제 풀이 모델이 아니라,
고난도 수학 증명을 안정적으로 생성하는 최초의 대규모 오픈 모델임을 보여준다.
deepseek-ai/DeepSeek-Math-V2 · Hugging Face
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning 1. Introduction Large language models have made significant progress in mathematical reasoning, which serves as an important testbed for AI and could impact scientific research if further adva
huggingface.co
DeepSeekMath-V2가 의미하는 미래
DeepSeekMath-V2는 “정답 중심 LLM” 시대에서
“논리 중심 LLM” 시대로의 전환점이다.
핵심 혁신은 다음 세 가지다.
- Verifier-First — 문제 해결 모델보다 먼저 ‘채점기’를 학습
- Meta Verification — 분석의 신뢰성을 강제
- Self-Verifying Generator — 모델이 스스로 풀고 스스로 검증하며 성장하는 구조
이 모델의 출시는 다음과 같은 큰 의미를 갖는다.
- 고난도 수학 증명 자동화 가능성 확대
- 정형 검증(Formal Verification), 과학 연구 자동화 등으로 확장될 기반 마련
- Open Weights 공개로 연구 커뮤니티 전체의 혁신 가속
DeepSeekMath-V2는 단순한 성능 향상을 넘어,
AI가 스스로 사고(Solving)하고 스스로 검증(Checking)하는 구조의 실용성을 입증한 첫 사례라는 점에서 역사적 전환점이라 할 수 있다.
이제 본격적으로 ‘추론의 질’을 중심으로 AI를 설계하는 시대가 열리고 있다.
DeepSeek AI Releases DeepSeekMath-V2: The Open Weights Maths Model That Scored 118/120 on Putnam 2024
DeepSeek AI Releases DeepSeekMath-V2: The Open Weights AI Maths Model That Scored 118/120 on Putnam 2024 and is trending
www.marktechpost.com
