복잡한 수학 문제와 코딩, 논리 퍼즐을 해결하는 데 AI를 사용하고 싶다면, 반드시 알아야 할 모델이 있습니다. Microsoft에서 개발한 Phi-4-reasoning과 Phi-4-reasoning-plus는 140억 개 파라미터를 가진 비교적 소형 모델임에도, 거대한 오픈소스 모델을 능가하는 추론 능력을 보여주고 있습니다. 이 블로그에서는 이 두 모델이 어떻게 설계되었고, 어떤 데이터로 학습되었으며, 실제로 어떤 분야에서 뛰어난 성과를 보였는지를 다룹니다. 데이터 선별과 강화 학습의 효과, 그리고 평가 방법론까지 함께 살펴봅니다.
🔍 모델 개요: Phi-4-reasoning이란?
Phi-4-reasoning은 Microsoft가 개발한 140억 파라미터의 언어 모델 Phi-4를 기반으로 한 추론 특화 모델입니다.
기존 Phi-4 모델에 **지도 학습(Supervised Fine-Tuning, SFT)**을 적용하여 추론 능력을 대폭 끌어올린 것이 핵심입니다.
핵심 차별점:
단순한 크기 경쟁이 아니라, '가르치기 좋은(teachable)' 데이터 선별과 구조적 강화 학습으로 추론 능력을 극대화했다는 점.
📚 학습 데이터 및 방법: SFT로 어떻게 훈련되었는가?
1. 데이터의 선별 기준
- 140만 개 이상의 프롬프트-응답 쌍
- 총 83억 개 토큰
- STEM, 코딩, 안전 주제 포함
- "모델의 한계를 자극할 수 있는 어려운 샘플" 위주로 구성
2. 학습 방식
- SFT(Supervised Fine-Tuning) 방식으로 약 16K 스텝 학습
- AdamW 옵티마이저 사용 (학습률 10−510^{-5})
- 시스템 메시지 활용으로 추론 흐름 일관성 유도
- 데이터 믹스를 도메인별로 최적화하여 성능 향상
📌 비오염(Decontamination) 철저: 학습 데이터와 벤치마크 간 중복 방지로 공정한 평가 보장
🚀 Phi-4-reasoning-plus: RL로 성능을 한 단계 더
Phi-4-reasoning-plus는 기존 모델에 **강화 학습(Reinforcement Learning, RL)**을 추가 적용한 확장 버전입니다.
주요 목표는 수학적 추론 성능 극대화였습니다.
💡 학습 방식 요약
- GRPO(Group Relative Policy Optimization) 알고리즘 적용
- 약 6,000개 고난도 수학 문제 서브셋 사용
- 결과 기반 보상 함수 RfinalR_{\text{final}} 구성:
- 정확도 기반 보상 Racc_scaledR_{\text{acc\_scaled}}
- 반복성 감소 보상 RrepR_{\text{rep}}
👉 오답 시 더 긴 사고 과정을 유도하도록 길이 중심 보상을 적용한 점이 매우 특징적입니다.
📈 성능 분석: 거대 모델과 비교해도 꿇리지 않는다!
🧮 수학/코딩 분야 성능
- AIME, HMMT, OmniMath, Codeforces 등에서 대형 모델(70B~670B)과 대등하거나 앞섬
- 특히 AIME 2025에서는 DeepSeek-R1(671B)에 근접
🧠 일반 추론 벤치마크
- ArenaHard, FlenQA, MMLUPro 등에서도 우수한 성능
- 작은 모델임에도 높은 정확도와 일반화 성능 달성
🧪 안전성 평가
- Toxigen 벤치마크에서 독성 판단 균형 향상
- 자동화된 RAI 측정 프레임워크로 추가 검증 수행
⚠️ 모델 한계 및 개선 과제
- 최대 32K 토큰 길이 제한 → 긴 문맥 유지에 제약
- 연속 대화(멀티턴)에서 일관성 유지 어려움
- 영어 중심, 사실 오류 가능성, 코딩 도구 한계 존재
- 수학/과학/이산 수학 외 도메인에서는 성능 저조
🔍 단일 실행 결과의 높은 편차는 모델 평가 시 복수 실행 기반 통계적 방법 도입 필요성을 시사합니다.
Phi-4-reasoning과 Phi-4-reasoning-plus는 ‘작지만 강한’ 추론 특화 모델로, 크기보다 학습 전략과 데이터 질이 얼마나 중요한지를 잘 보여주는 사례입니다.
특히, 정확히 선별된 학습 데이터와 보상 설계가 추론 모델의 성능을 어떻게 끌어올릴 수 있는지를 입증했습니다.
'인공지능' 카테고리의 다른 글
AI가 당신 대신 코드를 짠다? 마크 저커버그의 충격 발언과 다가오는 개발의 미래 (0) | 2025.05.02 |
---|---|
AI 에이전트의 연결고리: A2A, MCP, Kafka, Flink로 완성하는 실시간 협업 스택 (0) | 2025.05.02 |
에이전트를 안정적으로 운영하고 싶다면? 지금 주목해야 할 ‘AgentOps’ (0) | 2025.05.01 |
“구글 없이도 검색이 될까?” – 메타가 만드는 AI 검색 엔진의 미래 (0) | 2025.05.01 |
AI 보안의 새 판을 여는 도구, 메타의 ‘라마 가드 4’ 전격 공개 - 인공지능과 블록체인의 보안 접점을 새롭게 잇다 (0) | 2025.05.01 |