본문 바로가기

인공지능

"작지만 강하다" – 14B 추론 특화 모델 Phi-4-Reasoning, 거대 모델을 위협하다!

728x90
반응형

 

https://www.microsoft.com/en-us/research/wp-content/uploads/2025/04/phi_4_reasoning.pdf?fbclid=IwY2xjawKAVbVleHRuA2FlbQIxMABicmlkETFnM0ljWXVKaFJaUG1jdWxzAR5D1NzXlWUwYbkbjDq0fFrmJMoICIYOxbAZ8xQJK9z79zgxnvDrAiRxjPiPFQ_aem_oP1JGyeL4xzmKV5OngLnMA

복잡한 수학 문제와 코딩, 논리 퍼즐을 해결하는 데 AI를 사용하고 싶다면, 반드시 알아야 할 모델이 있습니다. Microsoft에서 개발한 Phi-4-reasoning과 Phi-4-reasoning-plus는 140억 개 파라미터를 가진 비교적 소형 모델임에도, 거대한 오픈소스 모델을 능가하는 추론 능력을 보여주고 있습니다. 이 블로그에서는 이 두 모델이 어떻게 설계되었고, 어떤 데이터로 학습되었으며, 실제로 어떤 분야에서 뛰어난 성과를 보였는지를 다룹니다. 데이터 선별과 강화 학습의 효과, 그리고 평가 방법론까지 함께 살펴봅니다.

반응형

🔍 모델 개요: Phi-4-reasoning이란?

Phi-4-reasoning은 Microsoft가 개발한 140억 파라미터의 언어 모델 Phi-4를 기반으로 한 추론 특화 모델입니다.
기존 Phi-4 모델에 **지도 학습(Supervised Fine-Tuning, SFT)**을 적용하여 추론 능력을 대폭 끌어올린 것이 핵심입니다.

핵심 차별점:
단순한 크기 경쟁이 아니라, '가르치기 좋은(teachable)' 데이터 선별구조적 강화 학습으로 추론 능력을 극대화했다는 점.


📚 학습 데이터 및 방법: SFT로 어떻게 훈련되었는가?

1. 데이터의 선별 기준

  • 140만 개 이상의 프롬프트-응답 쌍
  • 총 83억 개 토큰
  • STEM, 코딩, 안전 주제 포함
  • "모델의 한계를 자극할 수 있는 어려운 샘플" 위주로 구성

2. 학습 방식

  • SFT(Supervised Fine-Tuning) 방식으로 약 16K 스텝 학습
  • AdamW 옵티마이저 사용 (학습률 10−510^{-5})
  • 시스템 메시지 활용으로 추론 흐름 일관성 유도
  • 데이터 믹스를 도메인별로 최적화하여 성능 향상

📌 비오염(Decontamination) 철저: 학습 데이터와 벤치마크 간 중복 방지로 공정한 평가 보장


🚀 Phi-4-reasoning-plus: RL로 성능을 한 단계 더

Phi-4-reasoning-plus는 기존 모델에 **강화 학습(Reinforcement Learning, RL)**을 추가 적용한 확장 버전입니다.
주요 목표는 수학적 추론 성능 극대화였습니다.

💡 학습 방식 요약

  • GRPO(Group Relative Policy Optimization) 알고리즘 적용
  • 약 6,000개 고난도 수학 문제 서브셋 사용
  • 결과 기반 보상 함수 RfinalR_{\text{final}} 구성:
    • 정확도 기반 보상 Racc_scaledR_{\text{acc\_scaled}}
    • 반복성 감소 보상 RrepR_{\text{rep}}

👉 오답 시 더 긴 사고 과정을 유도하도록 길이 중심 보상을 적용한 점이 매우 특징적입니다.


📈 성능 분석: 거대 모델과 비교해도 꿇리지 않는다!

🧮 수학/코딩 분야 성능

  • AIME, HMMT, OmniMath, Codeforces 등에서 대형 모델(70B~670B)과 대등하거나 앞섬
  • 특히 AIME 2025에서는 DeepSeek-R1(671B)에 근접

🧠 일반 추론 벤치마크

  • ArenaHard, FlenQA, MMLUPro 등에서도 우수한 성능
  • 작은 모델임에도 높은 정확도와 일반화 성능 달성

🧪 안전성 평가

  • Toxigen 벤치마크에서 독성 판단 균형 향상
  • 자동화된 RAI 측정 프레임워크로 추가 검증 수행

⚠️ 모델 한계 및 개선 과제

  • 최대 32K 토큰 길이 제한 → 긴 문맥 유지에 제약
  • 연속 대화(멀티턴)에서 일관성 유지 어려움
  • 영어 중심, 사실 오류 가능성, 코딩 도구 한계 존재
  • 수학/과학/이산 수학 외 도메인에서는 성능 저조

🔍 단일 실행 결과의 높은 편차는 모델 평가 시 복수 실행 기반 통계적 방법 도입 필요성을 시사합니다.


728x90

Phi-4-reasoning과 Phi-4-reasoning-plus는 ‘작지만 강한’ 추론 특화 모델로, 크기보다 학습 전략과 데이터 질이 얼마나 중요한지를 잘 보여주는 사례입니다.
특히, 정확히 선별된 학습 데이터와 보상 설계가 추론 모델의 성능을 어떻게 끌어올릴 수 있는지를 입증했습니다.

https://www.microsoft.com/en-us/research/wp-content/uploads/2025/04/phi_4_reasoning.pdf?fbclid=IwY2xjawKAVbVleHRuA2FlbQIxMABicmlkETFnM0ljWXVKaFJaUG1jdWxzAR5D1NzXlWUwYbkbjDq0fFrmJMoICIYOxbAZ8xQJK9z79zgxnvDrAiRxjPiPFQ_aem_oP1JGyeL4xzmKV5OngLnMA

728x90
반응형