"작지만 강하다" – 14B 추론 특화 모델 Phi-4-Reasoning, 거대 모델을 위협하다!

728x90

https://www.microsoft.com/en-us/research/wp-content/uploads/2025/04/phi_4_reasoning.pdf?fbclid=IwY2xjawKAVbVleHRuA2FlbQIxMABicmlkETFnM0ljWXVKaFJaUG1jdWxzAR5D1NzXlWUwYbkbjDq0fFrmJMoICIYOxbAZ8xQJK9z79zgxnvDrAiRxjPiPFQ_aem_oP1JGyeL4xzmKV5OngLnMA

복잡한 수학 문제와 코딩, 논리 퍼즐을 해결하는 데 AI를 사용하고 싶다면, 반드시 알아야 할 모델이 있습니다. Microsoft에서 개발한 Phi-4-reasoning과 Phi-4-reasoning-plus는 140억 개 파라미터를 가진 비교적 소형 모델임에도, 거대한 오픈소스 모델을 능가하는 추론 능력을 보여주고 있습니다. 이 블로그에서는 이 두 모델이 어떻게 설계되었고, 어떤 데이터로 학습되었으며, 실제로 어떤 분야에서 뛰어난 성과를 보였는지를 다룹니다. 데이터 선별과 강화 학습의 효과, 그리고 평가 방법론까지 함께 살펴봅니다.

🔍 모델 개요: Phi-4-reasoning이란?

Phi-4-reasoning은 Microsoft가 개발한 140억 파라미터의 언어 모델 Phi-4를 기반으로 한 추론 특화 모델입니다.
기존 Phi-4 모델에 **지도 학습(Supervised Fine-Tuning, SFT)**을 적용하여 추론 능력을 대폭 끌어올린 것이 핵심입니다.

핵심 차별점:
단순한 크기 경쟁이 아니라, '가르치기 좋은(teachable)' 데이터 선별과 구조적 강화 학습으로 추론 능력을 극대화했다는 점.

📚 학습 데이터 및 방법: SFT로 어떻게 훈련되었는가?

1. 데이터의 선별 기준

140만 개 이상의 프롬프트-응답 쌍
총 83억 개 토큰
STEM, 코딩, 안전 주제 포함
"모델의 한계를 자극할 수 있는 어려운 샘플" 위주로 구성

2. 학습 방식

SFT(Supervised Fine-Tuning) 방식으로 약 16K 스텝 학습
AdamW 옵티마이저 사용 (학습률 10−510^{-5})
시스템 메시지 활용으로 추론 흐름 일관성 유도
데이터 믹스를 도메인별로 최적화하여 성능 향상

📌 비오염(Decontamination) 철저: 학습 데이터와 벤치마크 간 중복 방지로 공정한 평가 보장

🚀 Phi-4-reasoning-plus: RL로 성능을 한 단계 더

Phi-4-reasoning-plus는 기존 모델에 **강화 학습(Reinforcement Learning, RL)**을 추가 적용한 확장 버전입니다.
주요 목표는 수학적 추론 성능 극대화였습니다.

💡 학습 방식 요약

GRPO(Group Relative Policy Optimization) 알고리즘 적용
약 6,000개 고난도 수학 문제 서브셋 사용
결과 기반 보상 함수 RfinalR_{\text{final}} 구성:
- 정확도 기반 보상 Racc_scaledR_{\text{acc\_scaled}}
- 반복성 감소 보상 RrepR_{\text{rep}}

👉 오답 시 더 긴 사고 과정을 유도하도록 길이 중심 보상을 적용한 점이 매우 특징적입니다.

📈 성능 분석: 거대 모델과 비교해도 꿇리지 않는다!

🧮 수학/코딩 분야 성능

AIME, HMMT, OmniMath, Codeforces 등에서 대형 모델(70B~670B)과 대등하거나 앞섬
특히 AIME 2025에서는 DeepSeek-R1(671B)에 근접

🧠 일반 추론 벤치마크

ArenaHard, FlenQA, MMLUPro 등에서도 우수한 성능
작은 모델임에도 높은 정확도와 일반화 성능 달성

🧪 안전성 평가

Toxigen 벤치마크에서 독성 판단 균형 향상
자동화된 RAI 측정 프레임워크로 추가 검증 수행

⚠️ 모델 한계 및 개선 과제

최대 32K 토큰 길이 제한 → 긴 문맥 유지에 제약
연속 대화(멀티턴)에서 일관성 유지 어려움
영어 중심, 사실 오류 가능성, 코딩 도구 한계 존재
수학/과학/이산 수학 외 도메인에서는 성능 저조

🔍 단일 실행 결과의 높은 편차는 모델 평가 시 복수 실행 기반 통계적 방법 도입 필요성을 시사합니다.

728x90

Phi-4-reasoning과 Phi-4-reasoning-plus는 ‘작지만 강한’ 추론 특화 모델로, 크기보다 학습 전략과 데이터 질이 얼마나 중요한지를 잘 보여주는 사례입니다.
특히, 정확히 선별된 학습 데이터와 보상 설계가 추론 모델의 성능을 어떻게 끌어올릴 수 있는지를 입증했습니다.

https://www.microsoft.com/en-us/research/wp-content/uploads/2025/04/phi_4_reasoning.pdf?fbclid=IwY2xjawKAVbVleHRuA2FlbQIxMABicmlkETFnM0ljWXVKaFJaUG1jdWxzAR5D1NzXlWUwYbkbjDq0fFrmJMoICIYOxbAZ8xQJK9z79zgxnvDrAiRxjPiPFQ_aem_oP1JGyeL4xzmKV5OngLnMA

728x90

저작자표시 비영리 변경금지

'인공지능' 카테고리의 다른 글

AI가 당신 대신 코드를 짠다? 마크 저커버그의 충격 발언과 다가오는 개발의 미래 (0)	2025.05.02
AI 에이전트의 연결고리: A2A, MCP, Kafka, Flink로 완성하는 실시간 협업 스택 (0)	2025.05.02
에이전트를 안정적으로 운영하고 싶다면? 지금 주목해야 할 ‘AgentOps’ (0)	2025.05.01
“구글 없이도 검색이 될까?” – 메타가 만드는 AI 검색 엔진의 미래 (0)	2025.05.01
AI 보안의 새 판을 여는 도구, 메타의 ‘라마 가드 4’ 전격 공개 - 인공지능과 블록체인의 보안 접점을 새롭게 잇다 (0)	2025.05.01

평범한 직장인이 사는 세상

"작지만 강하다" – 14B 추론 특화 모델 Phi-4-Reasoning, 거대 모델을 위협하다!

🔍 모델 개요: Phi-4-reasoning이란?

📚 학습 데이터 및 방법: SFT로 어떻게 훈련되었는가?

1. 데이터의 선별 기준

2. 학습 방식

🚀 Phi-4-reasoning-plus: RL로 성능을 한 단계 더

💡 학습 방식 요약

📈 성능 분석: 거대 모델과 비교해도 꿇리지 않는다!

🧮 수학/코딩 분야 성능

🧠 일반 추론 벤치마크

🧪 안전성 평가

⚠️ 모델 한계 및 개선 과제

'인공지능' 카테고리의 다른 글

티스토리툴바

"작지만 강하다" – 14B 추론 특화 모델 Phi-4-Reasoning, 거대 모델을 위협하다!

🔍 모델 개요: Phi-4-reasoning이란?

📚 학습 데이터 및 방법: SFT로 어떻게 훈련되었는가?

1. 데이터의 선별 기준

2. 학습 방식

🚀 Phi-4-reasoning-plus: RL로 성능을 한 단계 더

💡 학습 방식 요약

📈 성능 분석: 거대 모델과 비교해도 꿇리지 않는다!

🧮 수학/코딩 분야 성능

🧠 일반 추론 벤치마크

🧪 안전성 평가

⚠️ 모델 한계 및 개선 과제

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바