rStar2-Agent: 작은 모델로 수학 추론의 한계를 넘다

728x90

728x170

대규모 언어 모델(LLM)의 경쟁은 지금도 치열하게 이어지고 있습니다. 하지만 최근 발표된 rStar2-Agent는 ‘크기’가 아닌 ‘지능적인 학습 방식’으로 승부를 보고 있습니다. 단 14B 파라미터 모델임에도 불구하고, 무려 671B 규모의 DeepSeek-R1과 비슷한 수준의 성능을 수학 추론 문제에서 보여주었죠. 어떻게 작은 모델이 이렇게 짧은 시간 안에 큰 모델을 뛰어넘는 성과를 낼 수 있었을까요? 이 블로그에서는 rStar2-Agent의 핵심 개념, 학습 방법, 특징, 그리고 기대 효과까지 정리해 보겠습니다.

rStar2-Agent란 무엇인가?

rStar2-Agent는 14B 파라미터 규모의 수학 추론 모델입니다. 단순히 더 많은 연산을 하는 것이 아니라, 스스로 계획하고, 추론하며, 코딩 도구를 활용해 문제를 해결할 수 있는 ‘에이전트형 LLM’이라는 점이 특징입니다.

즉, 사람이 문제를 풀 때처럼

문제를 분석하고,
여러 접근법을 시도하며,
도구를 활용해 검증하고,
실패 경험도 학습 자산으로 삼는 방식
을 모델이 스스로 수행하는 것입니다.

rStar2-Agent의 3가지 핵심 혁신

1. GRPO-RoC 알고리즘

새로운 Resample-on-Correct(ROC) 전략을 적용해, 성공적인 추론 경로는 보존하면서도 실패 케이스 역시 학습에 반영합니다.
단순히 답만 맞추는 것이 아니라, 문제를 푸는 과정 자체를 최적화하는 구조입니다.
이를 통해 모델은 “더 길게” 생각하기보다 “더 스마트하게” 추론하게 됩니다.

2. 효율적인 RL 인프라

일반적으로 에이전트형 RL 학습은 비용이 높고 느리다는 단점이 있습니다.
rStar2-Agent는 64개의 MI300X GPU만으로 고속 훈련이 가능하도록 설계되었습니다.
이는 연구팀이 구축한 고효율 툴 호출 인프라 덕분인데, 덕분에 소규모 자원으로도 대규모 모델 훈련에 맞먹는 결과를 낼 수 있었습니다.

3. 단계적 학습 레시피

단순 지도학습(SFT) 단계에서 출발해,
점차 난이도가 높아지는 데이터셋을 사용하며
각 단계마다 응답 길이를 제한해 짧고 명확한 답변을 학습하도록 했습니다.
이 방식 덕분에 단 510번의 RL 학습 스텝만으로 최종 성능에 도달할 수 있었습니다.

성능 결과

rStar2-Agent는 수학 추론 벤치마크에서 놀라운 성과를 냈습니다.

AIME24: 80.6%
AIME25: 69.8%

이는 671B 규모의 DeepSeek-R1보다 더 높은 성능을 기록한 것입니다. 게다가 응답 길이가 더 짧아 효율성까지 확보했습니다.

확장성: 수학을 넘어

rStar2-Agent는 단순히 수학 추론에서 끝나지 않습니다.

정렬(Alignment)
과학적 추론
에이전트형 도구 활용

등 다양한 영역으로도 강력한 일반화를 보여주었습니다. 작은 모델이지만, 스스로 사고하고 문제 해결 방식을 개선할 수 있는 지능형 에이전트로 발전한 것입니다.

728x90

작은 모델, 큰 가능성

rStar2-Agent는 단순히 “작은 모델도 잘 할 수 있다”는 것을 증명한 사례가 아닙니다.

짧고 스마트한 추론
효율적인 RL 훈련
도구 활용 기반의 에이전트적 사고

이 세 가지 혁신이 모여, 앞으로 LLM 연구가 ‘무작정 큰 모델 만들기’에서 ‘효율적이고 똑똑한 모델 만들기’로 패러다임이 이동할 수 있음을 보여줍니다.

앞으로 rStar 시리즈가 어떤 도약을 할지, 그리고 실제 산업 현장에서 어떤 활용도를 보여줄지 주목할 만합니다.

https://github.com/microsoft/rStar?fbclid=IwY2xjawMnyYZleHRuA2FlbQIxMQABHgkJ23Ll8l1T8YuwrHNYtxrDDXtZ_gordZ3YJJrIEEuSfjMVR17x2_6W3JmD_aem_I_LphLYudjYpJSk4nPXgoQ

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

에이전트 메시(Agent Mesh): 자율형 AI가 만드는 차세대 분산 지능 아키텍처 (0)	2025.09.06
Claude Code 모니터링: AI 개발자 도구 사용량 추적 가이드 (0)	2025.09.06
컨텍스트 엔지니어링: 2025년 AI 성공의 핵심 기술 (0)	2025.09.05
프롬프트에서 프로덕션까지, Warp Code의 등장 (0)	2025.09.05
Argilla: AI 모델 성능을 결정짓는 데이터 품질 관리의 해법 (0)	2025.09.05

평범한 직장인이 사는 세상

rStar2-Agent: 작은 모델로 수학 추론의 한계를 넘다

rStar2-Agent란 무엇인가?

rStar2-Agent의 3가지 핵심 혁신

1. GRPO-RoC 알고리즘

2. 효율적인 RL 인프라

3. 단계적 학습 레시피

성능 결과

확장성: 수학을 넘어

작은 모델, 큰 가능성

'인공지능' 카테고리의 다른 글

티스토리툴바

rStar2-Agent: 작은 모델로 수학 추론의 한계를 넘다

rStar2-Agent란 무엇인가?

rStar2-Agent의 3가지 핵심 혁신

1. GRPO-RoC 알고리즘

2. 효율적인 RL 인프라

3. 단계적 학습 레시피

성능 결과

확장성: 수학을 넘어

작은 모델, 큰 가능성

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바