본문 바로가기

인공지능

rStar2-Agent: 작은 모델로 수학 추론의 한계를 넘다

728x90
반응형
728x170

대규모 언어 모델(LLM)의 경쟁은 지금도 치열하게 이어지고 있습니다. 하지만 최근 발표된 rStar2-Agent는 ‘크기’가 아닌 ‘지능적인 학습 방식’으로 승부를 보고 있습니다. 단 14B 파라미터 모델임에도 불구하고, 무려 671B 규모의 DeepSeek-R1과 비슷한 수준의 성능을 수학 추론 문제에서 보여주었죠. 어떻게 작은 모델이 이렇게 짧은 시간 안에 큰 모델을 뛰어넘는 성과를 낼 수 있었을까요? 이 블로그에서는 rStar2-Agent의 핵심 개념, 학습 방법, 특징, 그리고 기대 효과까지 정리해 보겠습니다.

반응형

rStar2-Agent란 무엇인가?

rStar2-Agent는 14B 파라미터 규모의 수학 추론 모델입니다. 단순히 더 많은 연산을 하는 것이 아니라, 스스로 계획하고, 추론하며, 코딩 도구를 활용해 문제를 해결할 수 있는 ‘에이전트형 LLM’이라는 점이 특징입니다.

즉, 사람이 문제를 풀 때처럼

  • 문제를 분석하고,
  • 여러 접근법을 시도하며,
  • 도구를 활용해 검증하고,
  • 실패 경험도 학습 자산으로 삼는 방식
    을 모델이 스스로 수행하는 것입니다.

rStar2-Agent의 3가지 핵심 혁신

1. GRPO-RoC 알고리즘

  • 새로운 Resample-on-Correct(ROC) 전략을 적용해, 성공적인 추론 경로는 보존하면서도 실패 케이스 역시 학습에 반영합니다.
  • 단순히 답만 맞추는 것이 아니라, 문제를 푸는 과정 자체를 최적화하는 구조입니다.
  • 이를 통해 모델은 “더 길게” 생각하기보다 “더 스마트하게” 추론하게 됩니다.

2. 효율적인 RL 인프라

  • 일반적으로 에이전트형 RL 학습은 비용이 높고 느리다는 단점이 있습니다.
  • rStar2-Agent는 64개의 MI300X GPU만으로 고속 훈련이 가능하도록 설계되었습니다.
  • 이는 연구팀이 구축한 고효율 툴 호출 인프라 덕분인데, 덕분에 소규모 자원으로도 대규모 모델 훈련에 맞먹는 결과를 낼 수 있었습니다.

3. 단계적 학습 레시피

  • 단순 지도학습(SFT) 단계에서 출발해,
  • 점차 난이도가 높아지는 데이터셋을 사용하며
  • 각 단계마다 응답 길이를 제한해 짧고 명확한 답변을 학습하도록 했습니다.
  • 이 방식 덕분에 단 510번의 RL 학습 스텝만으로 최종 성능에 도달할 수 있었습니다.

성능 결과

rStar2-Agent는 수학 추론 벤치마크에서 놀라운 성과를 냈습니다.

  • AIME24: 80.6%
  • AIME25: 69.8%

이는 671B 규모의 DeepSeek-R1보다 더 높은 성능을 기록한 것입니다. 게다가 응답 길이가 더 짧아 효율성까지 확보했습니다.


확장성: 수학을 넘어

rStar2-Agent는 단순히 수학 추론에서 끝나지 않습니다.

  • 정렬(Alignment)
  • 과학적 추론
  • 에이전트형 도구 활용

등 다양한 영역으로도 강력한 일반화를 보여주었습니다. 작은 모델이지만, 스스로 사고하고 문제 해결 방식을 개선할 수 있는 지능형 에이전트로 발전한 것입니다.


728x90

작은 모델, 큰 가능성

rStar2-Agent는 단순히 “작은 모델도 잘 할 수 있다”는 것을 증명한 사례가 아닙니다.

  • 짧고 스마트한 추론
  • 효율적인 RL 훈련
  • 도구 활용 기반의 에이전트적 사고

이 세 가지 혁신이 모여, 앞으로 LLM 연구가 ‘무작정 큰 모델 만들기’에서 ‘효율적이고 똑똑한 모델 만들기’로 패러다임이 이동할 수 있음을 보여줍니다.

앞으로 rStar 시리즈가 어떤 도약을 할지, 그리고 실제 산업 현장에서 어떤 활용도를 보여줄지 주목할 만합니다.

https://github.com/microsoft/rStar?fbclid=IwY2xjawMnyYZleHRuA2FlbQIxMQABHgkJ23Ll8l1T8YuwrHNYtxrDDXtZ_gordZ3YJJrIEEuSfjMVR17x2_6W3JmD_aem_I_LphLYudjYpJSk4nPXgoQ

 

728x90
반응형
그리드형