
대규모 언어 모델(LLM)의 경쟁은 지금도 치열하게 이어지고 있습니다. 하지만 최근 발표된 rStar2-Agent는 ‘크기’가 아닌 ‘지능적인 학습 방식’으로 승부를 보고 있습니다. 단 14B 파라미터 모델임에도 불구하고, 무려 671B 규모의 DeepSeek-R1과 비슷한 수준의 성능을 수학 추론 문제에서 보여주었죠. 어떻게 작은 모델이 이렇게 짧은 시간 안에 큰 모델을 뛰어넘는 성과를 낼 수 있었을까요? 이 블로그에서는 rStar2-Agent의 핵심 개념, 학습 방법, 특징, 그리고 기대 효과까지 정리해 보겠습니다.
rStar2-Agent란 무엇인가?
rStar2-Agent는 14B 파라미터 규모의 수학 추론 모델입니다. 단순히 더 많은 연산을 하는 것이 아니라, 스스로 계획하고, 추론하며, 코딩 도구를 활용해 문제를 해결할 수 있는 ‘에이전트형 LLM’이라는 점이 특징입니다.
즉, 사람이 문제를 풀 때처럼
- 문제를 분석하고,
- 여러 접근법을 시도하며,
- 도구를 활용해 검증하고,
- 실패 경험도 학습 자산으로 삼는 방식
을 모델이 스스로 수행하는 것입니다.
rStar2-Agent의 3가지 핵심 혁신
1. GRPO-RoC 알고리즘
- 새로운 Resample-on-Correct(ROC) 전략을 적용해, 성공적인 추론 경로는 보존하면서도 실패 케이스 역시 학습에 반영합니다.
- 단순히 답만 맞추는 것이 아니라, 문제를 푸는 과정 자체를 최적화하는 구조입니다.
- 이를 통해 모델은 “더 길게” 생각하기보다 “더 스마트하게” 추론하게 됩니다.
2. 효율적인 RL 인프라
- 일반적으로 에이전트형 RL 학습은 비용이 높고 느리다는 단점이 있습니다.
- rStar2-Agent는 64개의 MI300X GPU만으로 고속 훈련이 가능하도록 설계되었습니다.
- 이는 연구팀이 구축한 고효율 툴 호출 인프라 덕분인데, 덕분에 소규모 자원으로도 대규모 모델 훈련에 맞먹는 결과를 낼 수 있었습니다.
3. 단계적 학습 레시피
- 단순 지도학습(SFT) 단계에서 출발해,
- 점차 난이도가 높아지는 데이터셋을 사용하며
- 각 단계마다 응답 길이를 제한해 짧고 명확한 답변을 학습하도록 했습니다.
- 이 방식 덕분에 단 510번의 RL 학습 스텝만으로 최종 성능에 도달할 수 있었습니다.
성능 결과
rStar2-Agent는 수학 추론 벤치마크에서 놀라운 성과를 냈습니다.
- AIME24: 80.6%
- AIME25: 69.8%
이는 671B 규모의 DeepSeek-R1보다 더 높은 성능을 기록한 것입니다. 게다가 응답 길이가 더 짧아 효율성까지 확보했습니다.
확장성: 수학을 넘어
rStar2-Agent는 단순히 수학 추론에서 끝나지 않습니다.
- 정렬(Alignment)
- 과학적 추론
- 에이전트형 도구 활용
등 다양한 영역으로도 강력한 일반화를 보여주었습니다. 작은 모델이지만, 스스로 사고하고 문제 해결 방식을 개선할 수 있는 지능형 에이전트로 발전한 것입니다.
작은 모델, 큰 가능성
rStar2-Agent는 단순히 “작은 모델도 잘 할 수 있다”는 것을 증명한 사례가 아닙니다.
- 짧고 스마트한 추론
- 효율적인 RL 훈련
- 도구 활용 기반의 에이전트적 사고
이 세 가지 혁신이 모여, 앞으로 LLM 연구가 ‘무작정 큰 모델 만들기’에서 ‘효율적이고 똑똑한 모델 만들기’로 패러다임이 이동할 수 있음을 보여줍니다.
앞으로 rStar 시리즈가 어떤 도약을 할지, 그리고 실제 산업 현장에서 어떤 활용도를 보여줄지 주목할 만합니다.

'인공지능' 카테고리의 다른 글
| 에이전트 메시(Agent Mesh): 자율형 AI가 만드는 차세대 분산 지능 아키텍처 (0) | 2025.09.06 |
|---|---|
| Claude Code 모니터링: AI 개발자 도구 사용량 추적 가이드 (0) | 2025.09.06 |
| 컨텍스트 엔지니어링: 2025년 AI 성공의 핵심 기술 (0) | 2025.09.05 |
| 프롬프트에서 프로덕션까지, Warp Code의 등장 (0) | 2025.09.05 |
| Argilla: AI 모델 성능을 결정짓는 데이터 품질 관리의 해법 (0) | 2025.09.05 |