본문 바로가기

인공지능

LLM 강화학습의 기본기로 돌아가다: Qwen 팀이 밝힌 안정적인 RL의 원칙

728x90
반응형
728x170

이 글은 알리바바 Qwen 팀이 발표한 논문 **「Stabilizing Reinforcement Learning with LLMs: Formulation and Practices」**를 기반으로, 대규모 언어 모델(LLM) 강화학습에서 무엇이 성능과 안정성을 좌우하는지 정리한 기술 블로그입니다.
GRPO, CISPO 같은 최신 기법보다 왜 수학적으로 올바른 기본 설정이 더 강력한지, MoE 모델에서는 어떤 조건이 필수인지, 그리고 초기 모델의 성능이 RL 결과에 얼마나 영향을 미치는지까지 실험 결과를 중심으로 설명합니다. LLM 강화학습을 실무나 연구에서 다루는 분들이라면 반드시 짚고 넘어가야 할 핵심 내용을 담고 있습니다.

반응형

화려한 기법보다 기본기가 중요한 이유

Qwen 팀의 결론은 명확합니다.
“LLM 강화학습에서는 새로운 기교(Heuristics)를 더하는 것보다, 수학적으로 정당한 기본 설정을 지키는 것이 더 강력하다.”

이 논문은 단순한 주장에 그치지 않고, 다양한 실험을 통해 다음 질문에 답합니다.

  • 토큰 단위 학습은 전체 시퀀스 보상과 어떤 수학적 관계를 갖는가?
  • 길이 정규화나 과도한 보정은 왜 성능을 떨어뜨리는가?
  • 오프-폴리시 환경과 MoE 모델에서 RL은 왜 쉽게 붕괴되는가?

단순함이 성능을 이긴다: Back to Basics

토큰 학습과 전체 보상의 수학적 연결고리

LLM 강화학습은 전체 시퀀스에 대해 보상을 받지만, 실제 학습은 토큰 단위로 이뤄집니다. 논문은 이 과정을 **전체 보상의 수학적 1차 근사(First-order Approximation)**로 정식화합니다.

이 근사가 성립하려면 조건이 하나 있습니다.
불필요한 인위적 변형이 없어야 한다는 점입니다.

하지만 실제로는 성능을 높이기 위해 다음과 같은 기교를 섞는 경우가 많습니다.

  • 길이 정규화(Length Normalization)
  • 과도한 휴리스틱 보정

논문은 이러한 기법이 오히려 토큰 학습과 전체 보상 간의 수학적 연결을 깨뜨려 성능을 제한한다고 지적합니다.

정책 노후화 방지: 왜 클리핑이 필요한가

모델은 학습을 거듭하며 계속 똑똑해집니다. 그런데 과거 정책이 생성한 오래된 데이터까지 동일하게 반영하면 문제가 발생합니다.

논문은 이를 “과거의 잘못된 감각을 현재에 강요하는 것”에 비유합니다.
이를 막기 위해 **클리핑(Clipping)**을 사용해, 너무 오래된 정책에서 나온 데이터의 영향을 제한해야 한다고 설명합니다.

실험 결과로 본 핵심 메시지

Qwen3-30B-A3B-Base 모델을 사용한 실험 결과는 다음과 같습니다.

  • MiniRL (기본 REINFORCE + 최소 안전장치)
    AIME 등 벤치마크에서 약 78% 정확도로 안정적인 우상향 성능을 기록
  • Length Normalization 적용(GRPO 스타일)
    학습은 되지만 약 75% 수준에서 정체
  • 확률 보정 미적용(IS Correction 없음)
    150~200 스텝 만에 엔트로피 급락, 학습 붕괴 발생
  • 클리핑 비활성화(CISPO 스타일)
    오프-폴리시 설정에서 후반부 불안정성 증가, 성능 급락 또는 붕괴

가장 좋은 결과를 낸 것은 새로운 알고리즘이 아니라, 기본에 충실한 MiniRL이었습니다.


MoE 모델에서의 강화학습: 기억을 고정하라

MoE에서 발생하는 구조적 문제

MoE(전문가 혼합) 모델은 추론 시 선택된 전문가와 학습 시 업데이트되는 전문가가 달라질 수 있습니다. 이로 인해 전문가 미스매치가 발생하며, RL 학습이 급격히 불안정해집니다.

라우팅 리플레이(Routing Replay)의 역할

논문은 이를 해결하기 위해 **라우팅 리플레이(R3)**를 제안합니다.

  • 추론 시 사용한 전문가 경로를 저장
  • 학습 시 동일한 경로를 강제로 재현

즉, “그때 사용한 전문가로 그대로 학습하라”는 원칙입니다.

실험 결과

오프-폴리시 환경에서의 결과는 극명합니다.

  • 라우팅 리플레이 미적용
    학습 직후 성능이 60% 이하로 급락, 회복 불가
  • 라우팅 리플레이 적용
    Dense 모델과 유사한 안정적인 학습 곡선, 최종 정확도 78% 도달

MoE 모델에서 RL을 수행한다면, 라우팅 리플레이는 선택이 아니라 필수 조건임을 보여줍니다.


초기 모델보다 중요한 것은 학습의 지속성

교사 모델의 차이는 얼마나 중요한가

논문은 초기 SFT 모델로 Qwen3-Max, DeepSeek-R1, GPT-OSS 등 성능이 다른 교사 모델을 사용해 실험했습니다.

결과는 의외로 단순했습니다.

  • 시작 성능은 달랐지만
  • 안정적인 RL을 충분히 길게 수행하자
  • 모두 AIME 기준 86~88% 구간으로 수렴

즉, 어떤 모델로 시작했는지보다, 얼마나 안정적으로 끝까지 학습했는지가 더 중요했습니다.


강화학습의 한계: 학생의 체급은 바뀌지 않는다

논문은 RL의 한계도 분명히 짚습니다.

  • RL은 모델이 가진 잠재력을 최대한 끌어올릴 수는 있지만
  • 모델 자체의 용량(Capacity)을 넘어설 수는 없습니다

교사 모델이 모르는 영역은 학생 모델도 배울 수 없습니다.
RL은 만능이 아니라, 가능한 범위 안에서의 최적화 도구라는 점을 명확히 합니다.


728x90

이 논문이 주는 가장 큰 메시지는 단순합니다.

  • LLM 강화학습에서 성능과 안정성은 화려한 기법이 아니라 기본에서 나온다
  • 수학적으로 정당한 설정을 깨뜨리는 순간, 학습은 흔들린다
  • MoE 모델에서는 구조적 문제를 해결하는 장치가 필수다
  • 초기 모델의 차이보다, 안정적인 장기 학습이 결과를 좌우한다

기술은 복잡해지는 방향이 아니라, 왜 이 식을 쓰는지에 대한 근본적인 이해에서 발전한다는 점을 이 논문은 잘 보여줍니다.
LLM 강화학습의 안정성과 본질이 궁금하다면, 이 논문은 충분히 읽을 가치가 있습니다.

300x250

https://arxiv.org/abs/2512.01374

 

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods su

arxiv.org

728x90
반응형
그리드형