본문 바로가기

인공지능

“LLM 추론 능력, 한 단계 도약” – 바이트댄스가 공개한 DAPO 알고리즘의 모든 것

728x90
반응형

 

대형언어모델(LLM)의 추론 능력은 그 어떤 성능 지표보다 중요한 척도로 여겨지고 있습니다.
그만큼 이를 끌어올리는 기술에 대한 관심도 높은데요, 최근 바이트댄스와 칭화대 연구진이 발표한 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimisation) 알고리즘은 이 분야에서 획기적인 전환점으로 주목받고 있습니다.

이 블로그에서는 DAPO가 무엇인지, 기존 강화학습(RL) 방식과 어떤 차별점이 있는지, 그리고 실제 성능은 어땠는지 자세히 살펴보겠습니다.

반응형

📚 DAPO란 무엇인가?

“복잡한 추론을 위한 새로운 강화학습 알고리즘”

DAPO는 기존 RL 방법론인 GRPO(Group Relative Policy Optimisation)를 개선한 알고리즘입니다.
LLM이 자기 검증(self-verification), 반복 개선(iterative refinement) 등 복잡한 추론을 수행할 수 있도록 돕기 위해 설계됐습니다.

이 알고리즘은 단순히 출력 결과를 높이는 것을 넘어서, 모델이 더 폭넓게 사고하고, 다양한 가능성을 탐색할 수 있도록 지원합니다.
기존 방식이 보이지 않던 세부 기술들을 DAPO는 아예 오픈소스로 공개했기 때문에 재현 가능성과 학습 투명성 측면에서도 큰 의의가 있습니다.


🧠 기존 GRPO 방식과 DAPO의 차이점

✅ 1. 클리핑(Clipping) 방식 개선

기존에는 클리핑 범위가 고정되어 있어, 모델이 확신 있는 답만 내놓는 경향이 있었습니다.
DAPO는 클리핑의 상한과 하한을 분리해 더 다양한 토큰이 생성되도록 유도합니다.

결과적으로 모델이 다양한 가능성을 평가하고, 더 넓은 사고를 할 수 있는 여지를 제공합니다.


✅ 2. 비효율적인 프롬프트 필터링

학습과 무관한 프롬프트는 자원 낭비로 이어집니다.
DAPO는 비효율적 프롬프트를 사전 필터링해 유의미한 학습 배치만 구성합니다.

덕분에 학습 속도가 빨라지고 효율성도 올라갑니다.


✅ 3. 응답 단위 → 토큰 단위 샘플링

GRPO는 응답 전체를 하나의 샘플로 보고 학습합니다.
반면 DAPO는 응답을 토큰 단위로 분해하고, 각 토큰에 별도 그라디언트를 할당합니다.

덕분에 복잡하고 긴 추론을 더 잘 반영할 수 있습니다.
즉, 모델이 '어디서 어떻게 생각이 진전됐는지'를 토큰 수준에서 추적하게 되는 것이죠.


✅ 4. 길이 기반 페널티 조정

기존 모델은 긴 응답에 과도한 패널티를 줬습니다.
하지만 DAPO는 페널티를 동적으로 조정해, 가치 있는 정보가 사라지는 것을 방지합니다.

결과적으로 학습 안정성은 올라가고, 정보 손실은 줄어듭니다.


📊 성능은? — 딥시크 R1도 넘었다

바이트댄스는 DAPO 알고리즘을 큐원2.5-32B 모델에 적용해, AIME 2024 수학 벤치마크에서 50점을 기록했습니다.
이는 동일 모델을 사용한 딥시크 방식(47점)을 능가하는 결과입니다.

특히, 학습 단계 수는 50% 더 적었지만 더 나은 성능을 달성했다는 점이 주목됩니다.
성능과 효율을 동시에 잡은 셈입니다.


📂 오픈소스 공개 – 완전한 투명성

DAPO의 가장 큰 의의는 성능뿐 아니라 완전한 오픈소스 공개입니다.

  • 알고리즘 코드
  • 학습 파이프라인
  • 데이터셋

이 모든 것이 깃허브에 공개돼 있으며, 연구 커뮤니티 내에서 이미 긍정적인 반응을 얻고 있습니다.
특히 구글 딥마인드, 에이티어, 클라우드 전문가들이 이 접근 방식을 지지했습니다.

“강력한 성능보다 더 중요한 것은, 누구나 실험하고 검증할 수 있다는 점입니다.”


728x90

DAPO가 보여주는 미래 가능성

DAPO는 단순히 더 나은 성능을 보여준 알고리즘이 아닙니다.
그보다 LLM 성능 향상을 위한 학습 전략을 얼마나 투명하고 정교하게 구현할 수 있는지를 보여준 사례입니다.

🔍 요약하자면:

  • 기존 강화학습 방식의 한계를 극복했고
  • 실제 성능으로 그 효과를 입증했으며
  • 누구나 실험 가능한 오픈소스로 공개되었습니다.

앞으로 LLM의 고차원적 추론 능력을 개발하려는 기업이나 연구자는 DAPO를 새로운 기준점으로 삼게 될 것입니다.

https://arxiv.org/abs/2503.14476

 

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog

arxiv.org

 

728x90
반응형