본문 바로가기

인공지능

강화학습의 혁신, GRPO란? PPO와의 차이점과 직관적인 이해

728x90
반응형

 

강화학습과 GRPO: 직관적으로 이해하기

강화학습(Reinforcement Learning, RL)은 AI 모델이 보상을 통해 학습하는 방식입니다. 하지만 단순히 점수를 높이는 방식만으로는 최적의 학습을 보장할 수 없습니다. 대표적인 강화학습 알고리즘인 **PPO(Proximal Policy Optimization)**는 학습을 안정적으로 진행하기 위해 여러 제약을 추가하지만, LLM(대규모 언어 모델)에서는 Critic(가치 함수) 모델이 차지하는 연산 비용이 커지는 문제가 있습니다.

이를 해결하기 위해 등장한 것이 **GRPO(Group Relative Policy Optimization)**입니다. GRPO는 Critic 없이도 학습을 효과적으로 진행할 수 있는 방법을 제공합니다. 이 글에서는 PPO와 GRPO의 차이를 직관적으로 이해할 수 있도록 설명하고, 왜 GRPO가 효과적인지 알아보겠습니다.

반응형

강화학습에서 점수만으로 보상을 주면 왜 문제가 될까?

시험 점수와 보상의 문제점

강화학습을 이해하기 쉽게 예를 들어보겠습니다.

어떤 학생이 모의고사에서 항상 1등급을 받는다고 가정해봅시다. 반면, 그의 동생은 꾸준한 노력 끝에 5등급에서 3등급으로 성적을 올렸습니다. 그런데 어머니(보상을 주는 존재)가 절대 점수만 기준으로 용돈을 지급한다고 하면, 어떤 문제가 발생할까요?

  1. 성장 과정이 반영되지 않음
    • 동생은 성적이 많이 올랐지만, 여전히 형보다 낮은 점수이므로 보상을 많이 받지 못합니다. 결국 동기부여가 떨어지게 됩니다.
  2. 변동성이 너무 큼
    • ADHD 성향이 있는 형은 점수가 95점까지 올랐다가 피곤해서 60점으로 떨어지고, 다시 70점대로 오르기도 합니다.
    • 이처럼 점수가 들쭉날쭉하면 보상도 크게 변하기 때문에 안정적인 학습이 어렵습니다.

즉, 단순히 최종 점수만 보고 보상을 주면, 학습이 비효율적이고 극단적인 전략이 유도될 위험이 있습니다.


PPO: 기대 점수선을 활용한 학습 안정화

이를 해결하기 위해 강화학습에서는 **Critic(가치 함수)**를 도입합니다. Critic은 학생마다 기대 점수선을 설정하여 상대적인 보상을 제공합니다.

  • 형의 평균 점수가 80점이라면, 85점을 받았을 때 "기대보다 잘했다!"는 보상을 받을 수 있습니다.
  • 동생의 평균 점수가 30점이라면, 60점을 받았을 때 큰 보상을 받아 동기부여를 유지할 수 있습니다.

이처럼 기대 점수선을 활용하면 현재 수준을 고려하여 학습을 유도할 수 있습니다. 이를 강화학습에서는 Advantage(이점) 개념이라고 합니다.

Clip과 min 연산으로 변동성 제한하기

PPO에서는 또 다른 안정화 기법으로 Clip을 사용합니다.

  • 한 번 시험에서 100점을 맞았다고 해서 보상을 너무 크게 주면, 학생이 극단적인 방법(예: 무리한 벼락치기)을 반복할 수 있습니다.
  • 따라서 PPO는 점수 변동 폭을 제한하여(Clip), 학습이 한 방향으로 지나치게 치우치는 것을 막습니다.

이렇게 하면 한 번에 너무 크게 학습 방향이 바뀌지 않도록 조절하여 학습의 안정성을 높일 수 있습니다.


Reference Model: 부정행위를 막는 규칙 추가

높은 성적을 위해 극단적인 방법을 사용할 수도 있습니다. 예를 들어,

  • 시험 답을 훔치거나, 친구를 협박해서 답을 베끼는 방법을 사용할 수 있습니다.
  • 또는 잠을 2시간만 자면서 건강을 해치는 방식으로 공부할 수도 있습니다.

이것은 LLM이 거짓 정보를 만들어내거나, 편법을 사용해 보상을 높이려는 행동과 유사합니다.

이를 방지하기 위해 강화학습에서는 Reference Model을 사용합니다.

  • 학습이 처음 설정한 모델에서 너무 벗어나면 KL 페널티를 부여하여, 극단적인 변화가 발생하지 않도록 합니다.
  • Reference Model은 “초기 정책에서 너무 멀어지면 안 된다”는 기준 역할을 합니다.

GRPO: Critic 없이 학습하기

PPO에서는 Actor(정책 모델)와 Critic(가치 모델)을 사용하지만, LLM 환경에서는 Critic이 너무 크고 연산 비용이 높아지는 문제가 있습니다.

GRPO는 Critic 없이도 학습할 수 있는 방법을 제공합니다.

GRPO의 핵심 아이디어

  1. 스스로 기대 점수선을 설정
    • PPO에서는 Critic이 기대 점수를 정했지만, GRPO에서는 모델이 스스로 여러 개의 답안을 만들어 평균 점수를 기준으로 학습합니다.
    • 즉, Critic 없이도 "자기 자신에 대한 기대선"을 정하는 방식입니다.
  2. 답안을 그룹으로 묶어 비교
    • 하나의 질문에 대해 여러 개의 답안을 만들고, 이 답안들끼리 상대적으로 비교하여 보상을 설정합니다.
    • 평균보다 좋은 답변이면 보상을 높이고, 평균보다 낮은 답변이면 보상을 줄이는 방식입니다.
  3. Clip과 KL 방식 유지
    • Critic을 없앴지만, PPO의 Clip과 KL 페널티 방식은 유지하여 학습의 안정성을 보장합니다.

GRPO의 장점

  • 메모리와 연산량 절약: Critic이 없기 때문에 학습 자원이 절약됩니다.
  • LLM과 잘 맞음: 답변을 비교하는 방식이 보상 모델과 잘 맞아떨어집니다.
  • 더 직관적인 학습 방법: 모델이 직접 여러 답안을 생성하고 비교하는 방식이기 때문에 이해하기 쉽습니다.
728x90

PPO와 GRPO의 차이점

기법 특징 문제 해결 방법

PPO Critic을 사용하여 학습 안정화 기대 점수선을 설정해 보상 제공
Clip 급격한 학습 방향 변화 방지 갱신 폭을 제한하여 변동성 조절
Reference Model 부정행위 방지 KL 페널티로 기준 정책에서 벗어나지 않도록 제한
GRPO Critic 없이 학습 답안을 그룹으로 묶어 상대 비교하여 학습

GRPO는 Critic 없이도 학습할 수 있는 방법을 제공하며, 특히 대규모 언어 모델(LLM)의 학습 효율을 높이는 데 효과적입니다. 앞으로도 강화학습 연구는 더욱 발전할 것이며, Process Supervision, Iterative RL 등의 기법도 함께 연구되고 있습니다.

https://www.linkedin.com/pulse/%25EC%2589%25BD%25EA%25B2%258C-%25EC%2593%25B0%25EC%2597%25AC%25EC%25A7%2584-grpo-jin-hyung-park-prv4c/

 

쉽게 쓰여진 GRPO

DeepSeek의 주요한 학습 메커니즘인 GRPO에 대해 여러 설명들이 많은데, 직관적으로 이해할 수 있는 설명과 비유가 없어 하나 간단히 소개해보고자 합니다. 단순히 점수만으로 보상하면 왜 문제가

www.linkedin.com

728x90
반응형