정답 없어도 AI가 더 똑똑해진다고? ‘RLVR’이 바꾸는 인공지능 훈련 방식
AI에게 정답을 알려주지 않아도, 심지어 오답을 줘도 성능이 향상된다면 믿을 수 있을까요?
그동안 인공지능은 사람의 피드백을 기반으로 훈련되었고, 정확한 답을 알려줘야만 실력을 키운다는 것이 상식처럼 받아들여졌습니다. 하지만 최근 공개된 연구 결과는 이런 통념을 깨고 있습니다.
이번 블로그에서는 최근 주목받고 있는 ‘검증 가능한 보상 기반 강화학습(RLVR, Verifiable Reward Reinforcement Learning)’에 대해 소개합니다. RLVR이 무엇이고 기존 방식과 무엇이 다른지, 실험 결과는 어떤 의미를 가지는지, 그리고 어떤 한계가 있는지까지 한눈에 정리해보겠습니다.
강화학습의 흐름: RLHF의 한계와 대안
AI 모델의 응답 품질을 높이기 위해 가장 널리 사용된 방법은 강화학습 기반의 접근 방식입니다. 그중에서도 ‘인간 피드백 기반 강화학습(RLHF)’는 인간이 AI의 응답을 평가하고 점수를 매겨 그에 따라 모델을 최적화하는 방식입니다. 챗봇이나 검색 결과 정렬, 문장 생성 등 다양한 분야에서 활용되어 왔습니다.
그러나 RLHF는 한 가지 치명적인 단점이 있습니다. 바로 사람의 개입이 계속 필요하다는 것입니다. 정답을 직접 확인하고 피드백을 주는 과정은 시간도 오래 걸리고 비용도 많이 듭니다.
그래서 등장한 것이 바로 RLVR, 즉 사람이 아닌, 기계적으로 검증 가능한 기준을 활용한 새로운 훈련 방식입니다.
RLVR이란? 사람이 아닌 ‘기계 기준’으로 학습시키는 방식
RLVR(Verifiable Reward Reinforcement Learning)은 사람이 직접 정답을 평가하지 않고, 자동화된 기준으로 AI에 보상을 주는 방식입니다. 예를 들어 다음과 같은 방식이 있습니다.
- 수학 문제에서 정답과 일치하면 보상
- 여러 AI가 같은 답을 냈다면, 다수결에 따라 보상
- **답안 형식(예: 수식을 박스에 넣어 표현)**이 맞으면 보상
- 무작위 보상 혹은 심지어 틀린 답에 보상을 주는 방식까지 실험에 포함되었습니다
핵심은 정확한 정답 없이도 일정한 기준만 있다면 AI가 그 기준을 따라 학습하며 성능이 높아질 수 있느냐는 것입니다.
실험 결과: 오답 보상에도 AI 성능 향상
이번 실험은 워싱턴대학교, 앨런 인공지능연구소, UC 버클리 연구진이 함께 수행했고, 대형 언어모델인 Qwen2.5-Math를 중심으로 진행되었습니다. 실험 데이터는 수학 문제 데이터셋인 ‘MATH-500’을 활용했으며, 다음과 같은 보상 조건별 결과가 도출되었습니다.
- 정답 기반 보상: 정확도 28.8% 향상
- 오답에 보상: 24.6% 향상
- 무작위 보상: 21.4% 향상
- 형식 기준 보상: 16.4% 향상
- 다수결 보상: 26.5% 향상
놀랍게도, 정답이 아니어도 일정 기준만 있으면 학습 효과가 있다는 것이 증명된 셈입니다. 특히 무작위 혹은 오답 보상에도 성능이 올라갔다는 점은 AI 훈련의 새로운 가능성을 보여줍니다.
모든 모델에 효과적인 것은 아니다
하지만 주의할 점도 있습니다. 같은 방식으로 Meta의 ‘LLaMA 3’나 Mistral의 ‘OLMo 2’ 모델을 훈련했을 때는 오히려 성능이 최대 8.5%까지 하락했습니다. RLVR이 모든 AI 모델에 효과적인 것은 아니라는 점이 명확해진 것입니다.
연구진은 Qwen 모델의 경우 구조상 수학 문제 풀이에 적합하고, 자동화된 보상 체계와 잘 맞아떨어진 것으로 분석하고 있습니다.
RLVR이 보여준 의외의 결과: 코드 추론 능력
또한 실험 과정에서 Qwen 모델이 흥미로운 행동을 보였습니다. 수학 문제를 풀 때, 마치 파이썬 코드처럼 단계별로 계산을 정리하고 풀어내는 방식을 스스로 자주 사용하기 시작한 것입니다. 연구진은 이를 ‘코드 추론(Code Reasoning)’이라고 부릅니다.
이 방식으로 작성된 답변의 정확도는 64%에 달해, 코드 없이 푸는 방식보다 훨씬 높았습니다(29%). 이 결과는 모델이 새로운 능력을 학습했다기보다는, 사전학습(pretraining) 과정에서 이미 내재돼 있던 잠재 능력이 비정상적인 보상에 의해 자극돼 발현된 것으로 해석되고 있습니다.
정답 없이도 AI를 훈련시킬 수 있는 시대
이번 연구는 AI 훈련에서 반드시 ‘정답’을 요구하지 않아도 된다는 가능성을 보여줍니다. 특히 다음과 같은 측면에서 시사점이 큽니다.
- 데이터 라벨링 비용 감소: 사람이 정답을 일일이 확인하지 않아도 되는 자동화된 훈련
- 복잡한 문제(예: 수학, 논리 등)에서 AI의 추론 능력 향상
- 모델의 잠재 능력을 자극해 더 정교한 훈련 가능
반면, 모든 모델에 적용 가능한 방식은 아니므로 실제 활용 전에는 모델 구조에 맞는 커스터마이징이 필수적입니다.
RLHF 이후, RLVR이라는 또 하나의 방향
강화학습의 흐름이 RLHF에서 RLVR로 이동하는 것처럼 보일 수도 있습니다. 하지만 둘 중 어느 하나가 절대적인 해답이 되지는 않습니다. 중요한 것은 AI가 얼마나 효율적으로, 인간의 개입 없이 스스로 추론할 수 있는지를 실험해 나가는 과정입니다.
RLVR은 지금은 실험적이지만, 앞으로 라벨링 비용이 높은 분야, 정답이 명확하지 않은 문제, 자동화된 훈련이 필요한 환경에서 점점 더 중요해질 수 있습니다.
정답이 아니어도 학습할 수 있다면, AI 훈련의 방식은 지금보다 훨씬 유연하고 효율적으로 진화할 것입니다. 이 가능성은 지금부터 주목할 만한 가치가 충분합니다.
https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf
Rethink_RLVR/paper/rethink-rlvr.pdf at main · ruixin31/Rethink_RLVR
Contribute to ruixin31/Rethink_RLVR development by creating an account on GitHub.
github.com