본문 바로가기

인공지능

코딩에 오픈소스가 상용 AI를 이겼다? DeepCoder가 증명한 RL의 힘

728x90
반응형

요즘 AI 기술은 하루가 다르게 발전합니다. 하지만 대부분의 고성능 모델은 폐쇄적이죠. 오픈AI의 GPT 계열처럼 말이죠. 그래서 종종 사람들은 묻습니다. “오픈소스로 진짜 그만한 성능이 나올 수 있을까?”

최근, 그 질문에 선명한 답을 던진 프로젝트가 등장했습니다. 바로 Agentica 프로젝트의 DeepCoder입니다. 이 모델은 오픈AI의 o1 모델보다 뛰어난 성능을 보여주며 많은 개발자들의 시선을 사로잡고 있습니다. 단순한 성능 경쟁을 넘어, Reinforcement Learning(강화 학습)을 누구나 접근할 수 있도록 만들겠다는 철학도 함께 담고 있습니다.

이 글에서는 DeepCoder가 어떤 모델인지, 어떻게 학습됐고, 왜 지금 주목해야 하는지를 하나씩 풀어보겠습니다.

반응형

DeepCoder란 무엇인가?

DeepCoder는 Agentica 프로젝트와 Together AI가 공동으로 개발한 오픈소스 AI 코딩 모델입니다. Deepseek-R1-Distilled-Qwen-14B라는 대형 언어 모델을 기반으로 파인튜닝돼 만들어졌습니다. 이름에서 알 수 있듯이, 코딩 문제 해결 능력을 강화하는 데 초점을 맞춘 모델입니다.

공개된 버전은 DeepCoder-14B-Preview로, 약 24000개의 코딩 문제 데이터를 기반으로 RL(Reinforcement Learning)을 활용해 학습됐습니다. 중요한 건 이 학습 과정 전체가 투명하게 공개됐다는 점입니다. 코드, 데이터셋, 학습 로그, RL 프레임워크 개선 사항까지 모두 공개돼 있습니다.


강화학습으로 훈련된 AI 모델

기존의 LLM 학습 방식은 주로 지도학습이지만, DeepCoder는 RL을 적극적으로 활용했습니다. RL을 활용한 이유는 단순히 데이터를 외우는 것이 아니라, 논리적 추론과 문제 해결을 스스로 개선해나가는 능력을 강화하기 위함입니다.

하지만 여기에 큰 기술적 문제가 있었죠. 바로 학습 중 ‘샘플링’이라는 병목 지점입니다. 모델 추론을 통해 다음 학습 데이터를 생성하는 과정이 느렸던 겁니다. DeepCoder 개발팀은 이 문제를 병렬 파이프라인 구조로 해결했습니다. 추론과 학습을 동시에 실행하며 속도를 1.4배 이상 끌어올렸습니다.

또한, 학습 데이터도 단순히 양으로 밀어붙인 게 아닙니다. 정확성과 검증 가능성을 우선시했죠. 최소 다섯 개 이상의 단위 테스트가 붙은 검증된 문제만 걸러내 자동 파이프라인을 통해 데이터셋을 구축했습니다.


LiveCodeBench에서 입증된 성능

DeepCoder의 성능은 단순히 이론에 그치지 않았습니다. 여러 실제 코딩 벤치마크에서 테스트를 거쳤고, 가장 주목할 만한 결과는 LiveCodeBench입니다. 이 테스트에서 DeepCoder는 60.6%라는 통과율을 기록하며 오픈AI의 o1 모델을 앞섰습니다. o3-mini와도 비슷한 수준의 성능을 보여주었습니다.

추가로 Codeforces와 HumanEval, 수학 문제 중심의 AIME2024에서도 안정적이고 강력한 성능을 입증했습니다. 단지 한두 개의 테스트가 아닌, 다양한 환경에서 일관된 결과를 보여줬다는 점에서 DeepCoder의 기술력은 무시할 수 없습니다.


오픈소스: 누구나 직접 확인하고 실험할 수 있다

DeepCoder가 더 주목받는 이유는 성능이 아니라 접근성입니다. 연구팀은 학습 코드, 데이터셋, 강화학습 프레임워크 수정 사항 등을 모두 깃허브를 통해 공개했습니다. 이 말은 곧, 당신도 이 모델을 직접 돌려볼 수 있고, 학습 과정을 재현할 수 있다는 뜻입니다.

또한, 모델 학습에 사용된 verl 프레임워크까지 최적화하며 2배 빠른 학습 성능을 달성했으며, 이 부분까지도 코드와 함께 투명하게 공유했습니다.

연구팀은 이를 통해 "RL 학습의 민주화"를 목표로 한다고 말했습니다. 즉, 누구나 강화학습 기반의 LLM을 실험하고 개선할 수 있는 생태계를 만들자는 것입니다.


오픈소스는 죽지 않았다. 오히려 더 강해졌다

DeepCoder는 단순한 기술 발표가 아닙니다. ‘상용 모델만이 최고다’라는 고정관념을 깨는 사례입니다. 오픈소스도 올바른 설계와 학습 전략이 있다면, 상용 모델에 견줄 수 있는 성능을 낼 수 있다는 것을 보여준 사례입니다.

그리고 그 핵심은 바로 ‘투명성’과 ‘공유’입니다. DeepCoder는 고성능 AI 모델을 만드는 방식 자체를 공개했고, 커뮤니티가 함께 개선할 수 있는 기반을 만들었습니다. 이는 향후 AI 기술이 더 넓게, 빠르게 확산되는 데 중요한 전환점이 될 수 있습니다.


728x90

앞으로가 더 기대되는 DeepCoder

DeepCoder는 지금까지 등장한 오픈소스 AI 모델 중에서도 기술적, 철학적으로 모두 주목할 만한 사례입니다. 강화학습 기반의 효율적인 학습 전략, 엄격한 데이터 필터링, 그리고 무엇보다도 완전한 오픈소스로서의 투명성까지 갖췄습니다.

지금 이 시점에서 DeepCoder를 주목하는 건 단순한 모델 성능 때문이 아닙니다. 오픈소스가 다시 한 번 기술의 중심으로 설 수 있다는 가능성 때문입니다.

앞으로도 이런 프로젝트가 더 많아진다면, AI는 더 이상 몇몇 거대 기업의 전유물이 아니라, 모두가 함께 만들어가는 기술이 될 수 있습니다.

https://www.infoq.com/news/2025/06/deepcoder-outperforms-openai/?fbclid=IwY2xjawLIRAJleHRuA2FlbQIxMQBicmlkETFKODZzbVh1cUJiUk1PQ0VUAR6hWye94H2kaLH3Wbn3PSMJIuATXa7UGEQBe6no_hq5j6qZsHbrm6EoXkv6bA_aem_RgUDws8Xpdxu55wmRsSOeA

 

Agentica Project's Open Source DeepCoder Model Outperforms OpenAI's O1 on Coding Benchmarks

The Agentica Project and Together AI have released DeepCoder-14B-Preview, an open source AI coding model based on Deepseek-R1-Distilled-Qwen-14B. The model achieves a 60.6% pass rate on LiveCodeBench, outperforming OpenAI's o1 model and matching the perfor

www.infoq.com

728x90
반응형