본문 바로가기

인공지능

속도와 지능을 동시에 잡다: DeepSeek R1T2 Chimera, 새로운 LLM 설계의 혁신

728x90
반응형

차세대 AI 모델이 갖춰야 할 두 가지 – 속도와 사고력, 둘 다 가능할까?

대형 언어 모델(LLM)을 사용할 때 흔히 겪는 고민이 있다. 똑똑한 모델은 너무 느리고, 빠른 모델은 사고력이 부족하다는 점이다. 특히 개발자나 연구자 입장에서는 속도와 품질 중 하나를 선택해야 하는 상황이 반복된다. 이런 상황에서 TNG Technology Consulting은 전혀 새로운 접근 방식으로 문제를 풀었다. 기존 모델들을 훈련 없이 병합해 새로운 성능을 끌어내는 방법, 바로 Assembly-of-Experts(AoE) 전략이다.

DeepSeek R1T2 Chimera는 이 전략으로 만들어진 대표 모델이다. 기존 모델(R1, R1-0528, V3-0324)의 장점만을 추출해 결합함으로써 속도는 더 빠르게, 사고력은 더 정교하게 설계됐다. 본 글에서는 이 모델의 구조, 성능, 기술적 특징, 실제 사용자 반응과 공개 정보까지 상세히 소개한다.

반응형

Assembly-of-Experts란 무엇인가?

기존 LLM 학습과 튜닝 과정은 매우 비효율적이다. 수백억 개의 파라미터를 기반으로 하는 모델을 다시 훈련하려면 시간과 비용이 막대하게 소모된다. 특히 Mixture-of-Experts(MoE) 방식의 모델은 성능은 좋지만 운영과 확장이 어렵다.

TNG는 이를 해결하기 위해 Assembly-of-Experts(AoE) 방식을 도입했다. 이 방법은 기존 모델들의 무게 텐서(weight tensor)를 병합하는 방식으로 새로운 모델을 생성한다. 핵심은 재훈련 없이 각 모델의 능력을 선택적으로 계승할 수 있다는 점이다. 모델 구성 시간이 선형적으로 단축되며, 각 전문가 모델의 역할을 조합해 맞춤형 성능을 구현할 수 있다.

R1T2 Chimera의 구조와 성능

DeepSeek R1T2는 세 가지 주요 모델의 특성을 조합하여 구성됐다.

  • R1의 전문가 텐서: 체계적 추론 능력 계승
  • V3-0324의 기반 구조: 출력 토큰 최적화, 속도 향상
  • R1-0528의 선택적 개선 요소: 일부 고지능 기능 통합

이 조합을 통해 R1T2는 R1보다 20% 이상 빠르고, R1-0528보다 두 배 이상 빠른 성능을 보인다. 추론 성능 또한 GPQA Diamond와 AIME-2024/2025 벤치마크에서 R1을 능가하는 성과를 기록했다.

속도 향상은 단순한 하드웨어 최적화가 아니라 출력 토큰 길이 최적화, 불필요한 경로 제거, 그리고 전문가 텐서의 선택적 병합을 통해 이루어진 결과다.

파라미터 공간에서의 행동 특성

R1T2는 단순히 빠르기만 한 모델이 아니다. 모델 병합이 단지 평균값이 아니라 새로운 행동 특성을 발현시킬 수 있다는 점을 입증했다. 예를 들어, R1이 차지하는 비중이 약 50% 이상일 때 사고 과정이 드러나는 ‘Reasoning Trace’가 갑작스럽게 나타난다. 이는 일부 기능이나 행동 특성이 파라미터 공간 내에 별도로 존재한다는 가능성을 보여준다.

이러한 결과는 모델 병합이 단지 기능을 더하는 것이 아니라, 특정 지점에서 완전히 새로운 능력을 발현시킬 수 있다는 점에서 의미가 크다.

사용자 피드백: 실사용자의 평가

Reddit의 LocalLLaMA 커뮤니티에서는 DeepSeek R1T2에 대해 다음과 같은 반응이 이어지고 있다.

  • 속도와 품질 면에서 명확한 개선이 체감된다.
  • 수학 기반 문제 해결 능력이 R1보다 더 우수하다.
  • 응답이 더욱 일관되고 현실적이며, 잘못된 정보를 줄이는 데 효과적이다.

특히 프로덕션 환경에서 안정적인 성능을 요구하는 개발자들에게 긍정적인 평가가 많다. 일부 사용자는 R1T2가 처음으로 ‘속도와 지능을 동시에 업그레이드한 모델’이라고 평가하기도 했다.

오픈소스 공개 및 활용 방법

R1T2 Chimera는 MIT 라이선스로 Hugging Face에 공개되어 누구나 사용할 수 있다. 내부적으로는 Chutes 무서버 추론 플랫폼을 통해 하루 50억 개 이상의 토큰을 처리하고 있으며, 이는 대규모 생산 환경에서도 충분한 안정성과 효율성을 입증하는 수치다.

이처럼 공개된 모델은 연구자나 개발자가 자유롭게 실험하고, 필요에 따라 파인튜닝 및 강화학습을 수행할 수 있도록 설계됐다.

728x90

DeepSeek R1T2 Chimera는 단순한 기술 개선을 넘어, 모델 설계 방식 자체를 전환하는 시도를 보여준다. 재훈련 없이 전문가 모델을 병합하고, 그 병합의 방식에 따라 새로운 행동 특성과 성능을 발현할 수 있다는 점은 향후 LLM 개발의 새로운 방향성을 제시한다.

속도와 사고력을 모두 갖춘 모델을 원하는 개발자, LLM 연구자, 그리고 안정적이고 빠른 AI 백엔드를 찾는 기업이라면 R1T2는 충분히 고려해볼 가치가 있다. 또한 오픈소스로 제공된 만큼, 앞으로 다양한 실험과 적용 사례가 나올 것으로 기대된다.

Assembly-of-Experts 방식은 이제 막 출발선에 섰지만, 앞으로의 AI 모델 개발에 있어 중요한 전환점이 될 수 있다.

https://www.marktechpost.com/2025/07/03/deepseek-r1t2-chimera-200-faster-than-r1-0528-with-improved-reasoning-and-compact-output/?fbclid=IwY2xjawLUD_tleHRuA2FlbQIxMQBicmlkETFmS1dSdVJkc2padVVNOTJmAR6ftGzo2LJzYVV3kokzjddobIx5n3i_pd-5zQdRQr-D-pPsBOQh238rB--few_aem_oWU73F2tFIwySWVkUwv_iw

728x90
반응형