본문 바로가기

인공지능

Qwen3의 MoE 모델, 효율과 성능을 동시에 잡는 업스케일링 전략

728x90
반응형

 

https://medium.com/@srivastavasushant96/mixture-of-experts-moe-the-buzz-behind-deepseek-mistral-and-qwen3-dc6308b23fa1

Mixture-of-Experts(MoE)는 최근 대형 언어 모델(LLM)에서 주목받는 핵심 아키텍처입니다. 하지만 이 구조에도 치명적인 약점이 존재합니다. 바로 특정 전문가에 의존하게 되는 ‘라우터 편향’ 문제입니다. 특히 Qwen3처럼 성능과 효율을 모두 추구하는 모델에서는 이 문제가 서빙 속도와 품질에 직접적인 영향을 미칩니다.

본 블로그에서는 Qwen3 MoE 구조의 핵심 요소인 라우터와 전문가의 역할, 라우터 편향 문제의 원인과 해결 전략을 상세히 분석합니다. 또한 사이오닉이 실제로 적용한 가지치기(Pruning) 및 Upscaling 전략을 통해 모델의 성능을 유지하면서도 연산 효율을 극대화하는 방식을 소개합니다. 단순 이론이 아니라 실제 실험 결과와 코드 예제를 바탕으로, MoE 구조의 활용과 최적화에 관심 있는 분들에게 실질적인 인사이트를 제공합니다.

반응형

1. MoE란 무엇인가?

Mixture-of-Experts(MoE) 구조는 하나의 커다란 네트워크가 모든 작업을 처리하는 Dense 방식과는 다르게, 여러 개의 소형 전문가(Expert)를 구성하고, 각 입력 토큰마다 일부 전문가만 선택적으로 활성화하는 아키텍처입니다.

이 방식의 핵심 장점은 다음과 같습니다:

  • 모든 전문가를 매번 사용하는 것이 아니라, 입력에 따라 일부 전문가만 사용하므로 계산 비용이 줄어듭니다.
  • 각 전문가는 특정 유형의 입력이나 작업에 특화될 수 있으므로, 더 세밀하고 정확한 처리가 가능합니다.
  • 모델 전체 파라미터 수는 크지만, 실제로 사용하는 연산량은 작기 때문에 메모리 및 계산 자원을 효율적으로 활용할 수 있습니다.

2. Qwen3 MoE 구조의 핵심 구성

Qwen3는 Alibaba Cloud에서 개발한 대형 언어 모델 시리즈로, MoE 구조를 적극 활용하고 있습니다. 이 구조의 중심은 다음 두 요소입니다.

전문가(Experts)

전문가는 Dense 모델의 일부를 분리해 소형화한 서브 네트워크입니다. Qwen3에서는 이 전문가들이 서로 다른 작업에 특화되도록 구성되어 있으며, 입력된 토큰의 특성에 따라 선택적으로 활성화됩니다.

라우터(Router)

라우터는 어떤 전문가를 활성화할지 결정하는 역할을 합니다. 입력 토큰마다 모든 전문가의 적합성을 평가하고, 그중 상위 k개의 전문가를 선택합니다. 이때 게이팅 확률(gating probability)을 기반으로 선택된 전문가의 출력 값을 가중합하여 최종 결과를 생성합니다.


3. 라우터 편향이란 무엇인가?

라우터 편향이란 특정 전문가가 과도하게 자주 선택되거나, 반대로 거의 선택되지 않는 현상을 말합니다. 이 현상이 발생하면 다음과 같은 문제가 생깁니다.

  • 소수의 전문가에 연산 부하가 집중되어 처리 속도가 저하됩니다.
  • 자주 선택되지 않는 전문가들은 자원을 낭비하게 됩니다.
  • 모델이 특정 데이터나 언어에만 최적화되어, 일반화 성능이 저하됩니다.

Qwen3 모델에서도 실제로 라우터 편향 문제가 발견되었습니다. 특히 한국어 입력에 대해서는 특정 전문가에게 선택이 편중되는 현상이 두드러졌습니다.


4. 한국어 입력에 대한 라우터 선택 분석

Qwen3 모델은 한국어 입력에 대해 일부 전문가에게 집중적으로 의존하는 경향이 있습니다. 예를 들어, Expert 7의 EMA 비율은 0.42%로 가장 높았고, 상위 20명의 전문가가 전체 사용량의 상당 부분을 차지했습니다.

반면, 0.05% 이하로 거의 선택되지 않는 전문가들도 다수 존재하여, 이들은 사실상 모델에 기여하지 못하고 있는 상태입니다. 이러한 '소수 집중 현상(Sparse Utilization)'은 모델의 효율성과 품질을 동시에 저해할 수 있습니다.


5. MoE 가지치기(Pruning)의 한계와 교훈

단순히 전문가의 선택 빈도가 높다는 이유로 상위 몇 개만 남기는 방식은 성능 저하를 초래할 수 있습니다. 실제 실험에서 상위 64개의 전문가만 활성화했을 때, 출력 품질이 급격히 떨어졌으며 반복적인 문장이 생성되는 문제도 발생했습니다.

이러한 결과는 다음을 시사합니다:

  • 전문가 간에는 보완 관계가 존재한다.
  • 단순히 선택 빈도로 가지치기하는 전략은 오히려 품질을 해칠 수 있다.

6. 사이오닉의 MoE Upscaling 전략

사이오닉은 다음과 같은 전략을 통해 효율성과 성능을 모두 확보하는 방향으로 접근했습니다.

(1) 전문가 가지치기 후 Post-Training

중요도가 낮은 전문가를 제거한 뒤, 모델이 새로운 구조에 적응할 수 있도록 후처리 학습(Post-Training)을 수행합니다.

(2) 전문가 활성화 수(k 값) 증가

가지치기로 전체 전문가 수가 줄어든 만큼, 활성화되는 전문가 수(k)를 늘립니다. 예를 들어 기존에는 8개 전문가를 활성화했다면, 이를 16개로 늘려도 연산량은 줄어든 상태이므로 충분히 감당할 수 있습니다.

"num_experts_per_tok": 16

이 설정은 복잡한 문장을 처리할 때 출력 품질을 개선하는 데 크게 기여합니다.

(3) 그룹 단위 최적화 – GRPO(Group Relative Policy Optimization)

전문가를 개별적으로 평가하지 않고, 그룹 단위로 분류하여 가지치기 여부를 결정합니다. 이 방식은 전문가 간의 상호 작용을 고려한 라우팅 정책 최적화를 가능하게 합니다.


728x90

Qwen3 MoE 모델은 뛰어난 구조지만, 그 잠재력을 제대로 활용하기 위해서는 라우터 편향 문제 해결과 효율적인 전문가 선택 전략이 필수입니다. 사이오닉이 제안한 전략은 단순한 파라미터 절감이 아닌, 품질을 유지하면서도 효율을 극대화할 수 있는 실질적인 해법입니다.

앞으로 대형 언어 모델을 서빙하거나 최적화하려는 기업이나 연구자들에게 있어, MoE 구조에 대한 깊은 이해와 실제적인 프루닝 전략의 필요성은 더욱 커질 것입니다. 이 글이 MoE 구조의 본질과 적용 전략을 이해하는 데 도움이 되었기를 바랍니다.

https://medium.com/@srivastavasushant96/mixture-of-experts-moe-the-buzz-behind-deepseek-mistral-and-qwen3-dc6308b23fa1

 

Mixture-of-Experts (MoE): The Buzz Behind DeepSeek, Mistral, and Qwen3

Introduction

medium.com

728x90
반응형