본문 바로가기

인공지능

Qwen 3.5 Medium 시리즈 공개: 35B 모델이 235B 플래그십을 넘어선 이유

728x90
반응형
728x170

Alibaba가 Qwen 3.5 Medium 시리즈 4종을 공개했습니다. 이번 발표의 핵심은 단순한 “신규 모델 출시”가 아닙니다. 35B 모델이 단 3B(30억) 활성 파라미터만으로 기존 235B 플래그십 모델을 능가했다는 점입니다.

이 글에서는 Qwen 3.5 Medium 시리즈의 구성, 아키텍처 특징, 벤치마크 성능, 비용 경쟁력, 그리고 실제 도입 시 고려해야 할 부분까지 정리해보겠습니다.

반응형

1. Qwen 3.5 Medium 시리즈 구성

Alibaba는 다음 4가지 모델을 공개했습니다.

모델 유형 전체 파라미터 활성 파라미터 컨텍스트 라이선스 API 가격 (입력/출력)
Qwen3.5-Flash Hosted API 미공개 미공개 1M 토큰 Proprietary $0.10 / $0.40 (1M 기준)
Qwen3.5-35B-A3B MoE 35B 3B 262K (1M 확장) Apache 2.0 Self-host
Qwen3.5-122B-A10B MoE 122B 10B 262K (1M 확장) Apache 2.0 Self-host
Qwen3.5-27B Dense 27B 27B 262K (1M 확장) Apache 2.0 Self-host

핵심 포인트

  • 35B-A3B 모델은 3B만 활성화
  • 기존 Qwen3-235B-A22B 및 Qwen3-VL-235B-A22B를 전반적으로 능가
  • 모든 모델이 Gated DeltaNet 하이브리드 어텐션 구조 사용
  • 텍스트, 이미지, 비디오를 포함한 네이티브 멀티모달 학습
  • 256K~1M 토큰 컨텍스트 지원

2. Gated DeltaNet 아키텍처란 무엇인가?

이번 시리즈는 397B 플래그십과 동일한 Gated DeltaNet 아키텍처를 사용합니다.

구조적 특징

  • 3:1 하이브리드 어텐션
    • Linear Attention (DeltaNet)
    • Full Softmax Attention
  • MoE(Mixture of Experts) 기반 256 Expert 라우팅
  • 추론 시 일부 Expert만 활성화

왜 중요한가?

기존에는 성능을 높이기 위해 파라미터 수를 늘리는 방식이 일반적이었습니다.
하지만 Qwen 3.5는 다음을 증명합니다:

더 나은 아키텍처 + 학습 데이터 품질 + RL 튜닝 → 파라미터 증가 없이 성능 향상 가능


3. 벤치마크 성능 분석

특히 35B-A3B 모델의 성능이 주목할 만합니다.

주요 벤치마크 비교 (35B-A3B vs 235B)

  • MMLU-Pro: 85.3 (235B: 84.4)
  • GPQA Diamond: 84.2 (235B: 81.1)
  • TAU2-Bench (Agent): 81.2 (235B: 58.5)
  • MMMU (Vision): 81.4 (235B: 80.6)
  • MathVision: 83.9 (235B: 74.6)
  • ScreenSpot Pro: 68.6 (235B: 62.0)

가장 인상적인 부분

TAU2-Bench (에이전트 태스크)
58.5 → 81.2

이는 단순한 개선이 아니라 세대 전환 수준의 격차입니다.


4. Qwen3.5-Flash: 상용 API 전략

Flash 모델은 상용 API용 모델입니다.

특징

  • 기본 1M 토큰 컨텍스트
  • 내장 툴 지원
  • 계층형 가격 정책

가격 경쟁력

  • $0.10 / 1M 입력 토큰
  • $0.40 / 1M 출력 토큰

이는 주요 프론티어 API 대비 매우 저렴한 수준입니다.
대규모 트래픽 환경에서는 비용 절감 효과가 구조적 차이를 만듭니다.


5. 실제 도입 시 고려해야 할 점

1) 벤치마크는 자체 보고 수치

AI 업계는 특정 평가셋에 최적화되는 경향이 있습니다.
실제 서비스 환경에서 동일한 성능이 나오는지는 검증이 필요합니다.

2) MoE 모델의 메모리 요구사항

122B-A10B 모델은 10B만 활성화되지만,
전체 가중치를 메모리에 유지해야 합니다.

→ Self-host 시 GPU 메모리 부담이 큼

3) 양자화(Quantization) 이슈

35B-A3B는 3B만 활성화되므로 소비자급 하드웨어에서 실행 가능성이 있지만,

  • 4-bit 양자화 시 품질 유지 여부는 커뮤니티 검증 필요

4) 프레임워크 지원

  • vLLM
  • SGLang
  • TensorRT-LLM

이와의 호환성이 실제 프로덕션 도입을 좌우합니다.


6. 왜 이번 발표가 중요한가?

핵심은 이것입니다:

22B 활성 파라미터가 하던 일을 이제 3B가 수행한다.

이는 단순 성능 개선이 아닙니다.
AI 추론 비용 구조의 하한선이 내려갔다는 의미입니다.

의미하는 바

  • 동일 성능
  • 7배 적은 활성 파라미터
  • 구조적 비용 절감
  • 멀티모달 기본 지원
  • 256K 이상 컨텍스트

수백만 건의 API 호출을 처리하는 기업이라면,
이 변화는 “미세한 최적화”가 아니라 사업 모델 재계산 수준의 변화입니다.


728x90

Qwen 3.5 Medium 시리즈는 다음을 보여줍니다.

  1. 파라미터 수 경쟁 시대의 종료 가능성
  2. 아키텍처 혁신이 비용 곡선을 재정의
  3. MoE 기반 경량 고성능 모델의 상용화 가속
  4. 멀티모달 + 장문 컨텍스트의 기본화

특히 35B-A3B는 다음 질문을 던집니다:

“이제 정말 200B 이상 모델이 필요한가?”

AI 시장은 이제 “누가 더 큰 모델을 만들었는가”가 아니라
**“누가 더 적은 연산으로 더 많은 지능을 구현했는가”**로 이동하고 있습니다.

Qwen 3.5 Medium 시리즈는 그 전환점을 보여주는 사례로 평가할 수 있습니다.

앞으로 커뮤니티 실측 결과와 프로덕션 적용 사례가 나오면,
이 모델들이 연구 단계에 머물지, 실제 산업 표준이 될지 판가름날 것입니다.

300x250

https://huggingface.co/collections/Qwen/qwen35

 

Qwen3.5 - a Qwen Collection

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

728x90
반응형
그리드형