
Alibaba가 Qwen 3.5 Medium 시리즈 4종을 공개했습니다. 이번 발표의 핵심은 단순한 “신규 모델 출시”가 아닙니다. 35B 모델이 단 3B(30억) 활성 파라미터만으로 기존 235B 플래그십 모델을 능가했다는 점입니다.
이 글에서는 Qwen 3.5 Medium 시리즈의 구성, 아키텍처 특징, 벤치마크 성능, 비용 경쟁력, 그리고 실제 도입 시 고려해야 할 부분까지 정리해보겠습니다.
1. Qwen 3.5 Medium 시리즈 구성
Alibaba는 다음 4가지 모델을 공개했습니다.
| 모델 | 유형 | 전체 파라미터 | 활성 파라미터 | 컨텍스트 | 라이선스 | API 가격 (입력/출력) |
| Qwen3.5-Flash | Hosted API | 미공개 | 미공개 | 1M 토큰 | Proprietary | $0.10 / $0.40 (1M 기준) |
| Qwen3.5-35B-A3B | MoE | 35B | 3B | 262K (1M 확장) | Apache 2.0 | Self-host |
| Qwen3.5-122B-A10B | MoE | 122B | 10B | 262K (1M 확장) | Apache 2.0 | Self-host |
| Qwen3.5-27B | Dense | 27B | 27B | 262K (1M 확장) | Apache 2.0 | Self-host |
핵심 포인트
- 35B-A3B 모델은 3B만 활성화
- 기존 Qwen3-235B-A22B 및 Qwen3-VL-235B-A22B를 전반적으로 능가
- 모든 모델이 Gated DeltaNet 하이브리드 어텐션 구조 사용
- 텍스트, 이미지, 비디오를 포함한 네이티브 멀티모달 학습
- 256K~1M 토큰 컨텍스트 지원
2. Gated DeltaNet 아키텍처란 무엇인가?
이번 시리즈는 397B 플래그십과 동일한 Gated DeltaNet 아키텍처를 사용합니다.
구조적 특징
- 3:1 하이브리드 어텐션
- Linear Attention (DeltaNet)
- Full Softmax Attention
- MoE(Mixture of Experts) 기반 256 Expert 라우팅
- 추론 시 일부 Expert만 활성화
왜 중요한가?
기존에는 성능을 높이기 위해 파라미터 수를 늘리는 방식이 일반적이었습니다.
하지만 Qwen 3.5는 다음을 증명합니다:
더 나은 아키텍처 + 학습 데이터 품질 + RL 튜닝 → 파라미터 증가 없이 성능 향상 가능
3. 벤치마크 성능 분석
특히 35B-A3B 모델의 성능이 주목할 만합니다.
주요 벤치마크 비교 (35B-A3B vs 235B)
- MMLU-Pro: 85.3 (235B: 84.4)
- GPQA Diamond: 84.2 (235B: 81.1)
- TAU2-Bench (Agent): 81.2 (235B: 58.5)
- MMMU (Vision): 81.4 (235B: 80.6)
- MathVision: 83.9 (235B: 74.6)
- ScreenSpot Pro: 68.6 (235B: 62.0)
가장 인상적인 부분
TAU2-Bench (에이전트 태스크)
58.5 → 81.2
이는 단순한 개선이 아니라 세대 전환 수준의 격차입니다.
4. Qwen3.5-Flash: 상용 API 전략
Flash 모델은 상용 API용 모델입니다.
특징
- 기본 1M 토큰 컨텍스트
- 내장 툴 지원
- 계층형 가격 정책
가격 경쟁력
- $0.10 / 1M 입력 토큰
- $0.40 / 1M 출력 토큰
이는 주요 프론티어 API 대비 매우 저렴한 수준입니다.
대규모 트래픽 환경에서는 비용 절감 효과가 구조적 차이를 만듭니다.
5. 실제 도입 시 고려해야 할 점
1) 벤치마크는 자체 보고 수치
AI 업계는 특정 평가셋에 최적화되는 경향이 있습니다.
실제 서비스 환경에서 동일한 성능이 나오는지는 검증이 필요합니다.
2) MoE 모델의 메모리 요구사항
122B-A10B 모델은 10B만 활성화되지만,
전체 가중치를 메모리에 유지해야 합니다.
→ Self-host 시 GPU 메모리 부담이 큼
3) 양자화(Quantization) 이슈
35B-A3B는 3B만 활성화되므로 소비자급 하드웨어에서 실행 가능성이 있지만,
- 4-bit 양자화 시 품질 유지 여부는 커뮤니티 검증 필요
4) 프레임워크 지원
- vLLM
- SGLang
- TensorRT-LLM
이와의 호환성이 실제 프로덕션 도입을 좌우합니다.
6. 왜 이번 발표가 중요한가?
핵심은 이것입니다:
22B 활성 파라미터가 하던 일을 이제 3B가 수행한다.
이는 단순 성능 개선이 아닙니다.
AI 추론 비용 구조의 하한선이 내려갔다는 의미입니다.
의미하는 바
- 동일 성능
- 7배 적은 활성 파라미터
- 구조적 비용 절감
- 멀티모달 기본 지원
- 256K 이상 컨텍스트
수백만 건의 API 호출을 처리하는 기업이라면,
이 변화는 “미세한 최적화”가 아니라 사업 모델 재계산 수준의 변화입니다.
Qwen 3.5 Medium 시리즈는 다음을 보여줍니다.
- 파라미터 수 경쟁 시대의 종료 가능성
- 아키텍처 혁신이 비용 곡선을 재정의
- MoE 기반 경량 고성능 모델의 상용화 가속
- 멀티모달 + 장문 컨텍스트의 기본화
특히 35B-A3B는 다음 질문을 던집니다:
“이제 정말 200B 이상 모델이 필요한가?”
AI 시장은 이제 “누가 더 큰 모델을 만들었는가”가 아니라
**“누가 더 적은 연산으로 더 많은 지능을 구현했는가”**로 이동하고 있습니다.
Qwen 3.5 Medium 시리즈는 그 전환점을 보여주는 사례로 평가할 수 있습니다.
앞으로 커뮤니티 실측 결과와 프로덕션 적용 사례가 나오면,
이 모델들이 연구 단계에 머물지, 실제 산업 표준이 될지 판가름날 것입니다.
https://huggingface.co/collections/Qwen/qwen35
Qwen3.5 - a Qwen Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co

'인공지능' 카테고리의 다른 글
| /init으로 생성한 AGENTS.md가 오히려 비용을 20% 늘리는 이유와 올바른 컨텍스트 설계 전략 (0) | 2026.02.26 |
|---|---|
| Claude Code Remote Control 기능 완전 정리: 로컬 세션을 모든 기기에서 이어서 사용하는 방법 (0) | 2026.02.26 |
| MCP 토큰 폭증 문제와 해결 전략 10가지: 운영 환경에서 성능을 지키는 방법 (0) | 2026.02.24 |
| agf: AI 코딩 에이전트 세션을 한눈에 관리하는 터미널 TUI (0) | 2026.02.24 |
| Micasa: 터미널에서 주택 유지보수를 통합 관리하는 오픈소스 도구 (0) | 2026.02.24 |