Qwen 3.5 Small 시리즈 공개: 0.8B부터 9B까지 네이티브 멀티모달과 262K 컨텍스트를 담다

728x90

728x170

Alibaba가 Qwen 3.5 라인업을 완성하며 0.8B부터 9B까지 총 4개의 스몰 모델을 공개했습니다. 이번 발표의 핵심은 단순히 “작은 모델 추가”가 아닙니다. 모든 모델이 네이티브 멀티모달을 지원하고, 262K 컨텍스트를 기본 제공하며, Apache 2.0 라이선스로 배포된다는 점입니다. 특히 9B 모델은 이전 세대 30B 모델을 능가하는 성능을 보여주며, 스몰 모델의 기준을 새롭게 정의하고 있습니다.

이 글에서는 Qwen 3.5 Small 시리즈의 구성, 아키텍처 특징, 벤치마크 성능, 활용 환경, 그리고 전체 Qwen 3.5 패밀리에서의 위치까지 체계적으로 정리합니다.

Qwen 3.5 Small 시리즈 개요

이번에 공개된 모델은 다음 네 가지입니다.

Qwen3.5-0.8B
Qwen3.5-2B
Qwen3.5-4B
Qwen3.5-9B

공통 특징

네이티브 멀티모달 (텍스트, 이미지, 비디오 단일 아키텍처 처리)
262K 기본 컨텍스트 (9B는 최대 약 1M 확장 지원)
Apache 2.0 라이선스
201개 언어 및 방언 지원
Multi-Token Prediction(MTP) 적용
Base 모델 별도 공개 (연구 및 파인튜닝 가능)

기존에는 텍스트 모델과 비전 모델을 별도로 구성하거나 어댑터를 붙이는 방식이 일반적이었습니다. 하지만 Qwen 3.5 Small 시리즈는 하나의 아키텍처로 텍스트, 이미지, 비디오를 모두 처리합니다. 별도 Vision-Line 모델이 필요 없습니다.

모델별 스펙 및 실행 환경

모델	파라미터	레이어	컨텍스트	VRAM	실행 환경
0.8B	0.8B	24	262K	약 1.6GB	스마트폰, Raspberry Pi, 일반 GPU
2B	2B	24	262K	약 4GB	노트북 GPU, 모바일 SoC
4B	4B	32	262K	약 8GB	RTX 3060 12GB, M1/M2 Mac
9B	9B	32	262K (1M 확장)	약 18GB	RTX 3090/4090, M2 Pro 이상

4비트 양자화 시 9B 모델은 약 5GB VRAM으로 구동이 가능합니다.
이는 온디바이스 멀티모달 AI 구축의 진입 장벽을 크게 낮추는 요소입니다.

기대를 뛰어넘는 9B 모델 성능

Qwen3.5-9B는 이전 세대 Qwen3-30B 모델을 대부분의 언어 벤치마크에서 능가합니다.

주요 언어 벤치마크

MMLU-Pro: 82.5
GPQA Diamond: 81.7
IFEval: 91.5
LongBench v2: 55.2

특히 GPQA Diamond와 LongBench v2에서 80B 모델보다 높은 점수를 기록했습니다.
이는 단순한 파라미터 축소가 아닌, 아키텍처 혁신의 결과라고 볼 수 있습니다.

비전 및 멀티모달 성능

Qwen 3.5 Small 시리즈의 가장 큰 차별점은 “모든 모델이 네이티브 비전 지원”이라는 점입니다.

Qwen3.5-9B 주요 비전 성능

MMMU-Pro: 70.1
MathVision: 78.9
OmniDocBench1.5: 87.7
VideoMME (자막 포함): 84.5

특히 문서 이해 벤치마크(OmniDocBench1.5)에서 GPT-5-Nano 대비 30점 이상 높은 성능을 기록했습니다. 이는 단순한 이미지 인식이 아니라, 복합적인 멀티모달 이해 능력을 의미합니다.

0.8B·2B 모델도 실사용 가능 수준

흥미로운 점은 가장 작은 모델들도 경쟁력 있는 성능을 보여준다는 것입니다.

Qwen3.5-2B

OCRBench: 84.5
VideoMME: 75.6

Qwen3.5-0.8B

MathVista: 62.2
OCRBench: 74.5

1B 미만 모델이 이 수준의 문서 인식과 비디오 이해 성능을 제공하는 것은 온디바이스 AI 관점에서 매우 의미 있는 발전입니다.

핵심 아키텍처: 왜 성능이 나오는가

1. Gated DeltaNet Hybrid Attention

3:1 비율의 Linear Attention : Full Attention
Linear Attention은 메모리 복잡도를 일정하게 유지
Full Attention은 정밀 추론 처리

이 구조 덕분에 작은 모델에서도 262K 컨텍스트를 유지할 수 있습니다.

2. DeepStack Vision Transformer

Conv3d 기반 패치 임베딩
멀티 레이어 피처 통합
비디오의 시간적 정보 처리 가능

이 구조 덕분에 0.8B 모델도 비디오 이해가 가능합니다.

3. Strong-to-Weak Distillation

397B 및 중간급 모델에서 지식 증류
Off-policy 및 On-policy 전이 활용
소형 모델에서 RL 직접 학습보다 높은 효율

4. Multi-Token Prediction (MTP)

한 번에 여러 토큰 예측
추론 속도 직접 향상
품질 저하 없이 처리 속도 개선

전체 Qwen 3.5 패밀리 내 위치

현재 Qwen 3.5 라인업은 다음과 같습니다.

397B-A17B (Flagship MoE)
122B-A10B (MoE)
35B-A3B (MoE)
27B Dense
9B / 4B / 2B / 0.8B Dense

단 16일 만에 0.8B부터 397B까지 완전한 제품군을 구성했습니다.
모든 모델이 동일한 아키텍처 기반이며, 네이티브 멀티모달을 지원합니다.

무엇이 달라졌는가

1년 전만 해도 멀티모달 모델을 로컬에서 실행하려면 13B 이상 모델과 고성능 GPU가 필요했습니다.
이제는 4B 모델로 텍스트·이미지·비디오를 8GB VRAM에서 처리할 수 있습니다.

이는 다음과 같은 변화를 의미합니다.

온디바이스 AI 에이전트 현실화
엣지 디바이스 멀티모달 배포 가능
연구 및 파인튜닝 접근성 확대
비용 대비 성능 구조의 재정의

728x90

Qwen 3.5 Small 시리즈는 단순한 “경량 모델 추가”가 아닙니다.

네이티브 멀티모달
262K 초장문 컨텍스트
소형 모델에서의 고성능 추론
Apache 2.0 오픈 라이선스

특히 9B 모델이 30B급 모델을 능가하는 성능을 보였다는 점은, 앞으로 모델 크기보다 아키텍처와 학습 전략이 더 중요해질 수 있음을 보여줍니다.

개발자 입장에서는 선택지가 크게 늘어났습니다.
이제 질문은 “대형 모델을 써야 하나?”가 아니라,
“내 환경에서 어떤 크기가 최적일까?”가 될 것입니다.

Qwen 3.5 Small 시리즈는 엣지 AI와 온디바이스 멀티모달 시대를 앞당기는 분명한 신호입니다.

300x250

https://huggingface.co/Qwen/models

Qwen (Qwen)

Org profile for Qwen on Hugging Face, the AI community building the future.

huggingface.co

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

Claude Code 컨텍스트 소비 98% 절감, Context Mode MCP 서버로 세션 6배 확장하는 방법 (0)	2026.03.03
에이전트 퍼스트 시대의 소프트웨어 개발 전략 - Codex로 0줄 코드 제품을 구축하며 얻은 엔지니어링 인사이트 (0)	2026.03.03
MaxClaw: 10초 만에 상시 온라인 개인 AI 에이전트 구축하는 방법 (0)	2026.03.02
Microsoft Copilot Tasks: 대화형 AI를 넘어 실행하는 AI로의 진화 (0)	2026.03.02
EdgeQuake: Rust 기반 고성능 Graph-RAG 프레임워크로 구현하는 지능형 지식 그래프 검색 (0)	2026.03.01

평범한 직장인이 사는 세상

Qwen 3.5 Small 시리즈 공개: 0.8B부터 9B까지 네이티브 멀티모달과 262K 컨텍스트를 담다

Qwen 3.5 Small 시리즈 개요

공통 특징

모델별 스펙 및 실행 환경

기대를 뛰어넘는 9B 모델 성능

주요 언어 벤치마크

비전 및 멀티모달 성능

Qwen3.5-9B 주요 비전 성능

0.8B·2B 모델도 실사용 가능 수준

Qwen3.5-2B

Qwen3.5-0.8B

핵심 아키텍처: 왜 성능이 나오는가

1. Gated DeltaNet Hybrid Attention

2. DeepStack Vision Transformer

3. Strong-to-Weak Distillation

4. Multi-Token Prediction (MTP)

전체 Qwen 3.5 패밀리 내 위치

무엇이 달라졌는가

'인공지능' 카테고리의 다른 글

티스토리툴바

Qwen 3.5 Small 시리즈 공개: 0.8B부터 9B까지 네이티브 멀티모달과 262K 컨텍스트를 담다

Qwen 3.5 Small 시리즈 개요

공통 특징

모델별 스펙 및 실행 환경

기대를 뛰어넘는 9B 모델 성능

주요 언어 벤치마크

비전 및 멀티모달 성능

Qwen3.5-9B 주요 비전 성능

0.8B·2B 모델도 실사용 가능 수준

Qwen3.5-2B

Qwen3.5-0.8B

핵심 아키텍처: 왜 성능이 나오는가

1. Gated DeltaNet Hybrid Attention

2. DeepStack Vision Transformer

3. Strong-to-Weak Distillation

4. Multi-Token Prediction (MTP)

전체 Qwen 3.5 패밀리 내 위치

무엇이 달라졌는가

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바