본문 바로가기

인공지능

Qwen 3.5 Small 시리즈 공개: 0.8B부터 9B까지 네이티브 멀티모달과 262K 컨텍스트를 담다

728x90
반응형
728x170

Alibaba가 Qwen 3.5 라인업을 완성하며 0.8B부터 9B까지 총 4개의 스몰 모델을 공개했습니다. 이번 발표의 핵심은 단순히 “작은 모델 추가”가 아닙니다. 모든 모델이 네이티브 멀티모달을 지원하고, 262K 컨텍스트를 기본 제공하며, Apache 2.0 라이선스로 배포된다는 점입니다. 특히 9B 모델은 이전 세대 30B 모델을 능가하는 성능을 보여주며, 스몰 모델의 기준을 새롭게 정의하고 있습니다.

이 글에서는 Qwen 3.5 Small 시리즈의 구성, 아키텍처 특징, 벤치마크 성능, 활용 환경, 그리고 전체 Qwen 3.5 패밀리에서의 위치까지 체계적으로 정리합니다.

반응형

Qwen 3.5 Small 시리즈 개요

이번에 공개된 모델은 다음 네 가지입니다.

  • Qwen3.5-0.8B
  • Qwen3.5-2B
  • Qwen3.5-4B
  • Qwen3.5-9B

공통 특징

  • 네이티브 멀티모달 (텍스트, 이미지, 비디오 단일 아키텍처 처리)
  • 262K 기본 컨텍스트 (9B는 최대 약 1M 확장 지원)
  • Apache 2.0 라이선스
  • 201개 언어 및 방언 지원
  • Multi-Token Prediction(MTP) 적용
  • Base 모델 별도 공개 (연구 및 파인튜닝 가능)

기존에는 텍스트 모델과 비전 모델을 별도로 구성하거나 어댑터를 붙이는 방식이 일반적이었습니다. 하지만 Qwen 3.5 Small 시리즈는 하나의 아키텍처로 텍스트, 이미지, 비디오를 모두 처리합니다. 별도 Vision-Line 모델이 필요 없습니다.


모델별 스펙 및 실행 환경

모델 파라미터 레이어 컨텍스트 VRAM 실행 환경
0.8B 0.8B 24 262K 약 1.6GB 스마트폰, Raspberry Pi, 일반 GPU
2B 2B 24 262K 약 4GB 노트북 GPU, 모바일 SoC
4B 4B 32 262K 약 8GB RTX 3060 12GB, M1/M2 Mac
9B 9B 32 262K (1M 확장) 약 18GB RTX 3090/4090, M2 Pro 이상

4비트 양자화 시 9B 모델은 약 5GB VRAM으로 구동이 가능합니다.
이는 온디바이스 멀티모달 AI 구축의 진입 장벽을 크게 낮추는 요소입니다.


기대를 뛰어넘는 9B 모델 성능

Qwen3.5-9B는 이전 세대 Qwen3-30B 모델을 대부분의 언어 벤치마크에서 능가합니다.

주요 언어 벤치마크

  • MMLU-Pro: 82.5
  • GPQA Diamond: 81.7
  • IFEval: 91.5
  • LongBench v2: 55.2

특히 GPQA Diamond와 LongBench v2에서 80B 모델보다 높은 점수를 기록했습니다.
이는 단순한 파라미터 축소가 아닌, 아키텍처 혁신의 결과라고 볼 수 있습니다.


비전 및 멀티모달 성능

Qwen 3.5 Small 시리즈의 가장 큰 차별점은 “모든 모델이 네이티브 비전 지원”이라는 점입니다.

Qwen3.5-9B 주요 비전 성능

  • MMMU-Pro: 70.1
  • MathVision: 78.9
  • OmniDocBench1.5: 87.7
  • VideoMME (자막 포함): 84.5

특히 문서 이해 벤치마크(OmniDocBench1.5)에서 GPT-5-Nano 대비 30점 이상 높은 성능을 기록했습니다. 이는 단순한 이미지 인식이 아니라, 복합적인 멀티모달 이해 능력을 의미합니다.


0.8B·2B 모델도 실사용 가능 수준

흥미로운 점은 가장 작은 모델들도 경쟁력 있는 성능을 보여준다는 것입니다.

Qwen3.5-2B

  • OCRBench: 84.5
  • VideoMME: 75.6

Qwen3.5-0.8B

  • MathVista: 62.2
  • OCRBench: 74.5

1B 미만 모델이 이 수준의 문서 인식과 비디오 이해 성능을 제공하는 것은 온디바이스 AI 관점에서 매우 의미 있는 발전입니다.


핵심 아키텍처: 왜 성능이 나오는가

1. Gated DeltaNet Hybrid Attention

  • 3:1 비율의 Linear Attention : Full Attention
  • Linear Attention은 메모리 복잡도를 일정하게 유지
  • Full Attention은 정밀 추론 처리

이 구조 덕분에 작은 모델에서도 262K 컨텍스트를 유지할 수 있습니다.


2. DeepStack Vision Transformer

  • Conv3d 기반 패치 임베딩
  • 멀티 레이어 피처 통합
  • 비디오의 시간적 정보 처리 가능

이 구조 덕분에 0.8B 모델도 비디오 이해가 가능합니다.


3. Strong-to-Weak Distillation

  • 397B 및 중간급 모델에서 지식 증류
  • Off-policy 및 On-policy 전이 활용
  • 소형 모델에서 RL 직접 학습보다 높은 효율

4. Multi-Token Prediction (MTP)

  • 한 번에 여러 토큰 예측
  • 추론 속도 직접 향상
  • 품질 저하 없이 처리 속도 개선

전체 Qwen 3.5 패밀리 내 위치

현재 Qwen 3.5 라인업은 다음과 같습니다.

  • 397B-A17B (Flagship MoE)
  • 122B-A10B (MoE)
  • 35B-A3B (MoE)
  • 27B Dense
  • 9B / 4B / 2B / 0.8B Dense

단 16일 만에 0.8B부터 397B까지 완전한 제품군을 구성했습니다.
모든 모델이 동일한 아키텍처 기반이며, 네이티브 멀티모달을 지원합니다.


무엇이 달라졌는가

1년 전만 해도 멀티모달 모델을 로컬에서 실행하려면 13B 이상 모델과 고성능 GPU가 필요했습니다.
이제는 4B 모델로 텍스트·이미지·비디오를 8GB VRAM에서 처리할 수 있습니다.

이는 다음과 같은 변화를 의미합니다.

  • 온디바이스 AI 에이전트 현실화
  • 엣지 디바이스 멀티모달 배포 가능
  • 연구 및 파인튜닝 접근성 확대
  • 비용 대비 성능 구조의 재정의

728x90

Qwen 3.5 Small 시리즈는 단순한 “경량 모델 추가”가 아닙니다.

  • 네이티브 멀티모달
  • 262K 초장문 컨텍스트
  • 소형 모델에서의 고성능 추론
  • Apache 2.0 오픈 라이선스

특히 9B 모델이 30B급 모델을 능가하는 성능을 보였다는 점은, 앞으로 모델 크기보다 아키텍처와 학습 전략이 더 중요해질 수 있음을 보여줍니다.

개발자 입장에서는 선택지가 크게 늘어났습니다.
이제 질문은 “대형 모델을 써야 하나?”가 아니라,
“내 환경에서 어떤 크기가 최적일까?”가 될 것입니다.

Qwen 3.5 Small 시리즈는 엣지 AI와 온디바이스 멀티모달 시대를 앞당기는 분명한 신호입니다.

300x250

https://huggingface.co/Qwen/models

 

Qwen (Qwen)

Org profile for Qwen on Hugging Face, the AI community building the future.

huggingface.co

728x90
반응형
그리드형