본문 바로가기

인공지능

1M 토큰 컨텍스트 시대의 개막: Qwen2.5-1M 오픈소스 모델 소개

728x90
반응형

 

1. Qwen2.5-1M이란?

AI 모델이 점점 더 방대하고 정교해지는 시대에, Qwen2.5-1M은 새로운 기준을 제시합니다. 불과 두 달 전, Qwen2.5-Turbo가 100만 토큰의 컨텍스트 길이를 지원하도록 업그레이드된 이후, 이번에는 Qwen2.5-1M 시리즈가 완전한 오픈소스로 공개되었습니다. 이로써 개발자와 연구자들은 보다 효율적으로 모델을 활용할 수 있는 길이 열렸습니다.

🔹 핵심 특징

  1. 1M 토큰 컨텍스트 지원
    • 기존 Qwen 모델(128K 토큰 지원) 대비 8배 이상의 긴 문맥을 처리할 수 있습니다.
  2. 새로운 모델 체크포인트 공개
    • Qwen2.5-7B-Instruct-1M
    • Qwen2.5-14B-Instruct-1M
      이 두 모델은 대규모 데이터를 빠르고 정확하게 처리할 수 있도록 설계되었습니다.
  3. 추론 프레임워크(vLLM 기반) 오픈소스화
    • Sparse AttentionDual Chunk Attention 기술을 통해 최대 7배 빠른 속도로 1M 토큰 입력을 처리할 수 있습니다.
반응형

2. Qwen2.5-1M의 기술적 특징

🔹 장문 처리 능력 강화

Qwen2.5-1M 모델은 100만 토큰에 달하는 문서에서도 정확하게 정보를 찾아낼 수 있습니다. Passkey Retrieval 테스트에서 7B 모델은 소수의 오류만 보였으며, 14B 모델은 거의 완벽한 정확도를 기록했습니다.

성능 테스트 결과 요약:

  • 128K 모델 대비 압도적 우위
    64K 이상의 긴 시퀀스에서 Qwen2.5-1M 모델이 128K 버전을 크게 앞섰습니다.
  • 경쟁 모델 대비 성능 비교
    Qwen2.5-14B-Instruct-1MQwen2.5-Turbo는 물론, GPT-4o-mini보다도 더 나은 성능을 보여줬습니다. 이는 오픈소스 모델로서의 강력한 대안임을 입증합니다.

🔹 짧은 문맥 처리 성능 유지

긴 문장을 잘 처리하는 만큼 짧은 문장에서는 성능이 떨어질 것이라고 생각할 수 있지만, Qwen2.5-1M은 짧은 문장 처리에서도 기존 128K 버전과 동일한 성능을 유지했습니다.

  • GPT-4o-mini 대비
    짧은 텍스트 작업에서 유사한 성능을 보이면서도, 8배 더 긴 문맥을 지원하는 강점을 가집니다.

3. Qwen2.5-1M의 핵심 기술

🔹 Long-Context Training

  1. 점진적 컨텍스트 길이 확장
    • 4K 토큰에서 시작해 256K 토큰까지 점진적으로 확장.
    • RoPE 기반 주파수 조정을 통해 안정성을 강화했습니다.
  2. 지도 학습(Supervised Fine-tuning)
    • 짧은 지시문(32K 토큰)과 긴 지시문(256K 토큰)을 혼합하여 긴 문맥 처리 능력을 높이면서도 짧은 문장 처리 성능을 유지했습니다.
  3. 강화 학습(Reinforcement Learning)
    • 8K 토큰까지의 짧은 텍스트로 모델을 훈련해 인간의 선호도에 맞춘 응답을 생성합니다.

🔹 Length Extrapolation (길이 외삽법)

긴 문맥 처리는 모델 훈련 과정에서 상대적 위치 정보의 한계로 인해 성능 저하가 발생할 수 있습니다. 이를 해결하기 위해 Dual Chunk Attention (DCA) 기법을 도입했습니다.

  • DCA의 효과
    • 32K 토큰으로 훈련된 모델조차 1M 토큰 컨텍스트에서도 거의 완벽한 정확도를 보입니다.
    • 추가 훈련 없이도 긴 문맥 처리가 가능하게 됩니다.

🔹 Sparse Attention

긴 문맥 처리를 위해서는 빠른 추론 속도가 필수입니다. Qwen2.5-1M은 Sparse Attention 메커니즘을 적용하여, 최대 7배 빠른 처리 속도를 자랑합니다.

  1. Chunked Prefill 통합
    • 1M 토큰 시퀀스를 직접 처리하는 대신, 32,768 토큰 단위로 나누어 메모리 사용량을 96.7% 감소시켰습니다.
  2. 추론 최적화
    • MInferenceDCA를 결합하여, 긴 문맥에서도 정확성과 속도를 동시에 잡았습니다.
  3. VRAM 최적화
    • Qwen2.5-7B 모델의 경우, 1M 토큰 처리 시 71GB VRAM이 필요했지만, 최적화 후 소비 메모리 대폭 감소.

4. Qwen2.5-1M 설치 및 배포 가이드

🔹 시스템 요구사항

  • GPU 권장 사양: Ampere 또는 Hopper 아키텍처 지원 GPU
  • CUDA 버전: 12.1 또는 12.3
  • Python 버전: 3.9 이상 3.12 이하

VRAM 요구사항 (1M 토큰 처리 기준)

  • Qwen2.5-7B-Instruct-1M: 최소 120GB VRAM
  • Qwen2.5-14B-Instruct-1M: 최소 320GB VRAM

💡 VRAM이 부족할 경우, 더 짧은 작업에 모델을 활용할 수 있습니다.


🔹 설치 및 실행 방법

  • vLLM 저장소 클론 및 설치
git clone -b dev/dual-chunk-attn git@github.com:QwenLM/vllm.git  
cd vllm  
pip install -e . -v
  • API 서비스 시작 (OpenAI 호환)
vllm serve Qwen/Qwen2.5-7B-Instruct-1M \
  --tensor-parallel-size 4 \
  --max-model-len 1010000 \
  --enable-chunked-prefill --max-num-batched-tokens 131072 \
  --enforce-eager \
  --max-num-seqs 1
  • 모델과 상호작용 (Python 예제)
from openai import OpenAI

client = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")

prompt = "The pass key is 28884. Remember it."

chat_response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct-1M",
    messages=[{"role": "user", "content": prompt}],
    temperature=0,
)
print("Chat response:", chat_response.choices[0].message.content)

728x90

Qwen2.5-1M은 단순한 업그레이드가 아닌, 대규모 언어 모델의 새로운 기준을 제시하는 모델입니다. 1M 토큰에 달하는 긴 문맥을 빠르고 정확하게 처리할 수 있는 이 모델은, 연구자와 개발자 모두에게 강력한 도구가 될 것입니다.

🔮 앞으로 기대할 점

  • 오픈소스 생태계 확장: 누구나 자유롭게 활용할 수 있는 이 모델은 다양한 분야의 AI 개발을 가속화할 것입니다.
  • 긴 문맥 활용 분야의 혁신: 법률, 의료, 연구 등 방대한 문서를 다루는 분야에서 혁신적인 성능을 발휘할 것입니다.
Apple 2024 맥북 프로 14 M4, 실버, M4 Pro 14코어, 20코어, 24GB, 1TB, 96W, 한글

https://qwenlm.github.io/blog/qwen2.5-1m/

 

Qwen2.5-1M: Deploy Your Own Qwen with Context Length up to 1M Tokens

Tech Report HuggingFace ModelScope Qwen Chat HuggingFace Demo ModelScope Demo DISCORD Introduction Two months after upgrading Qwen2.5-Turbo to support context length up to one million tokens, we are back with the open-source Qwen2.5-1M models and the corre

qwenlm.github.io

Apple 정품 2024 아이패드 프로 11 M4칩 스탠다드 글래스, 스페이스블랙, 256GB, Wi-Fi

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

728x90
반응형