본문 바로가기

인공지능

[DeepSeek 여섯번째 공개] DeepSeek-V3/R1 추론 시스템 최적화 전략: 높은 처리량과 낮은 지연을 위한 혁신 기술

728x90
반응형

🔍 DeepSeek-V3/R1 추론 시스템이란?

대규모 AI 모델의 실시간 추론(inference)은 높은 처리량(throughput)과 낮은 지연(latency)이 필수적입니다. DeepSeek-V3/R1 추론 시스템은 이러한 요구 사항을 충족하기 위해 대규모 병렬화 기법고급 부하 균형(load balancing) 전략을 활용하여 최적화되었습니다.

이번 블로그에서는 DeepSeek-V3/R1 추론 시스템의 구조, 병렬화 전략, 통신-연산 오버래핑 기법, 부하 균형 최적화, 그리고 운영 효율성 및 비용 분석까지 깊이 있게 살펴보겠습니다.

반응형

🔹 DeepSeek-V3/R1 추론 시스템의 핵심 목표

DeepSeek-V3/R1 시스템 최적화의 주요 목표는 다음과 같습니다.

더 높은 처리량(Throughput) → 더 많은 요청을 동시에 처리하여 AI 모델의 응답 속도를 높임
더 낮은 지연(Latency) → 빠른 응답 시간을 보장하여 사용자 경험 개선

이 목표를 달성하기 위해 Expert Parallelism(EP)과 Data Parallelism(DP)을 결합한 대규모 병렬화 기법이 적용되었습니다.


🔹 대규모 병렬화 기술: Expert Parallelism(EP) & Data Parallelism(DP)

DeepSeek-V3/R1 모델은 Mixture of Experts (MoE) 구조를 사용하며, 각 계층에서 256명의 전문가(Experts) 중 8명만 활성화됩니다. 이로 인해 모델의 희소성(Sparsity) 이 증가하며, 이를 효율적으로 활용하기 위해 대규모 병렬화 전략이 필요합니다.

🔸 Expert Parallelism (EP): 전문가 병렬화

  • 대규모 배치 크기(batch size) 확장 → GPU 연산 효율 증가, 처리량 향상
  • 전문가(Experts) 분산 배치 → 각 GPU가 일부 전문가만 담당하여 메모리 접근 비용 감소
  • 노드 간 통신 증가 → 계산과 통신을 동시에 수행하는 전략 필요

🔸 Data Parallelism (DP): 데이터 병렬화

  • 여러 노드에서 동일한 모델 가중치를 공유 → 확장성과 안정성 향상
  • 다양한 DP 인스턴스 간 부하 균형 필요 → 최적의 리소스 활용을 위한 동적 로드 밸런싱 적용

🖥 Prefill & Decode 단계에서의 병렬화 차이점

DeepSeek-V3/R1은 Prefill(사전 입력) 단계와 Decode(출력 생성) 단계에서 서로 다른 병렬화 전략을 사용합니다.

단계 병렬화 전략 노드 수 GPU당 처리 전문가 수

Prefill Routed Expert EP32, MLA/Shared Expert DP32 4개 9명 (Routed) + 1명 (Shared)
Decode Routed Expert EP144, MLA/Shared Expert DP144 18개 2명 (Routed) + 1명 (Shared)

🔹 통신-연산 오버래핑(Overlapping) 기법: 속도를 극대화하다

대규모 병렬화의 가장 큰 단점은 노드 간 통신 비용이 증가한다는 점입니다. 이를 해결하기 위해 "듀얼 배치 오버래핑(Dual-Batch Overlapping)" 기법이 적용되었습니다.

🔸 Prefill 단계에서의 최적화

  • 요청을 두 개의 마이크로배치(microbatch)로 나눔
  • 첫 번째 마이크로배치가 연산을 수행하는 동안, 두 번째 마이크로배치의 통신이 진행됨
  • 연산과 통신을 동시에 수행하여 통신 지연을 숨김

🔸 Decode 단계에서의 최적화

  • Attention Layer를 두 단계로 나누어 5단계 파이프라인(Pipeline) 실행
  • 각 GPU가 연산과 통신을 동시에 수행하며, 실행 시간을 균형 있게 분배

📌 결과: 이 전략 덕분에 통신 지연이 최소화되며, 전체 시스템의 처리량이 증가합니다.


🔹 부하 균형 (Load Balancing) 최적화

병렬 연산에서 한 GPU가 과부하 상태가 되면 전체 시스템 성능이 급격히 저하됩니다. 이를 방지하기 위해 DeepSeek-V3/R1은 세 가지 부하 균형 기법을 사용합니다.

🔸 1️⃣ Prefill Load Balancer

문제: 요청 수와 시퀀스 길이가 서로 달라 일부 GPU에 연산 부하가 집중됨
해결:

  • Core-Attention 연산을 GPU 간 균등하게 분배
  • 각 GPU당 동일한 입력 토큰 개수를 유지하여 균형 맞춤

🔸 2️⃣ Decode Load Balancer

문제: KVCache 사용량 차이로 인해 연산 부하가 불균형함
해결:

  • KVCache 사용량을 모든 GPU에 균등 분배
  • 각 GPU당 요청 수를 동적으로 조정하여 과부하 방지

🔸 3️⃣ Expert-Parallel Load Balancer

문제: 특정 전문가(Experts)에 연산 부하가 몰려 GPU 간 불균형 발생
해결:

  • GPU마다 전문가 연산을 고르게 배분
  • 특정 GPU에 과도한 부하가 걸리지 않도록 동적 최적화

📌 결과: 이 기법들 덕분에 모든 GPU가 균형 잡힌 작업량을 수행하며, 전체 시스템 성능이 최적화됩니다.


🔹 운영 효율성 및 비용 분석

DeepSeek-V3/R1은 H800 GPU를 활용하여 운영되며, 최적화된 리소스 할당을 통해 비용 절감을 실현하고 있습니다.

📊 주요 운영 통계 (최근 24시간 기준, UTC+8 2025-02-27 12:00 PM ~ 2025-02-28 12:00 PM)

  • 총 입력 토큰: 608B (56.3%는 KVCache 활용)
  • 총 출력 토큰: 168B (평균 20~22 토큰/s 속도로 생성)
  • H800 GPU 1개당 평균 처리량:
    • Prefill 단계: 73.7k 토큰/s
    • Decode 단계: 14.8k 토큰/s
  • 하루 GPU 사용 비용: $87,072
  • 하루 예상 매출: $562,027
  • 예상 마진: 545%

📌 핵심 포인트: 야간에는 GPU 사용량을 줄이고 연구 및 학습에 활용하는 방식으로 비용 절감을 실현하고 있습니다.


728x90

DeepSeek-V3/R1은 대규모 AI 모델 운영에 최적화된 혁신적인 추론 시스템입니다.

대규모 병렬화(EP & DP)로 처리량 극대화
통신-연산 오버래핑 기법으로 지연 최소화
부하 균형 기법으로 GPU 리소스 최적 활용
운영 효율성과 비용 최적화를 통한 높은 수익성

📌 향후 전망:

  • 더욱 정교한 부하 균형 기술 도입
  • GPU 비용 절감을 위한 추가 최적화 연구
  • AI 모델 학습과 추론 간 리소스 공유 최적화

대규모 AI 모델 운영을 고민하고 있다면, DeepSeek-V3/R1의 접근 방식에서 많은 인사이트를 얻을 수 있을 것입니다! 🚀

https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md?fbclid=IwZXh0bgNhZW0CMTAAAR346FFasPggn572o7s62gCYJyK0J0ZRma73nnf54fjd-RsJrmLv1AuHAI4_aem_7gpuWT4M_qI4YWK6rPpdpw

 

open-infra-index/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md at main · deepseek-ai/open

Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation - deepseek-ai/open-infra-index

github.com

728x90
반응형