
이 글은 Moonshot AI와 칭화대학교 연구진이 제안한 PrfaaS(Prefill-as-a-Service) 아키텍처를 중심으로, 대규모 언어 모델(LLM) 서빙 구조가 왜 한계에 부딪혔는지, 그리고 이를 어떻게 크로스 데이터센터 환경으로 확장할 수 있는지를 정리한 글입니다. 특히 KVCache 전송 문제, 하이브리드 어텐션 모델의 등장 배경, 그리고 실제 성능 수치와 운영 관점에서의 시사점을 중심으로 설명합니다.
LLM 서빙 구조의 기본: Prefill과 Decode의 분리
LLM 추론은 크게 두 단계로 나뉩니다.
- Prefill 단계
입력 토큰 전체를 한 번에 처리하며 KVCache(Key-Value Cache)를 생성하는 단계입니다. 연산량이 매우 크기 때문에 GPU의 연산 성능이 핵심 병목이 됩니다. - Decode 단계
이미 생성된 KVCache를 기반으로 토큰을 하나씩 생성하는 단계입니다. 이 과정은 연산보다는 메모리 대역폭에 더 민감합니다.
이 두 단계를 분리해 각각에 맞는 하드웨어를 사용하는 것을 PD Disaggregation이라고 부르며, 자원 활용도를 높일 수 있는 합리적인 구조로 알려져 있습니다.
기존 아키텍처가 가진 구조적 한계
문제는 Prefill과 Decode를 분리하는 순간 발생하는 KVCache 전송 비용입니다.
기존의 Dense Attention(GQA 기반) 모델에서는 긴 컨텍스트 요청 하나만으로도 수십 Gbps 수준의 KVCache가 생성됩니다.
연구에서 인용된 사례에 따르면, 32K 토큰 요청 시 단일 8×H200 인스턴스가 생성하는 KVCache는 약 60Gbps 수준에 달합니다. 이 정도 데이터는 RDMA급 고속 네트워크 없이는 전송 자체가 병목이 되기 때문에, 결과적으로 Prefill과 Decode는 같은 데이터센터, 심지어 같은 랙 안에 묶일 수밖에 없었습니다.
이 구조에서는 데이터센터 간 분산이나, 완전히 분리된 클러스터 설계가 사실상 불가능했습니다.
하이브리드 어텐션 모델이 만든 전환점
PrfaaS가 가능해진 배경에는 모델 아키텍처의 변화가 있습니다. 최근 등장한 여러 대형 모델은 다음과 같은 특징을 가집니다.
- 전체 레이어 중 일부만 Full Attention을 사용
- 나머지는 선형 복잡도 또는 상태 고정형 어텐션 구조 사용
(예: KDA, MLA, Sliding Window Attention)
이 구조에서는 컨텍스트 길이에 비례해 커지는 KVCache는 Full Attention 레이어에서만 생성되고, 나머지 레이어는 매우 작은 고정 크기 상태만 유지합니다.
그 결과 KVCache 크기가 급격히 줄어듭니다. 예를 들어:
- Dense 모델 대비 4배~13배 이상 KVCache 감소
- Ring-2.5-1T 모델 기준, 전체 KV 메모리 사용량이 약 36배 감소
이 정도 수준이면, 데이터센터 간 일반 Ethernet 네트워크로도 KVCache 전송이 현실적인 범위에 들어옵니다.
PrfaaS란 무엇인가: Prefill을 서비스로 분리하다
PrfaaS는 Prefill 단계를 하나의 독립 서비스처럼 분리한 구조입니다. 전체 아키텍처는 크게 세 부분으로 구성됩니다.
1. 컴퓨트 구조
- 로컬 PD 클러스터
짧은 요청을 end-to-end로 처리 (Prefill + Decode) - PrfaaS 클러스터
긴 컨텍스트 요청의 Prefill만 전담
고연산 GPU(H200 등) 위주로 구성
2. 네트워크 구조
- 클러스터 내부: RDMA 사용
- 클러스터 간: Commodity Ethernet 사용
(KVCache 전송 전용)
3. 스토리지 및 캐시 구조
- 선형 어텐션용 상태: 요청 단위, 고정 크기 캐시
- Full Attention KVCache: 블록 단위, 길이에 따라 확장
- 두 캐시는 논리적으로 분리되지만 하나의 블록 풀에서 관리
길이 기반 라우팅: 언제 Prefill을 외부로 보낼 것인가
PrfaaS의 핵심 제어 로직은 길이 기반 임계값 라우팅입니다.
- 캐시를 제외한 추가 Prefill 길이를 l
- 임계값을 t라고 할 때
- l > t → PrfaaS 클러스터로 전송
- l ≤ t → 로컬 PD 클러스터에서 처리
실험에서는 t ≈ 19.4K 토큰일 때 최적 성능을 보였으며, 전체 요청의 약 절반(긴 요청만)이 PrfaaS로 오프로딩되었습니다.
단순 분산이 아닌, 실전 운영을 고려한 설계
연구진은 “KVCache가 작아졌다고 해서 바로 문제가 해결되지는 않는다”고 명확히 선을 긋습니다. 실제 환경에서는 요청 길이 분포가 불균등하고, 네트워크 대역폭도 항상 일정하지 않기 때문입니다.
이를 해결하기 위해 PrfaaS는 다음을 포함합니다.
- 레이어 단위 Prefill 파이프라이닝
KVCache 생성과 전송을 겹쳐 처리 - 다중 TCP 연결 전송
Ethernet 대역폭 최대 활용 - 혼잡 감지 기반 스케줄링
손실·재전송 신호를 조기에 감지해 라우팅 조정 - 이중 시간 스케일 스케줄러
- 단기: 네트워크 혼잡 및 큐 깊이 기반 제어
- 장기: 트래픽 변화에 따라 Prefill/Decode 노드 비율 재조정
성능 수치로 본 PrfaaS의 효과
사례 구성은 다음과 같습니다.
- PrfaaS 클러스터: H200 GPU 32개
- 로컬 PD 클러스터: H20 GPU 64개
- 클러스터 간 네트워크: 약 100Gbps
주요 결과는 다음과 같습니다.
- 서빙 처리량
- 기존 단일 구조 대비 54% 증가
- 단순 이기종 분리 대비 32% 증가
- 동일 비용 기준으로도 약 15% 향상
- TTFT(Time To First Token)
- 평균 TTFT: 50% 감소
- P90 TTFT: 64% 감소
- 네트워크 사용량
- KVCache 전송: 평균 13Gbps
- 전체 가용 대역폭의 13% 수준
특히 주목할 점은, 단순히 GPU를 분리했을 때 얻는 이득(1.16×)과 비교하면, 스케줄링과 라우팅 로직이 성능 향상의 대부분을 만든다는 점입니다.
PrfaaS가 시사하는 LLM 서빙의 미래
PrfaaS는 “언젠가 가능한 구조”가 아니라, 하이브리드 어텐션 모델을 이미 사용하는 환경에서는 지금 당장 적용 가능한 설계라는 점이 핵심입니다.
- 컨텍스트 윈도우는 계속 커지고
- KVCache 압축은 더 발전하며
- Prefill·Decode 전용 하드웨어는 더욱 분화될 가능성이 높습니다
이 흐름 속에서, Prefill을 데이터센터 경계를 넘어 서비스화하는 구조는 LLM 인프라 설계의 중요한 전환점이 될 수 있습니다. PrfaaS는 단순한 성능 최적화가 아니라, 대규모 LLM 서빙을 바라보는 관점을 바꾸는 아키텍처 제안이라고 볼 수 있습니다.
Moonshot AI and Tsinghua Researchers Propose PrfaaS: A Cross-Datacenter KVCache Architecture that Rethinks How LLMs are Served a
Moonshot AI and Tsinghua Researchers Propose PrfaaS: A Cross-Datacenter KVCache Architecture that Rethinks How LLMs are Served at Scale
www.marktechpost.com

'인공지능' 카테고리의 다른 글
| Qwen3.6-Max-Preview 기술 프리뷰 정리: 에이전트 코딩과 지식 신뢰성을 강화한 차세대 모델 (0) | 2026.04.21 |
|---|---|
| OpenMythos 아키텍처 분석: 7.7억 파라미터로 13억 트랜스포머급 성능을 노리는 재귀 깊이 모델의 설계 (0) | 2026.04.21 |
| Qwen3.6 오픈 웨이트 대규모 언어 모델 총정리: 아키텍처, 성능, 활용 방법까지 (0) | 2026.04.20 |
| GPT-5.4 mini·nano 출시로 보는 서브에이전트 시대의 AI 모델 전략 (0) | 2026.04.20 |
| AI 에이전트 ‘하네스(Harness)’가 새로운 제품이 된 이유와 빅테크 기업들의 다른 선택 (0) | 2026.04.20 |