본문 바로가기

인공지능

[DeepSeek 다섯번째 공개] 초고속 AI 학습을 위한 Fire-Flyer File System(3FS) 완벽 해부

728x90
반응형

🧐 AI 학습과 추론을 위한 고성능 분산 파일 시스템, 3FS

AI 모델 학습과 추론을 위한 데이터는 기하급수적으로 증가하고 있습니다. 하지만 기존의 스토리지 시스템은 이러한 대량 데이터를 빠르고 효율적으로 처리하는 데 한계를 보였습니다.

Fire-Flyer File System(3FS)은 SSD와 RDMA 네트워크를 활용하여 초고속 데이터 처리강력한 일관성 보장을 제공하는 고성능 분산 파일 시스템입니다. 이 시스템은 특히 대규모 AI 학습과 추론에 최적화되어 있으며, 대량의 데이터 전처리, 체크포인트 저장, 그리고 대규모 데이터 정렬 작업을 지원합니다.

이번 블로그에서는 3FS의 핵심 기술과 주요 특징, 그리고 실제 성능 지표를 분석하여 AI 개발자 및 연구자들이 이를 어떻게 활용할 수 있는지 알아보겠습니다.

반응형

🚀 3FS의 주요 특징

1️⃣ 고성능과 뛰어난 사용성

분리형 아키텍처(Disaggregated Architecture)

3FS는 수천 개의 SSD와 수백 개의 스토리지 노드의 네트워크 대역폭을 결합하여 고성능 스토리지 리소스를 제공합니다. 이를 통해 데이터의 물리적 위치에 관계없이 빠르게 액세스할 수 있습니다.

강력한 데이터 일관성(Strong Consistency)

3FS는 Chain Replication with Apportioned Queries(CRAQ) 방식을 적용하여 일관성을 유지하면서도 빠른 데이터 접근이 가능하도록 설계되었습니다. 이는 AI 모델 학습과 같은 작업에서 데이터 신뢰성을 보장합니다.

친숙한 파일 인터페이스 지원

기존 파일 인터페이스를 그대로 사용할 수 있으며, 별도의 새로운 API를 학습할 필요 없이 쉽게 적용할 수 있습니다. 이는 개발자의 학습 곡선을 최소화하고 기존 환경과의 호환성을 극대화합니다.


2️⃣ 다양한 AI 워크로드 지원

📂 대량 데이터 전처리(Data Preparation)

데이터 분석 파이프라인의 출력을 계층적 디렉터리 구조로 정리하고, 중간 출력 데이터를 효율적으로 관리할 수 있습니다.

🖥 Dataloader 최적화

3FS는 데이터셋을 랜덤 액세스 방식으로 활용할 수 있도록 지원하므로, 별도의 사전 로딩(prefetching)이나 데이터 섞기(shuffling) 과정이 필요 없습니다.

🔄 고속 체크포인트 저장(Checkpointing)

대규모 AI 모델 학습 시 중요한 체크포인트 저장 과정을 고속 병렬 처리 방식으로 수행할 수 있습니다. 이를 통해 학습 중단 후 재개 속도를 극대화할 수 있습니다.

🧠 KVCache 기반 추론(KVCache for Inference)

대형 언어 모델(LLM)의 추론 속도를 높이기 위해, 기존의 DRAM 기반 캐시보다 저렴하면서도 대용량 처리가 가능한 KVCache 기술을 제공합니다.


📊 3FS의 실제 성능 측정 결과

📌 1. 최대 읽기 처리량(Peak Throughput)

180개의 스토리지 노드(각각 2×200Gbps 인피니밴드 NIC 및 16개의 14TiB NVMe SSD 장착)와 500개 이상의 클라이언트 노드에서 읽기 스트레스 테스트를 수행한 결과:
총 읽기 처리량: 6.6TiB/s


(180 노드 클러스터에서 수행한 대규모 읽기 스트레스 테스트 결과)

📌 2. 대규모 데이터 정렬 성능(GraySort Benchmark)

25개의 스토리지 노드와 50개의 컴퓨트 노드에서 110.5TiB의 데이터 정렬을 수행한 결과:
총 소요 시간: 30분 14초
평균 처리량: 3.66TiB/min

📌 3. KVCache 기반 추론 성능

LLM 추론 과정에서 KVCache를 활용하여 불필요한 중복 연산을 방지한 결과:
최대 읽기 처리량: 40GiB/s


🛠 3FS 설치 및 시작하기

3FS를 직접 사용해보고 싶다면, 아래 명령어를 실행하여 저장소를 클론하고 초기화할 수 있습니다.

🔹 GitHub 저장소 클론

git clone https://github.com/deepseek-ai/3fs

🔹 서브모듈 초기화 및 패치 적용

cd 3fs
git submodule update --init --recursive
./patches/apply.sh

728x90

🎯 3FS, AI 학습을 위한 최적의 분산 파일 시스템

Fire-Flyer File System(3FS)은 대규모 AI 학습과 추론에 최적화된 고성능 분산 파일 시스템입니다.

초고속 데이터 처리: SSD와 RDMA 네트워크를 활용하여 6.6TiB/s의 읽기 처리량을 실현
강력한 일관성: CRAQ 방식으로 데이터 신뢰성 보장
AI 워크로드 최적화: 체크포인트 저장, 데이터 로딩, KVCache 기반 추론 지원
손쉬운 도입: 기존 파일 인터페이스와 호환되어 새로운 API 학습 없이 즉시 사용 가능

AI 연구자 및 개발자라면, 3FS를 통해 AI 모델 학습 및 추론의 병목을 해결하고 더욱 빠르고 효율적인 연구를 진행할 수 있습니다.

https://github.com/deepseek-ai/3FS

 

GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and infer

A high-performance distributed file system designed to address the challenges of AI training and inference workloads. - GitHub - deepseek-ai/3FS: A high-performance distributed file system design...

github.com

 

728x90
반응형