본문 바로가기

인공지능

AI 스토리지를 48% 더 빠르게! NVIDIA Spectrum-X 네트워킹 플랫폼의 혁신

728x90
반응형

 

AI 성능을 최적화하려면 강력한 컴퓨팅뿐만 아니라 데이터가 빠르게 전달될 수 있는 스토리지 네트워크도 필수적입니다. AI 모델 훈련과 추론 과정에서 스토리지는 엄청난 양의 데이터를 저장하고 처리하는 중요한 역할을 합니다. 하지만 기존 네트워크 솔루션은 데이터 전송 속도와 대역폭에서 한계를 보이며, AI 애플리케이션 성능을 저해하는 경우가 많습니다.

이를 해결하기 위해 NVIDIA는 Spectrum-X 네트워킹 플랫폼을 AI 스토리지 패브릭(Storage Fabric)으로 확장했습니다. 이 플랫폼은 읽기 대역폭을 최대 48%, 쓰기 대역폭을 최대 41%까지 향상시켜 AI 워크플로우에서 스토리지 의존 단계의 속도를 크게 높입니다. 또한, RoCE 적응형 라우팅과 혼잡 제어 기술을 도입해 기존 이더넷 네트워크보다 월등한 성능을 제공합니다.

이번 블로그에서는 NVIDIA Spectrum-X가 AI 스토리지 네트워크 성능을 어떻게 혁신하는지, 그리고 이를 통해 AI 모델 훈련과 추론 속도가 얼마나 개선될 수 있는지를 살펴보겠습니다.

반응형

1. AI 스토리지 네트워크의 중요성

AI 모델의 크기가 커지고 데이터가 증가하면서 스토리지 성능이 AI 애플리케이션의 병목 현상이 되는 경우가 많아졌습니다. 특히, 아래와 같은 AI 워크로드에서 스토리지 속도는 매우 중요한 요소입니다.

  • 훈련 체크포인트(Checkpointing): 모델 훈련 과정에서 일정 주기마다 데이터를 저장해야 함.
  • RAG(Retrieval Augmented Generation): 추론 시 방대한 데이터를 빠르게 검색해 최적의 응답을 생성해야 함.
  • 대규모 데이터 전송: AI 학습을 위해 수 테라바이트(TB)에 달하는 데이터를 로딩해야 함.

이러한 작업을 원활하게 수행하려면 기존 네트워크보다 훨씬 높은 속도의 데이터 전송과 안정적인 대역폭 확보가 필요합니다.

2. NVIDIA Spectrum-X, AI 스토리지 속도를 혁신하다

NVIDIA는 AI 스토리지 네트워크의 속도를 극대화하기 위해 Spectrum-X 네트워킹 플랫폼을 스토리지 패브릭에 적용했습니다. 이를 통해 기존 RoCE v2 기반 네트워크보다 훨씬 높은 성능을 제공하며, 주요 기능은 다음과 같습니다.

읽기 대역폭 48% 증가, 쓰기 대역폭 41% 증가
적응형 라우팅(Adaptive Routing) 기술 적용
혼잡 제어(Congestion Control)로 네트워크 안정성 향상
대규모 AI 워크로드에서도 일관된 성능 유지

3. Spectrum-X, 실제 테스트에서 증명된 성능

NVIDIA는 Israel-1 AI 슈퍼컴퓨터에서 Spectrum-X의 성능을 테스트했습니다.

🔹 테스트 환경

  • NVIDIA HGX H100 GPU 서버 40~800개 사용
  • RoCE v2 네트워크 vs. Spectrum-X 네트워크 비교
  • Flexible I/O Tester(FIO) 벤치마크 수행

🔹 테스트 결과

  • 읽기 속도 20~48% 향상
  • 쓰기 속도 9~41% 향상
  • 대규모 GPU 서버 환경에서도 일관된 성능 개선

이러한 결과는 DDN, VAST Data, WEKA와 같은 스토리지 솔루션과 결합했을 때도 비슷한 수준의 성능 향상을 보여주었습니다.

4. Spectrum-X의 핵심 기술

1) 적응형 라우팅(Adaptive Routing)

AI 훈련 과정에서는 체크포인트 저장 시 엄청난 데이터 흐름(Elephant Flow)이 발생합니다. 기존 네트워크에서는 이러한 대량의 데이터가 병목을 일으켜 속도가 느려질 수 있습니다.

💡 Spectrum-X는 실시간 혼잡 데이터를 분석해 최적의 경로로 패킷을 분산시키며, GPU에서 패킷 순서를 자동으로 정렬하여 재전송 문제를 방지합니다.

2) 혼잡 제어(Congestion Control)

AI 스토리지 작업 중에는 여러 클라이언트가 동시에 데이터를 읽고 쓰면서 혼잡(Incast Congestion)이 발생할 수 있습니다.

💡 Spectrum-X는 네트워크 혼잡을 감지하고, SuperNIC과 DPU가 데이터 주입 속도를 조절하도록 하여 불필요한 병목을 방지합니다.

3) 네트워크 복원력 향상

AI 팩토리는 수천 개의 스위치, 케이블, 트랜시버로 구성되어 있어 하나의 링크가 다운되면 전체 성능이 저하될 위험이 있습니다.

💡 Spectrum-X의 글로벌 적응형 라우팅(Global Adaptive Routing)은 링크 장애 발생 시 빠르게 최적의 경로로 재설정하여 네트워크 성능을 유지합니다.

5. NVIDIA 생태계와의 강력한 통합

Spectrum-X는 NVIDIA의 다양한 네트워킹 및 소프트웨어 솔루션과 통합되어 더욱 강력한 성능을 발휘합니다.

  • NVIDIA Air: 클라우드 기반 네트워크 시뮬레이션 도구
  • NVIDIA Cumulus Linux: AI 데이터센터 네트워크 운영 시스템
  • NVIDIA DOCA: SuperNIC & DPU용 SDK
  • NVIDIA NetQ: 실시간 네트워크 가시성 제공
  • NVIDIA GPUDirect Storage: GPU와 스토리지 간 직접 데이터 전송 지원

이러한 기술이 결합되면서 AI 스토리지 네트워크의 전반적인 성능과 확장성이 더욱 향상됩니다.

728x90

AI 성능을 극대화하는 최적의 네트워크 솔루션

AI 워크로드의 성능을 극대화하려면 단순히 GPU 성능을 높이는 것만으로는 충분하지 않습니다. 스토리지 네트워크의 속도와 안정성이 핵심 요소이며, 이를 해결하는 것이 NVIDIA Spectrum-X입니다.

💡 주요 성과 요약
AI 스토리지 읽기 속도 48% 증가, 쓰기 속도 41% 증가
적응형 라우팅 & 혼잡 제어 기술로 네트워크 최적화
대규모 AI 데이터센터에서 안정적인 성능 제공
NVIDIA 생태계와의 통합으로 최상의 AI 환경 구축

AI 모델이 점점 더 커지고, 데이터가 폭발적으로 증가하는 시대에서 Spectrum-X는 AI 스토리지 네트워크의 혁신적인 솔루션이 될 것입니다. 더 자세한 내용은 NVIDIA 백서에서 확인할 수 있으며, AI 인프라를 최적화하려는 기업이라면 지금 바로 Spectrum-X 도입을 고려해보세요! 🚀

https://developer.nvidia.com/ko-kr/blog/accelerating-ai-storage-by-up-to-48-with-nvidia-spectrum-x-networking-platform-and-partners/?linkId=100000336795128&fbclid=IwY2xjawISLyNleHRuA2FlbQIxMQABHUzz4JSb11txtx3fRMrfQn7jmDn8CBktCmdWDm9fs3LVS06Yvth4Cmok3Q_aem_23LUFd3-HGI2kOJXOXYxSA

 

AI 스토리지를 최대 48% 가속화하는 NVIDIA Spectrum-X 네트워킹 플랫폼

AI 팩토리는 단순히 컴퓨팅 패브릭에 의존하지 않습니다. GPU를 연결하는 동서 네트워크가 AI 애플리케이션 성능에 매우 중요한 것처럼, 고속 스토리지 어레이를 연결하는 스토리지 패브릭 역시

developer.nvidia.com

728x90
반응형