본문 바로가기

인공지능

LLM부터 이미지 생성까지, AI 추론을 가속하는 Google의 AI Hypercomputer

728x90
반응형

 

https://cloud.google.com/blog/products/compute/ai-hypercomputer-inference-updates-for-google-cloud-tpu-and-gpu?fbclid=IwY2xjawKPb61leHRuA2FlbQIxMQBicmlkETFoNEhzcTBPSlFnTm45R2s5AR5wgoRHgiXztEQFrTo_voA9YHT0wQgXvFyDE37LnFvMg88t7JoAx-wCHTuD4g_aem_s4LMFGprQeh54B8Q2tjXkw&hl=en

AI 추론 인프라의 새로운 시대: 왜 지금 중요한가?

생성형 AI 서비스는 더 이상 연구실에 머물지 않는다. 이미 다양한 산업에서 실시간 코딩, 고객 상담, 이미지 생성, 콘텐츠 제작 등 실제 서비스에 활용되고 있다. 문제는 모델의 크기와 사용자 수가 빠르게 증가하면서, 이를 뒷받침할 고성능 추론 인프라의 중요성이 점점 더 커지고 있다는 것이다.

이런 상황에서 Google Cloud는 추론 전용 하드웨어와 소프트웨어 최적화를 결합한 AI Hypercomputer를 통해 새로운 해법을 제시하고 있다. 이 글에서는 Google Cloud가 발표한 최신 AI 추론 기술인 JetStream, TPU Trillium, MaxDiffusion, A3 Ultra / A4 VM 등의 주요 내용을 정리해, AI 서비스 도입이나 성능 개선을 고민하는 이들에게 실질적인 인사이트를 제공한다.

반응형

JetStream과 TPU Trillium: LLM 추론 성능의 새로운 기준

JetStream은 Google이 개발한 TPU 전용 고성능 추론 엔진으로, Gemini 모델을 서빙할 때 사용되는 동일한 스택을 기반으로 한다. JetStream은 메모리 최적화와 고처리량 설계를 통해 낮은 지연 시간과 높은 비용 효율성을 제공한다.

TPU Trillium 기반 추론 성능

최신 Trillium TPU는 JetStream과 함께 사용할 때 기존 TPU v5e 대비 다음과 같은 성능 향상을 보였다:

  • Llama 2 70B 모델에서 2.9배 더 높은 처리량
  • Mixtral 8x7B 모델에서 2.8배 향상

이러한 결과는 JetStream의 추론 엔진과 TPU 하드웨어 최적화가 결합된 덕분이다.

Pathways 통합: 멀티 호스트와 분산 서빙

JetStream은 이제 Google의 Pathways 런타임과 통합되어, 다음과 같은 기능이 가능해졌다:

  • 멀티 호스트 추론: LLM을 여러 TPU 호스트에 분산하여 메모리에 안 들어가는 초대형 모델도 효율적으로 서빙
  • 분산 디코딩과 프리필 처리: 프리필(Time to First Token)과 디코딩(Time per Output Token) 단계를 나누어 처리함으로써 자원 활용도 및 응답 시간을 개선

예를 들어, Trillium 기반 Llama 3.1 405B 모델은 멀티 호스트로 추론 시 1703 토큰/초 처리 속도를 달성했으며, 단일 서버 대비 비용 대비 성능 3배 향상을 이뤘다.


MaxDiffusion: 이미지 생성 모델의 추론도 가볍고 빠르게

JetStream이 텍스트 기반 LLM 추론에 최적화되어 있다면, 이미지 생성 모델에는 Google의 MaxDiffusion이 있다. MaxDiffusion은 Stable Diffusion과 같은 라텐트 디퓨전 모델을 위한 추론 프레임워크이며, Trillium TPU에서 최적화된 성능을 보여준다.

Flux 모델 지원

MaxDiffusion은 이제 오픈소스 기반으로 가장 큰 텍스트-투-이미지 모델 중 하나인 **Flux (12B 파라미터)**도 지원한다. 이를 통해 사용자는 더욱 복잡한 이미지 생성 작업도 처리할 수 있다.

성능 및 비용 최적화

TPU Trillium을 활용할 경우, 다음과 같은 결과가 도출된다:

  • Stable Diffusion XL(SDXL) 모델 기준 3.5배 더 높은 처리량
  • 이미지 1,000장 생성 비용: 22센트, 이전 세대 대비 35% 절감

이는 이미지 생성 서비스에서 실질적인 단가 절감과 처리 속도 향상이라는 두 마리 토끼를 모두 잡을 수 있다는 뜻이다.


A3 Ultra와 A4 VM: GPU 기반 추론의 새로운 선택지

Google Cloud는 TPU 외에도 NVIDIA GPU 기반의 인프라를 제공하고 있다. 이번 MLPerf 5.0에서는 A3 Ultra와 A4 VM에 대한 추론 성능 결과가 함께 공개되었다.

  • A3 Ultra VM: 8개의 NVIDIA H200 GPU로 구성되어 있으며, 이전 H100 기반 VM보다 더 높은 대역폭과 두 배의 메모리 제공
  • A4 VM: 세계 최초로 NVIDIA HGX B200 GPU 기반 추론 성능을 공식 제출한 사례

JetBrains는 현재 A3 Mega VM을 사용 중이며, 곧 A4 VM으로 전환해 더 낮은 지연 시간과 높은 반응성을 기대하고 있다고 밝혔다.


실제 사용 사례: Osmos와 JetBrains의 선택

  • Osmos: JetStream과 vLLM을 활용해 Trillium TPU 기반으로 70B 모델에 대해 3500 토큰/초 이상 처리. 비용 효율성과 확장성에서 높은 만족도를 보임.
  • JetBrains: IDE 내 LLM 기능 강화를 위해 A3 Mega에서 A4 VM으로 전환 예정. 성능 및 지연 시간 측면에서 확실한 개선 기대.

이러한 사례는 고성능 AI 추론 인프라가 특정 대기업만을 위한 것이 아님을 보여준다. 적절한 도구를 선택한다면 중소기업도 충분히 경쟁력 있는 AI 서비스를 운영할 수 있다.


728x90

AI 추론의 미래를 준비하는 방법

Google Cloud의 AI Hypercomputer는 단순한 하드웨어 업그레이드가 아니라, 하드웨어와 소프트웨어의 긴밀한 통합을 통해 생성형 AI 추론 성능의 한계를 넘어서는 플랫폼이다.

JetStream과 TPU Trillium, MaxDiffusion, A3/A4 GPU VM은 각각의 용도에 맞춰 최적화되어 있으며, 기업은 서비스 특성과 예산에 맞춰 선택할 수 있는 다양한 옵션을 제공받게 된다.

앞으로 생성형 AI가 더욱 보편화될수록, 고성능 추론 인프라는 선택이 아닌 필수가 될 것이다. 지금 이 순간에도 늘어나는 사용자 수요와 점점 복잡해지는 모델에 대응하기 위해, 미래를 준비하는 조직이라면 Google의 AI Hypercomputer와 같은 인프라 혁신을 검토해볼 필요가 있다.

https://cloud.google.com/blog/products/compute/ai-hypercomputer-inference-updates-for-google-cloud-tpu-and-gpu?fbclid=IwY2xjawKPb61leHRuA2FlbQIxMQBicmlkETFoNEhzcTBPSlFnTm45R2s5AR5wgoRHgiXztEQFrTo_voA9YHT0wQgXvFyDE37LnFvMg88t7JoAx-wCHTuD4g_aem_s4LMFGprQeh54B8Q2tjXkw&hl=en

 

AI Hypercomputer inference updates for Google Cloud TPU and GPU | Google Cloud Blog

At Google Cloud Next 25, we announced several enhancements to AI Hypercomputer’s inference capabilities, and new benchmark results.

cloud.google.com

728x90
반응형