본문 바로가기

인공지능

Google TPU란 무엇인가? - 딥러닝 시대, 성능이 아닌 운영 효율을 선택한 Google의 계산 전략

728x90
반응형
728x170

이 글은 Google의 Tensor Processing Unit(TPU) 가 왜 등장했고, 어떻게 발전해 왔으며, 무엇이 TPU를 단순한 AI 가속기가 아닌 하나의 시스템으로 만드는지 설명합니다.
GPU와의 차이, 추론용에서 학습용으로의 확장, 그리고 최신 7세대 TPU Ironwood까지 이어진 설계 철학을 통해, Google이 왜 “칩을 직접 설계하는 길”을 선택했는지 살펴봅니다.

반응형

TPU의 시작: 성능이 아니라 ‘한계’에서 출발한 선택

TPU는 단순히 더 빠른 계산을 위해 만들어진 칩이 아닙니다.
2013년, Google은 데이터센터 용량을 계속 확장해야 하는 압력과 시간 제약에 직면했습니다. 기존 방식대로라면 15개월 안에 계산 수요를 감당할 수 없다는 판단이 내려졌고, 이때 선택한 해법이 바로 계산 방식을 근본적으로 바꾸는 것이었습니다.

그 결과 탄생한 것이 TPU입니다.
GPU나 CPU처럼 범용 계산을 잘하는 칩이 아니라, 딥러닝에 꼭 필요한 계산만 남기고 나머지는 과감히 제거한 도메인 특화 가속기였습니다.


왜 TPU였을까? 범용 칩의 시대가 끝나다

과거에는 새로운 CPU만 기다려도 프로그램 성능이 자연스럽게 좋아졌습니다.
하지만 Moore’s Law와 Dennard Scaling이 약화되며, 더 이상 트랜지스터 증가가 곧 성능 향상을 의미하지 않게 됐습니다.

문제는 동시에 신경망 모델은 더 커지고, 데이터는 폭증했다는 점입니다.
이 환경에서는 “모든 일을 조금씩 잘하는 칩”보다,
“한 가지 일을 극도로 잘하는 칩” 이 필요해졌습니다.

신경망 계산의 핵심이 행렬 곱 중심의 반복 연산이라는 점은, 특화 설계를 가능하게 만든 결정적 배경이었습니다.


첫 번째 TPU: 학습이 아닌 ‘추론’을 위한 칩

초기 TPU(v1)는 학습용이 아니었습니다.
목표는 명확했습니다. 이미 학습된 모델을 최대한 효율적으로 실행하는 것, 즉 Inference 입니다.

이를 위해 TPUv1은 다음과 같은 선택을 합니다.

  • 캐시, 분기 예측, 멀티스레딩 제거
  • 실행 중 판단 로직 제거
  • 컴파일 시점에 실행 순서를 모두 확정

대신, 모든 자원을 대형 행렬 곱 전용 구조(Systolic Array, MXU) 에 집중했습니다.
그 결과, 같은 전력으로 CPU나 GPU보다 훨씬 많은 추론 작업을 처리할 수 있었습니다.


학습으로의 확장: TPUv2부터 달라진 점

모델 학습은 추론보다 훨씬 까다롭습니다.
더 많은 계산량과 더 넓은 수치 표현 범위가 필요하기 때문입니다.

TPUv2부터는 구조가 확장됩니다.

  • 행렬 연산(MXU)
  • 벡터 연산(VPU)
  • 제어용 Scalar Unit

이 세 역할을 분리해 유연성을 확보했고, 실행 흐름은 XLA 컴파일러가 미리 계산해 칩에 전달합니다.
TPU는 판단하지 않고, 결정된 실행을 그대로 수행합니다.

또한 여러 TPU를 하나의 장치처럼 묶기 위해 전용 고속 인터커넥트(ICI) 가 함께 설계됐습니다.


성능 경쟁의 끝, 설계의 중심은 TCO로 이동

TPU 세대가 거듭되며 질문은 바뀌었습니다.

“얼마나 빠른가?” → “얼마나 오래, 싸게 운영할 수 있는가?”

이를 위해 Google은 다음과 같은 선택을 합니다.

  • 연산 장치 가까이에 대형 온칩 메모리(CMEM) 배치
  • DRAM 접근 최소화
  • 희소 데이터 처리를 위한 SparseCore 도입
  • 칩 내부 통신과 칩 간 통신 구조 분리

이제 순간적인 성능 수치보다, 전력·배치·운영 비용(TCO) 이 설계의 기준이 됩니다.


수천 개의 TPU를 전제로 한 운영 철학

TPU는 고장이 “예외”가 아니라 전제인 환경에서 사용됩니다.
목표는 고장 없는 시스템이 아니라, 멈추지 않는 시스템입니다.

  • 작업은 여러 TPU에 분산되지만 하나의 프로그램처럼 보이게 관리
  • 문제가 생기면 전체 중단 대신 빠른 재배치와 재시작
  • 이 모든 과정은 운영 소프트웨어가 자동 처리

이 접근은 “완벽한 하드웨어”보다 회복 가능한 시스템을 우선시한 결과입니다.


데이터센터 단위 확장: TPU를 넘어서

하나의 TPU pod로 부족해지면, 이제는 데이터센터 전체를 연결해야 합니다.
이를 위해 일반 네트워크 대신 광 기반 스위칭(OCS) 이 도입됩니다.

  • 여러 TPU 묶음을 하나의 거대한 계산 자원처럼 구성
  • 기존 실행 모델 확장 방식과
  • 완전히 새로운 비동기 실행 모델(Pathways)이 공존

이를 통해 더 큰 모델과 복잡한 통신 패턴을 감당할 수 있게 됩니다.


“이것은 하나의 TPU가 아니다”

최신 7세대 TPU Ironwood

  • 9,216칩/pod
  • 42.5 Exaflops
  • 10MW

라는 압도적인 수치를 제시합니다.
하지만 Google이 말하는 핵심은 여전히 같습니다.

필요한 계산에 집중하고,
불필요한 복잡함을 제거한다.

TPU의 경쟁력은 단일 칩 성능이 아니라,

  • XLA 컴파일러
  • 전용 인터커넥트(ICI)
  • 광 스위칭(OCS)
  • 운영 스케줄러

가 함께 작동하는 공동 설계 시스템에 있습니다.
하드웨어 스펙만으로는 복제할 수 없는 이유입니다.


꼭 기억할 TPU의 핵심 기술 정리

  • Systolic Array(MXU): 행렬 곱을 고효율로 처리하는 TPU의 심장
  • XLA 컴파일러: 실행 순서를 미리 계산해 제어 비용 제거
  • BF16: 학습에 필요한 수치 범위를 유지하며 비용 절감
  • ICI / OCS: 칩부터 데이터센터까지 하나로 묶는 통신 구조
  • TCO 중심 설계: 순간 성능보다 장기 운영 효율을 우선하는 사고방식

728x90

TPU가 주는 시사점

TPU는 비밀 병기가 아닙니다.
오랜 시간의 공개 연구와 내부 반복, 그리고 수백 번의 평범한 선택이 누적된 결과입니다.

이 사례가 주는 메시지는 분명합니다.
성능이 자동으로 좋아지던 시대가 끝난 지금,
기다리는 전략보다 직접 설계하는 전략이 핵심 선택지가 되고 있다는 점입니다.

TPU는 단순한 AI 칩이 아니라,
미래 대규모 계산을 어떻게 설계해야 하는지에 대한 하나의 답안이라 할 수 있습니다.

300x250

https://considerthebulldog.com/tte-tpu/

 

Touching the Elephant - TPUs

Understanding the Tensor Processing Unit

considerthebulldog.com

728x90
반응형
그리드형