AI가 비즈니스의 중심으로 자리 잡으면서, 많은 기업들이 대규모 AI 모델을 Kubernetes 환경에서 운영하려 하고 있습니다. 하지만 LLM(대형 언어 모델) 기반 코드 실행은 여전히 높은 보안 리스크와 성능 한계를 안고 있습니다.
이에 구글은 KubeCon + CloudNativeCon North America 2025에서 **Google Kubernetes Engine(GKE)**의 대규모 업데이트를 발표했습니다. 이번 업데이트의 핵심은 바로 GKE Agent Sandbox와 Inference Gateway입니다.
이 두 기능은 각각 보안 격리와 AI 워크로드 최적화를 위한 혁신으로, AI 운영 환경을 한층 더 빠르고 안전하게 만들어줍니다.
GKE Agent Sandbox란 무엇인가?
LLM 코드 실행의 보안 문제
AI 에이전트가 생성하는 코드(LLM-generated code)는 완전히 신뢰할 수 없다는 문제가 있습니다. 일부 코드는 시스템 권한을 높이거나 네트워크를 침범할 수 있어, 실제 운영 환경에서는 위험할 수 있습니다.
구글은 이 문제를 해결하기 위해 GKE Agent Sandbox를 도입했습니다. 이 기능은 LLM이 생성한 코드를 격리된 환경에서 실행할 수 있는 보안 영역을 제공합니다.
gVisor 기반의 보안 격리
Agent Sandbox는 구글의 gVisor 기술을 기반으로 합니다.
gVisor는 컨테이너 내에서 실행되는 프로세스를 가상화 계층에서 분리하여, AI 코드가 클러스터의 다른 리소스에 접근하지 못하도록 보호합니다.
이를 통해 AI 에이전트가 내부 시스템 파일에 접근하거나 권한을 확장하려는 시도를 원천 차단합니다.
권한 제어와 빠른 복구
관리자는 샌드박스 내에서 LLM이 가질 수 있는 권한 범위를 세밀하게 설정할 수 있습니다.
예를 들어, 인터넷 접근은 허용하되 내부 데이터베이스 접근은 차단하는 식입니다.
또한, 문제가 발생했을 때는 3초 이내에 초기 상태로 복구할 수 있어, 잘못된 코드 실행으로 인한 피해를 최소화할 수 있습니다.
이처럼 Agent Sandbox는 단순한 격리 도구를 넘어, AI 코드 실행의 안전한 거버넌스 환경을 제공합니다.
GKE Inference Gateway – AI 워크로드 최적화의 핵심
AI 워크로드를 위한 맞춤형 게이트웨이
AI 모델, 특히 LLM은 일반적인 Kubernetes 워크로드와는 다르게 토큰 생성 과정에서 높은 지연 시간과 불규칙한 부하를 보입니다.
이를 해결하기 위해 구글은 GKE Inference Gateway를 새롭게 공개했습니다.
이 게이트웨이는 AI 추론 작업(inference)을 위한 전용 최적화 계층으로, Kubernetes Inference Extension을 기반으로 설계되었습니다.
LLM-aware Routing과 Disaggregated Serving 구조
Inference Gateway의 핵심은 두 가지 기술 구조에 있습니다.
- LLM-aware Routing
대화형 AI 서비스(예: 다중 턴 채팅)에서는 같은 모델 컨텍스트를 유지하는 것이 중요합니다.
Gateway는 동일한 세션의 요청을 같은 가속기로 라우팅해 캐시된 컨텍스트를 재활용함으로써 지연 시간을 크게 줄입니다. - Disaggregated Serving
모델 추론 과정은 ‘프롬프트 처리(prefill)’와 ‘토큰 생성(decode)’ 두 단계로 나뉩니다.
구글은 이 두 단계를 각각 **최적화된 머신 풀(machine pool)**에 분리하여 처리함으로써, 병목 현상을 최소화하고 **처리량(throughput)**을 극대화했습니다.
성능 개선 효과
공개된 초기 결과에 따르면,
- 첫 번째 토큰 생성까지 걸리는 시간(Time To First Token)이 96% 단축되었고,
- 사용된 토큰 수도 기존 대비 25% 절감되었습니다.
이는 단순한 속도 향상이 아니라, 운영비용 절감과 서비스 품질 향상이라는 실질적 이점을 의미합니다.
자동 확장과 성능 개선 기술
Pod Snapshot으로 시작 시간 80% 단축
대규모 모델은 초기 로딩에 수 분이 걸리기도 합니다. 이를 해결하기 위해 구글은 GKE Pod Snapshot 기능을 도입했습니다.
이 기능은 CPU 및 GPU 메모리 상태를 Google Cloud Storage에 스냅샷 형태로 저장하고, 새 인스턴스 생성 시 이를 불러와 부팅 시간을 최대 80%까지 단축합니다.
예를 들어, 70억 파라미터 모델은 80초, 8억 파라미터 모델은 단 16초 만에 로드됩니다.
Container Image Streaming과 MTC 공개
또 다른 개선점은 **컨테이너 이미지 스트리밍(Container Image Streaming)**입니다.
이는 컨테이너 전체 이미지를 다운로드하기 전에 애플리케이션을 즉시 실행할 수 있게 하여, 배포 속도를 향상시킵니다.
또한 구글은 다단계 체크포인팅(Multi-Tier Checkpointing, MTC) 기술을 오픈소스화했습니다.
이 기능은 로컬 SSD, RAM, 백업 스토리지 등 여러 저장소 계층에 체크포인트를 분산 저장해, 장애 발생 시 빠른 복구와 데이터 보호를 동시에 실현합니다.
구글의 전략적 의도와 시사점
이번 GKE 업데이트는 단순한 기능 개선을 넘어, AI 중심 클라우드 플랫폼으로의 진화를 보여줍니다.
특히 LLM 에이전트가 생성하는 비신뢰 코드 실행 문제와 대규모 추론 부하를 동시에 해결함으로써,
기업들이 AI 운영을 더 안전하고 효율적으로 수행할 수 있는 환경을 제공합니다.
이는 구글 클라우드가 AWS와 Azure와의 경쟁에서 AI 인프라 차별화를 강화하는 전략적 행보로 볼 수 있습니다.
또한 기업 입장에서는 AI 개발 주기 단축, 운영비 절감, 보안 리스크 최소화라는 세 가지 실질적 혜택을 얻게 됩니다.
GKE가 여는 AI 운영의 새로운 표준
Google GKE Agent Sandbox와 Inference Gateway는 AI 운영에서 가장 큰 두 가지 과제인 보안과 성능을 근본적으로 해결합니다.
Agent Sandbox는 신뢰할 수 없는 AI 코드 실행을 안전하게 관리하고,
Inference Gateway는 LLM 워크로드를 빠르고 효율적으로 처리하도록 설계되었습니다.
AI가 클라우드 인프라의 중심으로 이동하고 있는 지금,
이번 GKE의 혁신은 AI 네이티브 인프라로 가는 중요한 전환점이라 할 수 있습니다.
기업들이 이제는 단순히 AI 모델을 구축하는 것을 넘어, 안전하고 민첩하게 운영하는 시대로 나아가고 있습니다.
Google Debuts GKE Agent Sandbox, Inference Gateway at KubeCon
Google has updated Google Kubernetes Engine to better support large-scale AI workloads, introducing the GKE Agent Sandbox for securely LLM-generated code.
thenewstack.io

'인공지능' 카테고리의 다른 글
| 에이전트가 에이전트를 평가한다? 새로운 평가 패러다임 ‘Agent-as-a-Judge’ (0) | 2025.11.13 |
|---|---|
| Self-Evolving Agents: 자가 학습형 AI 에이전트 재훈련 매뉴얼 (0) | 2025.11.12 |
| 공간 지능: AI의 다음 개척지 - AI가 언어를 넘어 ‘세계’를 이해하기 시작하다 (0) | 2025.11.12 |
| AI Agent 보안을 위한 인증(Authentication)과 인가(Authorization) 완벽 가이드 (0) | 2025.11.12 |
| Kimi K2 Thinking: 로컬에서 직접 실행하는 방법 (0) | 2025.11.11 |