본문 바로가기

인공지능

비용을 반으로 줄이고, 작업량은 더 많이 처리하는 방법: Gemini API Batch Mode 소개

728x90
반응형

Gemini API를 사용하고 있지만, 늘 걱정되는 것이 있다면 아마 ‘비용’과 ‘처리 속도’일 겁니다. 실시간 응답이 필요 없는 작업임에도 불구하고 높은 요금과 요청 제한에 발목 잡혀 왔다면, 이제는 다른 선택지가 생겼습니다. 바로 Google이 새롭게 출시한 Batch Mode입니다.
이번 글에서는 Gemini API의 Batch Mode가 무엇인지, 기존 방식과 어떤 점이 다른지, 실제 사용 사례와 함께 어떻게 활용할 수 있는지를 자세히 정리해 드리겠습니다.

반응형

Batch Mode란 무엇인가?

Batch Mode는 Google Gemini API에 새롭게 추가된 비동기 처리 전용 기능입니다. 실시간 응답이 필요 없는 작업, 즉 대량의 요청을 한 번에 처리하고 결과를 나중에 받아도 되는 경우에 최적화된 방식입니다.
핵심적인 차이점은 다음과 같습니다.

항목기존 Gemini API (동기)Batch Mode (비동기)
응답 시간즉시 응답 필요최대 24시간 이내 응답
처리 방식요청마다 즉시 처리파일 단위로 일괄 처리
비용정가50% 할인
사용 목적실시간 응답이 필요한 서비스대량 데이터 처리, 비실시간 업무

결론적으로, 속도가 급하지 않은 대신 비용과 처리 효율을 극대화하고 싶을 때 사용하는 모드입니다.


Batch Mode의 주요 장점 3가지

1. 절반의 비용

가장 큰 매력은 단연 ‘비용 절감’입니다. 동일한 모델을 사용하더라도 Batch Mode에서는 50% 할인된 가격으로 처리할 수 있습니다. 자주 반복되는 대량 작업, 테스트성 요청 등에 특히 유리합니다.

2. 높은 처리량 (Throughput)

Batch Mode는 일반적인 실시간 API보다 훨씬 높은 요청 한도를 제공합니다. 즉, 한 번에 수천 개의 요청을 묶어서 처리할 수 있으므로 병렬화된 작업 처리에 적합합니다.

3. 간단한 사용 방식

클라이언트 쪽에서 복잡한 큐잉, 재시도 로직 없이도 사용 가능합니다. 요청들을 하나의 JSONL 파일로 구성하고 제출하면, 나중에 결과를 한꺼번에 받아올 수 있습니다. 작업 예약과 응답 수신을 완전히 분리해 운영 부담도 줄일 수 있습니다.


어떻게 사용하는가?

Batch Mode는 Google의 GenAI Python SDK를 통해 간단하게 사용할 수 있습니다. 기본 흐름은 아래와 같습니다.

  1. 요청 목록을 JSONL 파일로 구성
{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}}
{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Explain how quantum computing works in a few words"}]}]}}
  1. 파일 업로드 및 Batch Job 생성
uploaded_batch_requests = client.files.upload(file="batch_requests.json")

batch_job = client.batches.create(
    model="gemini-2.5-flash",
    src=uploaded_batch_requests.name,
    config={
        'display_name': "batch_job-1",
    },
)
  1. 최대 24시간 내 결과 수신
if batch_job.state.name == 'JOB_STATE_SUCCEEDED':
    result_file_name = batch_job.dest.file_name
    file_content_bytes = client.files.download(file=result_file_name)
    file_content = file_content_bytes.decode('utf-8')

    for line in file_content.splitlines():
        print(line)

한 번만 익혀두면, 반복적인 작업에 손쉽게 적용할 수 있습니다.


실제 사용 사례

Reforged Labs – 대규모 영상 분석 자동화

Reforged Labs는 광고 영상을 대규모로 분석하는 작업을 위해 Gemini 2.5 Pro를 사용 중입니다. 이전에는 실시간 API로 일일 수천 건의 요청을 처리하면서 비용과 속도 모두 부담이었지만, Batch Mode 도입 이후 작업 단가를 대폭 줄이고, 분석 속도도 크게 개선되었습니다. 이는 클라이언트 납품 기간 단축에도 직접적인 영향을 주었습니다.

Vals AI – 모델 성능 벤치마킹

Vals AI는 법률, 금융, 세무, 헬스케어 등 다양한 분야에서 파운데이션 모델의 실제 성능을 측정하는 기업입니다. Batch Mode를 통해 수만 개의 질문과 응답 시나리오를 비동기적으로 처리하면서 정량 평가 효율을 높이고, 병목 없는 대규모 테스트를 구현할 수 있었습니다.


728x90

언제 Batch Mode를 써야 할까?

Batch Mode는 아래와 같은 상황에서 특히 유용합니다.

  • 대량의 요청을 한꺼번에 처리하고 싶은 경우
  • 실시간 응답이 필요 없는 백그라운드 작업
  • API 비용 절감이 중요한 프로젝트
  • 반복적이고 구조화된 데이터 생성/분석 작업

실시간 처리가 중요한 챗봇이나 인터랙티브 서비스에는 적합하지 않지만, 비동기 대량 처리라는 조건만 맞는다면 비용, 속도, 편의성 측면에서 확실한 해답이 될 수 있습니다.
복잡한 큐 시스템 없이, 더 많은 작업을 더 저렴하게 처리하고 싶다면 지금 Batch Mode를 고려해보세요.
https://developers.googleblog.com/en/scale-your-ai-workloads-batch-mode-gemini-api/?fbclid=IwY2xjawLa2SdleHRuA2FlbQIxMQBicmlkETFHcmVBRzBJUWpyNFhaVFVsAR4XXggxSVnS2_Y_nLMtzi-x-gm0MxpxhPpoi6Inei_JS3Yh7KwL6t2-ZqquVA_aem_iz9h1ONtOI-hAFBKoICmcA

Batch Mode in the Gemini API: Process more for less- Google Developers Blog

Gemini models are now available in Batch Mode Today, we’re excited to introduce a batch mode in the Gemini API, a new asynchronous endpoint designed specifically for high-throughput, non-latency-critical workloads. The Gemini API Batch Mode allows you to

developers.googleblog.com

728x90
반응형