본문 바로가기

인공지능

차세대 AI 영상 생성의 진화 — Google Gemini API의 Veo 3.1, 창의적 영상 제작의 새로운 시대

728x90
반응형
728x170

 

Veo 3.1 출시: 영상 생성 AI의 새로운 기준

Google은 최근 Gemini API를 통해 최신 영상 생성 모델인 Veo 3.1Veo 3.1 Fast를 공개했다.
이번 업데이트는 단순한 버전 업그레이드가 아니라, AI 영상 생성의 품질과 제어력을 대폭 향상시킨 전환점이라 평가된다.

Veo 3.1은 이미지에서 영상을 생성하는 과정의 정확도와 품질을 강화했으며, 자연스러운 오디오와 시네마틱한 스타일 이해력을 통해 보다 생생하고 몰입감 있는 영상 제작을 가능하게 한다. 이 모델은 Google AI Studio, Vertex AI, Gemini 앱, Flow를 통해 사용 가능하며, 유료 프리뷰 형태로 공개되었다.

반응형

Veo 3.1의 핵심 기술 업데이트

1. 자연스러운 오디오와 향상된 시네마틱 표현

Veo 3.1의 가장 큰 변화는 영상뿐만 아니라 음성 및 음향 생성 능력이 강화되었다는 점이다.
AI가 대화체 음성을 자연스럽게 생성하며, 장면 전환에 맞는 효과음과 배경음을 자동으로 삽입한다.

또한 영화 스타일의 연출 요소인 조명, 카메라 앵글, 색감, 감정 톤 등을 모델이 이해하고 반영한다. 이를 통해 이전보다 훨씬 현실감 있고 시각적으로 완성도 높은 결과물을 만들어낸다.

특히 장면이 여러 개로 나뉜 영상에서도 캐릭터의 외형과 감정 표현의 일관성을 유지함으로써, 긴 서사 구조를 가진 스토리텔링 콘텐츠 제작이 가능해졌다.


2. ‘Ingredients to Video’: 참조 이미지 기반 영상 생성

이번 업데이트의 핵심 기능 중 하나는 ‘Ingredients to Video’다.
이 기능은 **최대 3개의 참조 이미지(reference images)**를 기반으로 영상의 스타일과 인물의 일관성을 유지할 수 있도록 한다.

예를 들어, 동일한 캐릭터가 등장하는 여러 장면을 제작할 때, 이전 버전에서는 매번 비슷한 인물을 새로 생성해야 했지만, 이제는 참조 이미지를 제공하면 Veo 3.1이 해당 이미지를 학습해 같은 인물로 연결되는 영상을 만들어낸다.

이는 스토리보드 제작이나 광고, 애니메이션 프로젝트에서 시각적 일관성 확보에 큰 이점을 제공한다.

사용 예시 (Python):

from google import genai
from google.genai import types

client = genai.Client()

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=[reference_image1, reference_image2],
    ),
)

3. ‘Scene Extension’: 장면 확장을 통한 긴 영상 제작

이전의 Veo 버전은 영상 길이에 제한이 있었지만, Scene Extension 기능을 통해 이 제약이 크게 완화되었다.
이제 사용자는 기존 영상의 마지막 1초를 기반으로 다음 장면을 이어붙이며, 1분 이상 길이의 연속적인 영상을 제작할 수 있다.

이 기능은 이전 영상의 마지막 부분을 분석해 시각적 연속성과 배경 사운드를 유지하며 새로운 장면을 생성한다.
그 결과, 끊김 없는 자연스러운 연결이 가능해져 장편 영상이나 광고 시퀀스 제작에 특히 유용하다.

사용 예시 (Python):

from google import genai

client = genai.Client()

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    video=video_to_extend
)

4. ‘First and Last Frame’: 장면 전환 제어

Veo 3.1은 영상의 시작 프레임과 마지막 프레임을 직접 지정할 수 있도록 지원한다.
이 기능을 사용하면 두 장면 사이의 전환을 AI가 자연스럽게 만들어내며,
결과적으로 부드럽고 일관된 시각적 흐름을 구현할 수 있다.

특히 프레젠테이션 영상, 제품 소개 영상, 브랜딩 콘텐츠 등에서 두 이미지 사이를 잇는 트랜지션 영상 제작에 활용할 수 있다.

사용 예시 (Python):

from google import genai
from google.genai import types

client = genai.Client()

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    image=first_frame,
    config=types.GenerateVideosConfig(
        last_frame=last_frame,
    ),
)

Veo 3.1의 실제 활용 사례

Veo 3.1은 이미 여러 기업과 스튜디오에서 실험적으로 활용되고 있다.

  • Promise Studios는 Veo 3.1을 자사 플랫폼인 MUSE에 통합해, 영화 감독 중심의 스토리보드 및 프리비주얼(Previsualization) 작업을 자동화하고 있다. 이로써 제작 초기 단계에서 고품질의 시각화 작업이 가능해졌다.
  • Latitude는 자사의 생성형 내러티브 엔진에 Veo 3.1을 적용하여, 사용자가 작성한 텍스트 스토리를 즉시 영상화하는 기능을 테스트 중이다.

이처럼 Veo 3.1은 영화·게임·광고·교육 콘텐츠 제작 등 다양한 분야에서 창의적 영상 제작의 새로운 패러다임을 제시하고 있다.


Veo 3.1 사용 방법

Veo 3.1과 Veo 3.1 Fast는 현재 Gemini API의 유료 프리뷰 형태로 제공된다.
개발자는 아래의 환경에서 모델을 사용할 수 있다.

  • Google AI Studio 또는 Vertex AI를 통해 API 기반으로 직접 호출
  • Veo Studio 데모 앱에서 테스트 (유료 Gemini API 키 필요)
  • 공식 코드북 가이드를 통해 파라미터 조정 및 영상 길이 제어 방법 확인 가능

Veo 3.1의 가격은 기존 Veo 3와 동일하게 유지되어, 성능 향상 대비 접근성이 높다.


728x90

Veo 3.1은 단순한 AI 모델을 넘어 창의력과 기술이 결합된 영상 제작 플랫폼으로 진화했다.
자연스러운 오디오, 정교한 시네마틱 제어, 그리고 참조 이미지 기반의 일관성 있는 영상 생성 기능은 AI 영상 제작의 새로운 기준을 제시한다.

이 모델은 특히 스토리 중심의 콘텐츠 제작자에게 큰 의미가 있다.
‘Scene Extension’과 ‘First and Last Frame’ 기능을 통해 영상의 흐름을 세밀하게 제어할 수 있으며, 이는 인간의 창작 감각과 AI의 기술적 정밀함이 결합된 결과라 할 수 있다.

Veo 3.1은 앞으로 영상 제작의 접근성을 낮추고, 전문가와 비전문가 모두에게 창작의 자유를 확장하는 도구로 자리매김할 가능성이 높다.
AI가 단순히 콘텐츠를 생성하는 도구를 넘어, 새로운 형태의 창작 파트너로 진화하는 과정을 보여주는 대표적인 사례라 할 수 있다.

https://developers.googleblog.com/en/introducing-veo-3-1-and-new-creative-capabilities-in-the-gemini-api/

 

Introducing Veo 3.1 and new creative capabilities in the Gemini API- Google Developers Blog

Today, we are releasing Veo 3.1 and Veo 3.1 Fast in paid preview in the Gemini API. This updated model offers several improvements, as well as improved outputs when generating video from images. These new models are available via the Gemini API in Google A

developers.googleblog.com

728x90
반응형
그리드형