Google I/O가 다가오면서, 단순한 기술 업데이트를 넘어 콘텐츠 제작의 패러다임을 바꿀 움직임이 조용히 일어나고 있습니다. 바로 구글이 실험 중인 ‘Illuminate’와 ‘Sparks’라는 프로젝트입니다. AI가 논문을 요약해주는 수준을 넘어, 이제는 하나의 질문만 입력하면 오디오와 비디오가 모두 자동으로 생성되는 시대가 다가오고 있습니다.
이번 블로그에서는 구글이 조용히 확장 중인 이 실험적 기술들이 어떤 구조를 가지고 있는지, 현재 어떤 수준까지 구현됐는지, 그리고 앞으로의 가능성에 대해 짚어보겠습니다.
AI가 만드는 영상? 구글 ‘Illuminate’와 ‘Sparks’의 정체는
Illuminate는 처음에는 논문 요약을 음성으로 들려주는 기능으로 시작됐습니다. 사용자는 논문을 선택하면 AI가 오디오 형태로 요약해주는 방식입니다. 하지만 최근 이 프로젝트가 확장되면서 단순한 ‘음성 요약’에서 끝나지 않고, 다양한 문서를 기반으로 멀티모달 콘텐츠(텍스트, 이미지, 오디오, 영상)를 자동으로 만들어내는 기능으로 진화하고 있습니다.
새로 드러난 ‘Sparks’라는 기능은 그야말로 압권입니다. “어떤 질문이든 짧은 영상으로 전환된다”는 설명 아래, AI가 질문을 입력받고 1~3분 길이의 영상 클립을 완전히 자동으로 생성해주는 기능입니다. 텍스트 작성, 영상 편집, 내레이션, 배경 이미지, 자막까지 모두 AI가 처리합니다.
현재 이 기능은 구글 내부 계정에서만 테스트되고 있으며, 외부 공개는 되지 않은 상태입니다.
Audio만 넘어서 Video까지: 멀티모달 생성 기술의 확장
지금까지 생성형 AI는 주로 텍스트 생성(GPT), 이미지 생성(DALL·E, Midjourney), 오디오 생성(Suno, ElevenLabs) 등 단일 모달에서 작동했습니다. 하지만 ‘Sparks’는 여기에 큰 전환점을 제시합니다. 하나의 모델이 입력받은 질문을 바탕으로 텍스트, 음성, 영상까지 동시에 생성하는 형태이기 때문입니다.
이는 별도 파이프라인 없이도 전체 콘텐츠를 완성할 수 있음을 의미하며, 콘텐츠 제작 과정의 복잡도를 획기적으로 줄여줍니다. 특히 영상 콘텐츠가 가장 많은 시간과 비용을 요구하는 미디어 형식이라는 점을 감안하면, 이 기술이 가져올 변화는 작지 않습니다.
‘Sparks’: 질문 하나로 완성되는 AI 영상의 세계
현재까지 알려진 정보에 따르면, ‘Sparks’의 인터페이스는 TikTok 스타일의 세로형 영상 샘플로 구성되어 있으며, 주제는 다양합니다. 과학, 문학, 역사 등 어떤 분야든 질문을 입력하면 이에 맞는 정보 구조를 생성하고, 이를 영상 클립으로 구성합니다.
특히 흥미로운 점은 영상뿐 아니라 내레이션 호스트도 AI가 맡는다는 부분입니다. 사용자는 원하는 화자의 스타일을 선택할 수 있고, 음성 톤이나 말투도 조정 가능합니다. 이는 단순한 텍스트 기반 챗봇이 아니라, 완전한 멀티모달 콘텐츠 제작 도구로 확장되고 있다는 것을 보여줍니다.
또한, 실험적으로 이미지 생성 기능, 자막 켜기/끄기, 편집 기능 버튼 등이 포함되어 있는 것으로 확인됐지만, 이 역시 일반 사용자에겐 비공개 상태입니다.
NotebookLM과의 연계 가능성: 구글 생태계 전략은?
이와 함께 주목할 점은 구글의 또 다른 프로젝트인 NotebookLM과의 연결입니다. NotebookLM은 사용자가 업로드한 문서나 정보를 기반으로 대화형 AI 인터페이스를 제공하는 툴인데, 최근 여기에 ‘Video Overview’ 기능이 포함될 것이란 관측이 나오고 있습니다.
NotebookLM에서 제공되는 영상 요약 역시 두 명의 AI 호스트가 등장하며, 사용자의 문서를 바탕으로 대화를 나누는 형식으로 콘텐츠가 구성됩니다. 이는 ‘Sparks’와 유사한 포맷이며, 같은 기술 스택(Veo 3 혹은 Gemini Ultra 기반)이 사용되고 있을 가능성이 높습니다.
만약 NotebookLM에서도 ‘Sparks’ 스타일의 영상 자동 생성 기능이 공개된다면, 사용자는 자신만의 문서를 기반으로 단 몇 초 만에 완전한 영상 콘텐츠를 생성할 수 있게 됩니다.
어디까지 왔고, 어디로 갈 것인가: 지금 주목할 이유
현재로선 이 기능들은 실험적 단계에 있으며, 대부분의 기능이 일반 사용자에게는 비활성화된 상태입니다. 하지만 기술 수준 자체는 상당히 고도화돼 있으며, 영상과 오디오가 자연스럽게 결합된 샘플 클립들은 이미 놀라운 완성도를 보여주고 있습니다.
콘텐츠 제작 시간을 획기적으로 줄일 수 있다는 점에서, 마케팅, 교육, 브랜딩, 개인 크리에이터 등 다양한 분야에 영향을 줄 수 있습니다. 질문 하나로 시작된 아이디어가 곧 영상이 되고, 이를 통해 다시 새로운 콘텐츠가 확산되는 순환 구조가 만들어질 수 있는 셈입니다.
기술이 바꾸는 콘텐츠 생태계, 당신은 준비됐는가?
지금 우리는 텍스트 생성 AI의 시대를 넘어, 영상 중심의 멀티모달 AI 시대를 향해 빠르게 이동하고 있습니다. 구글의 ‘Illuminate’와 ‘Sparks’는 그 미래를 미리 보여주는 창 같은 존재입니다.
아직은 실험 단계지만, 이 기술이 일반 사용자에게 공개되는 순간 콘텐츠 생태계는 크게 바뀔 것입니다. 더 빠르게, 더 저렴하게, 그리고 더 개성 있는 영상 콘텐츠를 누구나 만들 수 있게 되는 세상. 이제 중요한 질문은 이것입니다. 당신은 이 변화를 받아들일 준비가 되어 있나요?
https://www.testingcatalog.com/first-look-into-upcoming-ai-generated-video-overviews-from-google/
First look into upcoming Video Overviews before Google I/O
And some upcoming Illuminate features
www.testingcatalog.com
'인공지능' 카테고리의 다른 글
웹의 미래를 다시 쓰다: NLWeb이 바꾸는 AI 인터페이스의 새로운 기준 (0) | 2025.05.20 |
---|---|
Microsoft Build 2025 총정리: 에이전트 웹 시대의 본격적인 시작 (0) | 2025.05.20 |
애니메이션 AI의 진화: 한 번의 클릭으로 고화질 애니 영상을 만드는 ‘AniSora’란? (0) | 2025.05.19 |
"SQL 분석 자동화, 이제는 개발하듯 한다" – Rust 기반 에이전트 분석 프레임워크 소개 (0) | 2025.05.19 |
Qwen3의 MoE 모델, 효율과 성능을 동시에 잡는 업스케일링 전략 (0) | 2025.05.18 |