본문 바로가기

인공지능

AI가 만드는 ‘1분 이야기’의 혁신! 엔비디아의 TTT 기술로 탄생한 AI 톰과 제리

728x90
반응형

 

지금, AI는 단순한 생성 그 이상을 꿈꾼다
짧고 인상적인 AI 생성 영상은 이미 우리에게 익숙합니다. 하지만 "과연 AI가 긴 이야기 구조를 일관성 있게 그려낼 수 있을까?"라는 질문에는 여전히 의문이 따릅니다. 이 문제에 정면으로 도전한 것이 엔비디아와 스탠포드대학교의 공동 연구팀입니다. 이들은 ‘테스트-타임 훈련(Test-Time Training, TTT)’이라는 새로운 방식으로 AI가 한층 더 정교하게 긴 스토리의 흐름을 이해하고 만들어낼 수 있도록 했습니다.

이번 글에서는 이 새로운 AI 영상 생성 기술의 개념과 기술적 배경, 기존 기술과의 차이점, 그리고 ‘AI 톰과 제리’를 통해 보여준 성과까지 자세히 살펴봅니다.

반응형

📌 TTT란 무엇인가? — Test-Time Training의 핵심 개념

TTT(Test-Time Training)는 기존의 트랜스포머 모델에 추가로 탑재할 수 있는 유연한 학습 레이어입니다. 영상이 생성되는 '추론' 과정 중에도 스스로 학습을 계속하면서 맥락을 실시간으로 이해하고 적응하는 것이 가장 큰 특징입니다.

주요 특징:

  • Self-supervised Learning: 별도의 라벨 없이도 자체 학습 가능
  • 실시간 적응력: 생성 중 상황에 맞게 이해도를 점차 높임
  • 맥락 파악: 장면 간 연결성과 이야기 흐름을 일관되게 유지

📽 기존 AI 영상 생성 기술의 한계

현재 대표적인 AI 영상 생성 기술로는 OpenAI의 Sora, Google의 Veo, Meta의 Movie Gen 등이 있습니다. 이 기술들은 짧고 고화질인 영상 생성에는 강점을 보이지만, 다음과 같은 한계를 갖고 있었습니다:

  • 짧은 영상 길이: 대부분 20초 이내
  • 장면 간 불일치: 흐름이 매끄럽지 않거나 앞뒤가 맞지 않는 전개
  • 스토리의 단절: 복잡한 서사를 담기에는 메모리 한계가 존재

기존 RNN 계열 기술인 MambaDeltaNet도 사용되었지만, 이들 역시 ‘고정된 숨겨진 상태(hidden state)’를 유지해야 한다는 구조적 한계로 인해 정보량 부족 문제가 있었습니다.


🧠 TTT가 해결한 문제들

TTT는 숨겨진 상태를 작고 유연한 신경망 구조로 대체함으로써, 생성 중간에도 계속해서 장면 정보를 학습하고 맥락을 이어갈 수 있도록 돕습니다. 즉, AI가 이야기의 전후 관계를 파악해 '스토리텔링'에 필요한 일관성을 유지하게 된 것입니다.

이로 인해 가능해진 것:

  • 긴 영상 생성: 최대 1분 분량의 일관된 스토리 구성
  • 자연스러운 장면 전환: 캐릭터 행동, 배경 흐름, 대화 등을 매끄럽게 연결
  • AI의 실시간 성장: 영상이 흘러갈수록 AI의 표현력도 동반 상승

🧪 실험 결과 – AI로 재탄생한 ‘톰과 제리’

연구진은 고전 애니메이션 ‘톰과 제리’ 시리즈를 활용한 커스텀 데이터셋을 통해 실험을 진행했습니다. 기존 기술들과 비교해 TTT 기술을 적용한 모델은 아래와 같은 면에서 우수한 성과를 보였습니다:

  • 더 풍부한 이야기 전개: 복잡한 서사와 캐릭터 행동 표현
  • 34포인트 높은 평가 점수: 인간 평가자 대상 실험에서 평균 점수 월등
  • SNS에서의 긍정적 반응: “놀라운 진전이다”, “원작을 현대적으로 재해석했다”

반면, 일부 사용자들은 AI의 작품이 예술적 감성을 충분히 담지 못한다고 비판하며 “원작의 감동이 사라졌다”는 반응도 보였습니다. 이는 기술 발전과 예술 가치 사이의 오랜 논쟁을 다시 한번 불러일으키는 계기가 되었습니다.


🔍 TTT의 기술적 통합 방식

TTT는 기존 트랜스포머 아키텍처에 쉽게 통합될 수 있습니다. 이미 사전 학습된 모델에 추가로 연결하는 방식이기 때문에, 새롭게 모델을 처음부터 학습시킬 필요가 없습니다.

연구진은 해당 기술을 오픈소스로 깃허브에 공개하여, 누구나 실험 및 개발에 활용할 수 있도록 했습니다.


728x90

TTT, AI 영상 생성의 다음 챕터를 여는 열쇠

이번 연구는 단순히 영상 길이를 늘리는 것을 넘어, 스토리텔링의 본질을 AI가 이해하고 표현하는 데 초점을 맞췄습니다. TTT는 영상 생성 AI의 한계를 돌파할 수 있는 실질적인 솔루션으로, 콘텐츠 제작, 광고, 게임, 애니메이션 등 다양한 분야에 적용 가능성이 큽니다.

AI가 만드는 이야기가 인간의 감성을 완전히 대체할 수는 없겠지만, TTT는 창작의 새로운 가능성과 도구로서의 역할을 충분히 보여줍니다.

https://arxiv.org/pdf/2504.05298

 

728x90
반응형