본문 바로가기

인공지능

무한 길이 오디오 기반 영상 합성의 시대: InfiniteTalk

728x90
반응형
728x170

영상과 오디오를 동시에 다루는 인공지능 기술은 최근 몇 년 사이 빠르게 발전해왔습니다. 하지만 지금까지의 오디오 기반 영상 합성 기술은 입술 싱크에만 집중하거나, 짧은 길이의 영상에만 안정적으로 적용된다는 한계가 있었습니다. 긴 영상을 자연스럽게 더빙하거나, 얼굴뿐 아니라 머리 움직임과 표정, 몸의 자세까지 오디오에 맞춰 합성하는 것은 어려운 과제였습니다.

이 문제를 해결하기 위해 등장한 것이 바로 InfiniteTalk입니다. InfiniteTalk은 입력된 오디오와 영상을 기반으로 무한 길이의 자연스러운 더빙 영상을 생성할 수 있는 새로운 프레임워크입니다.

반응형

InfiniteTalk이란 무엇인가

InfiniteTalk은 sparse-frame video dubbing을 기반으로 한 차세대 영상 합성 모델입니다. 단순히 입술 움직임만 맞추는 기존의 방식과 달리, 머리 움직임, 표정, 신체 동작까지 오디오와 정밀하게 동기화할 수 있습니다.

또한 이 모델은 기존 영상뿐만 아니라 정적인 이미지와 오디오를 입력으로 받아 새로운 영상으로 변환할 수도 있습니다. 따라서 무한 길이 영상 생성, 정체성 보존, 높은 정확도의 입술 싱크를 동시에 구현하는 것이 InfiniteTalk의 가장 큰 강점입니다.


기존 기술의 한계와 InfiniteTalk의 차별점

기존 오디오-비디오 합성 기술의 대표적인 문제는 크게 세 가지였습니다.

  1. 입술 싱크만 지원하여 자연스러운 몰입감을 주지 못함
  2. 영상 길이에 제한이 있어 긴 영상 합성에 불리함
  3. 손과 신체 움직임이 왜곡되는 불안정성

InfiniteTalk은 이러한 문제를 해결했습니다. MultiTalk 대비 안정성을 크게 향상시켜 신체 왜곡을 최소화했고, 긴 영상에서도 동일한 품질을 유지합니다. 무엇보다 입술뿐 아니라 머리, 몸, 표정까지 오디오에 맞춰 자연스럽게 합성된다는 점에서 기존 기술을 뛰어넘는 혁신을 보여줍니다.


InfiniteTalk의 주요 특징

Sparse-frame Video Dubbing

단순한 입술 싱크를 넘어 머리, 표정, 신체 움직임까지 오디오와 맞추는 기능을 제공합니다.

Infinite-Length Generation

영상 길이의 제한 없이 무한 길이 영상 합성이 가능합니다. 긴 프레젠테이션, 영화 더빙, 온라인 강의 제작 등에서 특히 강력한 효과를 발휘할 수 있습니다.

안정성 향상

MultiTalk 대비 손과 신체 왜곡이 현저히 줄어들어 더욱 자연스럽고 안정적인 결과물을 제공합니다.

정밀한 입술 싱크

입술 움직임의 정확도가 뛰어나 영상의 몰입감을 높여줍니다.

이미지-오디오 기반 합성

정적인 이미지와 오디오를 입력으로 받아 자연스럽게 영상을 생성할 수 있습니다.


사용 방법과 적용 가능성

InfiniteTalk은 연구진이 코드와 가중치를 공개함에 따라 누구나 활용할 수 있습니다. Gradio 및 ComfyUI 환경에서 실행할 수 있어 접근성이 높습니다.

예를 들어, 정적인 발표자 이미지를 넣고 발표 오디오를 입력하면, 실제 발표자가 설명하는 것처럼 긴 영상을 자연스럽게 합성할 수 있습니다. 또한 기존 영상을 새로운 언어로 더빙할 때도 활용할 수 있어 다국어 콘텐츠 제작에도 유용합니다.


728x90

InfiniteTalk은 기존 오디오-비디오 합성 기술의 한계를 넘어 무한 길이 영상 생성, 정밀한 입술 싱크, 안정성, 정체성 보존이라는 네 가지 강점을 동시에 달성한 혁신적 솔루션입니다.

앞으로 이 기술은 온라인 교육, 영화·드라마 더빙, 다국어 콘텐츠 제작, 메타버스 아바타 생성 등 다양한 영역에서 활용될 수 있습니다. 특히 긴 영상 콘텐츠 제작에 있어 AI 기반 합성의 가능성을 한층 확장할 것으로 기대됩니다.

무한 길이 오디오 기반 영상 합성이라는 새로운 지평을 연 InfiniteTalk. 이는 단순한 기술적 진보를 넘어 영상 콘텐츠 제작 방식 자체를 바꿀 수 있는 중요한 이정표가 될 것입니다.

https://github.com/MeiGen-AI/InfiniteTalk?fbclid=IwY2xjawMXSs1leHRuA2FlbQIxMQABHgwWhoajvuQSxOXxIE4lZcS1plYebQdasvnF_zv21sgp6TuK8Qvu7nPt6zh1_aem_7AVDo4l_rVLWM75ei9bAHw

 

GitHub - MeiGen-AI/InfiniteTalk: ​​Unlimited-length talking video generation​​ that supports image-to-video and video-to

​​Unlimited-length talking video generation​​ that supports image-to-video and video-to-video generation - MeiGen-AI/InfiniteTalk

github.com

728x90
반응형
그리드형