본문 바로가기

인공지능

STARFlow-V: 확산 모델을 넘어서는 새로운 비디오 생성 패러다임 - 정규화 흐름 기반으로 구현된 최초의 고품질 장기 비디오 생성 모델

반응형

지금까지 고품질 비디오 생성은 대부분 확산 모델이 주도해 왔습니다. 여러 단계에 걸쳐 노이즈를 제거하며 이미지를 복원하는 방식은 분명 강력하지만, 생성 과정이 길고 계산 비용이 높다는 한계가 있었습니다.
그런데 최근 Apple이 공개한 STARFlow-V는 이 고정관념을 흔듭니다. 이 모델은 정규화 흐름(Normalizing Flow)을 기반으로 단 한 번의 가역 매핑으로 비디오를 생성하면서도, 확산 모델과 경쟁할 만큼 높은 시각적 품질을 보여줍니다.
특히 텍스트, 이미지, 비디오 입력을 모두 동일한 모델로 처리하며 장기 비디오에서도 안정적인 일관성을 유지하는 점이 큰 차별점입니다. 이 글에서는 STARFlow-V가 어떤 구조로 동작하고, 어떤 기술적 혁신이 담겨 있는지, 그리고 왜 중요한 모델인지 쉽게 정리해 설명합니다.

반응형

2. 왜 Normalizing Flow 기반 비디오 생성이 중요한가

정규화 흐름은 입력 데이터를 단순한 분포(예: 정규분포)로 매핑할 수 있는 가역 함수 구조를 기반으로 합니다.
확산 모델처럼 단계적으로 노이즈를 제거할 필요가 없기 때문에, 이론적으로 더 빠르고 직접적인 샘플링이 가능합니다.
그러나 그동안 NF는 고해상도 이미지나 긴 시퀀스를 다루는 데 어려움이 있었고, 특히 비디오처럼 시공간적 복잡성이 높은 데이터에서는 거의 사용되지 않았습니다.

STARFlow-V의 의미는 여기서 시작됩니다. NF 방식의 약점을 여러 구조적 혁신을 통해 극복하고, 실제로 확산 모델에 필적하는 결과를 보여준 첫 사례라는 점입니다.


3. STARFlow-V의 핵심 구조: Global–Local 아키텍처

STARFlow-V는 비디오 데이터를 프레임 단위로 압축된 잠재(latent) 코드로 변환한 뒤, 이를 두 가지 블록으로 처리합니다.

3.1 Local Block: 프레임 내부 디테일 담당

  • 각 프레임 내부에서만 작동
  • 디테일 복원, 미세 구조 보존
  • 공간적 표현력을 담당하는 부분

즉, 프레임 단위로 선명한 디테일을 유지하는 역할을 합니다.

3.2 Global Block: 시간적 연결 담당

  • 프레임 간 인과적 관계를 유지
  • 앞선 프레임 정보만 사용하도록 설계된 완전한 causal 구조
  • 새로운 프레임 생성 시 과거 정보만 참고해 오류 누적을 줄임

이 Global–Local 구조 덕분에 STARFlow-V는 장기 비디오에서도 색 번짐, 블러링, 구조 붕괴 같은 문제를 크게 줄일 수 있습니다.


4. Flow-Score Matching: NF의 약점을 보완하는 디노이징 전략

NF 기반 모델은 학습 안정성을 위해 데이터에 작은 노이즈를 주입하는데, 이는 생성 결과에도 그 노이즈가 남아 있는 단점이 있었습니다.
이를 해결하기 위해 STARFlow-V는 Flow-Score Matching이라는 새로운 디노이징 기법을 도입합니다.

핵심 개념은 다음과 같습니다.

  • 생성 과정에서 생기는 작은 노이즈를 제거하기 위한 가벼운 디노이저를 별도로 학습
  • 프레임을 1개만 미래로 보고 처리하는 causal 구조
  • 흐름 모델의 스코어(변화 방향)를 예측해 더 깨끗한 프레임을 복원

이 방식은 별도 디퓨전 디노이저보다 효율적이며, 장기 출력에서 흔히 나타나는 고주파 아티팩트를 강하게 억제합니다.


5. 더 빠른 추론을 위한 기술: Jacobi 반복과 파이프라인 디코딩

비디오는 단순히 “한 장의 이미지”를 생성하는 문제보다 훨씬 무겁습니다.
STARFlow-V는 NF 기반이기 때문에 원래 빠른 샘플링이 가능하지만, 긴 시퀀스를 순차적으로 처리하는 과정은 여전히 병목이 될 수 있습니다.
이를 해결하기 위한 두 가지 핵심 전략이 도입되었습니다.

5.1 블록 단위 Jacobi 반복

  • 프레임 시퀀스를 여러 블록으로 나눔
  • 블록 내부는 병렬로 처리
  • 블록 간에는 순차적 진행
  • 새 프레임의 초기값을 이전 프레임 기반으로 초기화해 수렴 속도를 향상

이 구조를 통해 기존 autoregressive 디코딩보다 최대 15배 빠른 추론 지연 시간을 달성합니다.

5.2 파이프라인 디코딩

  • 시간 정보를 담당하는 Global Block과
  • 디테일을 복원하는 Local Block을
    완전히 병렬적으로 실행할 수 있는 구조

즉, 비디오 생성 과정 전체가 파이프라인 형태로 진행되므로 전체 지연 시간이 더욱 줄어듭니다.


6. 하나의 모델로 T2V, I2V, V2V를 모두 처리하는 방식

STARFlow-V는 단일 백본 모델로 다음 모두를 수행합니다.

Text-to-Video

텍스트 프롬프트를 기반으로 잠재 공간을 초기화해 동영상 생성.

Image-to-Video

첫 프레임을 입력하면

  • 해당 프레임을 흐름 모델 구조를 통해 직접 인코딩하고
  • 이후 프레임 생성에 필요한 캐시(KV 캐시)를 자동 준비

덕분에 별도 인코더가 필요 없습니다.

Video-to-Video

이미 존재하는 비디오를 입력하면

  • 조건 비디오 전체를 잠재로 인코딩
  • 이후 원하는 편집 지시(예: 인페인팅, 스타일 변환)에 따라 새 비디오 생성

정규화 흐름의 가역성 덕분에 가능한 특징입니다.


7. 실험 결과: 확산 모델과의 격차를 실제로 줄인 NF 모델

실험에서 STARFlow-V는 다음과 같은 성능을 보여줍니다.

  • 확산 기반 모델에 근접한 시각적 품질
  • 시간적으로 안정적이며 장기 시퀀스에서 흔한 드리프트와 블러가 크게 줄음
  • VBench 등 평가에서 인과적 확산 모델과 동등 수준
  • 특히 긴 비디오 생성에서 구조·색상·물체 운동이 안정적으로 유지

즉, NF 모델이 확산 모델을 실제로 대체할 가능성을 처음으로 증명한 사례입니다.


8. 한계와 향후 발전 방향

모든 장점에도 불구하고 STARFlow-V는 몇 가지 한계를 남깁니다.

  1. 실시간 생성 어려움
    Jacobi 반복과 파이프라인 구조로 속도를 높였지만, 일반 GPU에서 실시간 수준까지는 도달하지 못함.
  2. 데이터 품질 영향
    비디오 데이터의 노이즈·편향 문제로 인해 확산 모델에서 관찰되는 명확한 스케일링 법칙이 아직 관찰되지 않음.
  3. 물리적 합리성 부족
    현재 데이터와 모델 규모로는 비현실적 움직임이나 물리적으로 말이 되지 않는 장면이 발생할 수 있음.

향후에는

  • 지연 시간 최소화
  • 경량화(증류, 프루닝)
  • 물리 기반 데이터셋 확장
    등이 연구 방향이 될 것으로 전망됩니다.

728x90

STARFlow-V는 비디오 생성 분야에서 전통적으로 외면받던 Normalizing Flow 모델이 실제로 확산 모델을 대체할 수 있음을 보여준 중요한 연구입니다.
Global–Local 구조, Flow-Score Matching, Jacobi 반복 기반 병렬 처리와 같은 기술적 기여는 단순한 모델 제안을 넘어 비디오 생성 방식 자체에 새로운 방향성을 제시합니다.

비디오 AI의 다음 시대가 확산 모델 하나로 끝나지 않는다는 사실을 보여주는 신호탄이며, 앞으로 NF 기반의 더 빠르고 일관적이며 실시간에 가까운 비디오 생성 기술이 등장할 가능성을 크게 높여준 연구입니다.

이제 비디오 생성 분야는 확산에서 NF로, 다시 또 다른 패러다임으로 확장될 가능성이 열렸습니다.
STARFlow-V는 그 출발점이라고 볼 수 있습니다.

300x250

https://arxiv.org/abs/2511.20462

 

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows

Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and compu

arxiv.org

728x90
반응형
그리드형