본문 바로가기

인공지능

실시간 음악을 AI로 만든다고? Magenta RealTime의 모든 것

728x90
반응형

AI가 음악을 만드는 시대는 이미 시작되었지만, 진짜 흥미로운 건 이제부터다. 구글 딥마인드와 마젠타 프로젝트가 새롭게 선보인 ‘Magenta RealTime’은 단순한 음악 생성 모델이 아니다. 이 모델은 실시간으로 음악을 만들고, 제어하고, 심지어 공연까지 가능하게 해준다. 게다가 오픈 소스로 제공되어 누구나 직접 실험하고 확장할 수 있다.

이 글에서는 Magenta RealTime이 어떤 모델인지, 어떻게 작동하는지, 어떤 점이 특별한지, 그리고 어떻게 활용할 수 있는지를 자세히 소개한다. 음악과 기술의 접점에서 창작의 새로운 도구를 찾고 있다면 끝까지 읽어보자.

반응형

실시간 AI 음악 생성의 시대가 왔다 – Magenta RealTime 소개

Magenta RealTime(줄여서 Magenta RT)은 구글 딥마인드의 실시간 음악 생성 모델 ‘Lyria RealTime’을 기반으로 개발된 오픈소스 버전이다. 이름 그대로 ‘실시간’ 음악 생성을 목표로 하며, 사용자는 음악을 들으면서 실시간으로 스타일을 조작하거나 흐름을 바꾸는 등 인터랙티브한 창작이 가능하다.

이 모델은 약 19만 시간 분량의 스톡 음악 데이터를 학습한 8억 개 파라미터의 오토리그레시브 트랜스포머(autoregressive transformer) 모델이다. 주로 악기 중심의 음원을 기반으로 훈련되었으며, 고품질 스테레오 오디오를 생성한다.

현재는 구글 Colab의 무료 TPU 환경에서도 실행할 수 있으며, 향후 개인 PC에서의 로컬 실행도 지원할 예정이다.

Magenta RealTime의 기술 개요 – 어떻게 실시간 생성이 가능한가?

실시간 음악 생성이 어렵다고 여겨지는 이유는 간단하다. 한 번에 오디오 전체를 생성하는 것이 아니라, 매 순간 이어지는 음악을 빠르게 예측하고 출력해야 하기 때문이다. Magenta RT는 이를 해결하기 위해 다음과 같은 기술적 전략을 사용한다.

  • 블록 오토리그레션(Block Autoregression)
    음악을 일정 길이의 청크 단위(2초)로 나누어 순차적으로 생성하며, 이전 청크의 오디오 토큰과 스타일 임베딩을 기반으로 다음 청크를 만든다.
  • 실시간 제어와 반응성
    스타일 임베딩은 오디오나 텍스트 프롬프트로부터 계산되며, 이를 실시간으로 조작해 음악의 분위기나 악기 구성을 바꿀 수 있다. 2초 단위 청크는 약 1.25초만에 생성되므로, 실시간성(Real-time Factor)이 1.6으로 높은 편이다.
  • 고품질 오디오 표현
    기존의 SoundStream을 업그레이드한 SpectroStream 방식을 채택하여, 48kHz 스테레오 수준의 고음질을 제공한다.
  • 새로운 음악+텍스트 임베딩 모델(MusicCoCa)
    MuLan과 CoCa 모델에서 영감을 받은 이 임베딩 모델은 텍스트와 음악 간의 의미적 연결성을 높여, 더 자연스러운 스타일 반영이 가능하다.

Magenta RT의 주요 특징 및 차별점

기존의 오프라인 기반 음악 생성 모델과 비교해, Magenta RT는 다음과 같은 점에서 차별화된다.

  • 실시간성 중심의 설계
    생성, 피드백, 수정이 즉각적으로 이뤄진다. 즉, 청취자와 연주자가 동시에 존재할 수 있는 모델이다.
  • 조작 가능한 스타일 임베딩
    여러 스타일을 섞거나 실시간으로 변화시켜 새로운 음악 조합을 탐색할 수 있다.
  • 열린 생태계
    코드와 모델 가중치가 공개되어 있어, 개발자나 연구자, 아티스트 누구나 자유롭게 사용하고 확장할 수 있다.
  • 창작 중심의 철학
    Magenta RT는 인간 창작자의 창의성을 확장하는 도구로 설계되었다. 사용자의 입력이 곧 음악의 방향성을 결정하기 때문에 결과물이 더 개인화되고 독창적이다.

직접 써보자 – Magenta RT 사용 예시 (Colab Demo)

Magenta RT는 GitHub에 코드가 공개되어 있으며, 구글 Colab에서 바로 실행해볼 수 있는 데모도 제공된다.

  1. GitHub 저장소에서 Colab 링크를 연다.
  2. Google 계정으로 로그인한 후 TPU 런타임으로 설정한다.
  3. 프롬프트 텍스트나 오디오 파일을 입력하고 실행한다.
  4. 생성된 음악을 실시간으로 듣고, 스타일을 조작하면서 변화를 확인한다.

이처럼 직접 사용해보면서 스타일을 바꾸고, 악기 구성을 섞어보는 등의 인터랙션을 통해 창작자가 직접 ‘연주자’가 되는 경험을 할 수 있다.

Magenta RT의 한계와 앞으로의 발전 방향

아무리 뛰어난 모델이라 해도 완벽하진 않다. Magenta RT는 다음과 같은 제한점을 안고 있다.

  • 제한된 음악 스타일
    주로 서양 악기 중심의 음악 데이터로 학습되어, 세계 다양한 음악 전통이나 보컬 음악에 대한 지원이 부족하다.
  • 가사 기반 보컬 생성 불가
    허밍이나 음성 유사 사운드는 가능하지만, 실제 가사 기반의 노래는 생성되지 않는다.
  • 지연 시간
    2초 단위 청크 구조로 인해 프롬프트 반영까지 약간의 지연이 있다.
  • 긴 맥락 유지의 어려움
    10초 이상의 오디오 컨텍스트는 인식하지 못하므로, 구조적인 음악 구성에는 한계가 있다.

그러나 앞으로의 계획은 명확하다. 사용자 개인 모델 파인튜닝, 로컬 실행 지원, 지연 시간 개선, 더 폭넓은 스타일 지원 등을 목표로 하고 있으며, 이는 음악 AI 기술의 대중화를 한 단계 더 끌어올릴 수 있을 것으로 보인다.

728x90

새로운 음악 창작의 패러다임 전환

Magenta RealTime은 단순한 기술 데모가 아니다. 창작자가 AI와 실시간으로 상호작용하며 음악을 만든다는 새로운 방식의 시작이다. ‘창작’과 ‘연주’의 경계를 허물고, 음악 제작의 접근성을 획기적으로 높이는 도구로 자리매김할 수 있다.

실시간 AI 음악 모델은 창작자에게 더 많은 부담을 줄 수 있지만, 그만큼 창작의 몰입감과 즐거움도 크다. 그리고 그 중심에는 Magenta RT와 같은 기술이 있다. 음악을 듣는 시대에서 음악을 함께 ‘만드는’ 시대로의 전환. 그 출발점에 서 있다면, 지금이 바로 Magenta RealTime을 경험해볼 때다.

https://magenta.tensorflow.org/magenta-realtime

 

Magenta RealTime: An Open-Weights Live Music Model

Magenta RealTimeToday, we’re happy to share a research preview of Magenta RealTime (Magenta RT), an open-weights live music model that allows you to interact...

magenta.tensorflow.org

728x90
반응형