본문 바로가기

인공지능

사람처럼 말하는 AI, 가능할까? - 대화 중심 음성 합성 모델 ‘Dia’를 알아보다

728x90
반응형

 

"AI 음성은 여전히 기계 같아 보여요."
"그럴싸하긴 한데, 감정이 없어요."
음성 합성 기술을 써본 사람이라면 한 번쯤 해봤을 법한 말입니다. 특히 TTS(Text-to-Speech)를 활용해 고객 응대, 콘텐츠 더빙, 내레이션 등에 활용하려던 분들이라면 더 크게 공감하실 겁니다.

그런데 만약, 한 줄 한 줄 따로 생성하는 게 아니라 대화 전체를 한 번에 만들어내는 AI 음성 합성 모델이 있다면 어떨까요?
그리고 그 모델이 웃음, 기침 같은 비언어적 사운드, 감정, 까지 조절할 수 있다면요?

이번 블로그에서는 Nari Labs에서 개발한 오픈소스 대화형 음성 합성 모델, Dia를 소개합니다.
Dia는 단순한 TTS가 아닙니다. 사람처럼 자연스럽게 대화하고, 상황에 맞는 감정을 표현할 수 있는 차세대 TTS 모델입니다.

반응형

🧠 Dia란 무엇인가요?

Dia는 Nari Labs에서 개발한 1.6B 파라미터의 TTS(Text-to-Speech) 모델로, 텍스트 입력을 기반으로 자연스러운 대화형 음성을 생성합니다.
기존 TTS 모델은 문장을 하나씩 읽어주는 방식이라 감정이나 맥락이 부족했지만, Dia는 대화 전체를 한 번에 생성하는 방식으로 더 자연스러운 흐름을 만들어냅니다.

참고로, ‘Nari’는 순우리말로 ‘백합’을 의미합니다. 감성까지 담아낸 이름처럼, Dia도 단순한 기계음을 넘어서려 합니다.


✨ Dia의 주요 기능 정리

Dia가 주목받는 이유는 단순히 대사를 음성으로 바꾸는 기능 때문이 아닙니다. 다음과 같은 핵심 기능이 사용자들에게 강한 인상을 남깁니다.

1. 대화형 음성 생성

한 줄 한 줄 따로 낭독하지 않고, 전체 대화를 한 번에 생성합니다. 대화 맥락이 자연스럽고 연결감이 있어 청취자에게 더 몰입감 있는 경험을 제공합니다.

2. 화자 지정 기능

텍스트 내에서 [S1], [S2] 형태로 화자를 지정할 수 있습니다. 두 명 이상의 인물 대화도 한 번에 처리 가능해, 오디오북이나 드라마 같은 콘텐츠에도 적합합니다.

3. 감정 및 톤 조절

오디오 프롬프트를 통해 감정과 목소리 스타일을 지정할 수 있습니다. 화난 목소리, 기쁜 목소리 등을 입력해 맞춤 음성을 생성할 수 있습니다.

4. 음성 클로닝

예시 오디오와 해당 대사를 함께 입력하면 화자의 음성을 복제할 수 있습니다. 특정 인물의 목소리를 학습시키는 것도 가능합니다. (단, 허가 없는 음성 사용은 금지됨)

5. 비언어적 표현도 삽입 가능

(laughs), (coughs) 등의 텍스트를 그대로 삽입하면, 해당 효과음을 자연스럽게 삽입해줍니다.


💻 어떻게 사용할 수 있을까? (간단한 예제)

Dia는 오픈소스로 제공되며, Hugging Face에서 브라우저 기반 테스트가 가능합니다. 별도 설치 없이도 바로 결과를 확인할 수 있다는 점이 장점입니다.

예시 코드

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate("[S1] Hello. [S2] Hi there! How are you?")  

생성된 오디오는 soundfile 라이브러리로 MP3로 저장할 수 있습니다.

설치 방법 (로컬 실행)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py  

※ uv가 없다면 가상환경을 활성화한 후 설치 필요
※ 실행 시 Descript Audio Codec 자동 다운로드


⚙️ 성능 및 요구 사양

  • 권장 환경:
    • PyTorch 2.0+, CUDA 12.6 이상
    • VRAM: 10GB 이상 (A4000 기준 약 40 토큰/초 생성 속도)
  • 성능 팁:
    • torch.compile 사용 시 속도 개선
    • 음성 일관성을 위해 seed 고정 추천

🚀 앞으로의 계획

Nari Labs는 Dia의 지속적인 개선을 예고하고 있습니다.
향후 주요 계획은 다음과 같습니다:

  • 모델 양자화: VRAM 부담 줄이기 위한 경량화
  • 다국어 지원: 현재는 영어 전용이나, 한국어 포함 다양한 언어 확장 예정
  • Docker 지원 및 CLI 도구 제공
  • 더 많은 화자 수용 및 감정 표현 다양화

728x90

Dia는 단순한 ‘음성 읽기’ 기능에서 한 단계 나아간, 진짜 사람 같은 AI 음성을 지향합니다.
특히, 대화 흐름을 한 번에 생성하고 감정과 음색을 조절할 수 있는 기능은 기존 TTS와 명확히 차별화됩니다.

이 기술이 본격적으로 상용화되면,

  • 오디오북 자동 제작
  • 유튜브 더빙 자동화
  • AI 콜센터 응대
    등의 분야에서 사람의 손을 거의 거치지 않은 고품질 음성 콘텐츠 제작이 가능해집니다.

현재는 영어만 지원되지만, 조만간 한국어 지원까지 확대될 예정이라고 하니 기대해볼 만합니다.

https://github.com/nari-labs/dia

 

GitHub - nari-labs/dia: A TTS model capable of generating ultra-realistic dialogue in one pass.

A TTS model capable of generating ultra-realistic dialogue in one pass. - nari-labs/dia

github.com

728x90
반응형