본문 바로가기

인공지능

Qwen3-TTS 업데이트: 49가지 음색과 10개 언어, 9개 방언을 아우르는 차세대 음성 합성 기술

반응형
728x170

텍스트를 자연스러운 목소리로 전환하는 TTS 기술은 이미 다양한 서비스에서 핵심 기능으로 자리 잡았습니다. 하지만 실제 서비스에 적용하려고 보면 음색의 다양성 부족, 감정 표현의 어색함, 언어·방언 지원의 한계 등 여러 제약에 부딪히기 마련입니다. 이번에 공개된 Qwen3-TTS는 이러한 문제들을 해결하기 위해 설계된 모델로, 49가지 음색, 10개 언어, 9개 방언을 지원하며 이전보다 훨씬 자연스러운 발화와 억양을 제공합니다. 이 글에서는 Qwen3-TTS의 주요 특징과 개선점, 그리고 실제 사용 방법까지 정리해 쉽게 이해할 수 있도록 안내합니다.

반응형

1. Qwen3-TTS 업데이트 개요

Qwen3-TTS-Flash는 멀티 음색, 멀티 언어, 멀티 방언을 지원하는 플래그십 TTS 모델입니다. 이번 업데이트의 핵심은 음색 범위 확장, 다국어 능력 향상, 발화 품질 개선입니다. 이 모델은 텍스트의 흐름에 따라 자연스럽게 속도와 억양을 조절하며 사람과 매우 유사한 음성 패턴을 생성합니다. 또한 Qwen API를 통해 쉽게 사용할 수 있어 개발자와 창작자 모두에게 즉시 활용 가능한 환경을 제공합니다.


2. 49가지 음색의 확장성과 활용 가능성

이번 버전에서 가장 눈에 띄는 부분은 49개의 고품질 음색을 제공한다는 점입니다. 여기에는 다양한 성별, 연령대, 지역적 특성, 캐릭터 역할이 포함됩니다. 예를 들어, 장난스럽고 활발한 Momo, 따뜻한 분위기의 Ono Anna, 직설적이고 당찬 스타일의 Vivian, 엄격한 강사 Elias, 연륜 있는 Eldric Sage, 귀여운 캐릭터 음색 Bunny 등이 있습니다.

이러한 다양성은 단순한 목소리 선택을 넘어 서비스에 맞는 분위기를 조성하는 데 큰 도움을 줍니다. 교육 영상, 게임 캐릭터, 내레이션, 감정 기반 음성 콘텐츠 등 다양한 환경에서 자연스럽게 활용할 수 있는 폭이 넓습니다.


3. 10개 언어 및 9개 방언 지원

Qwen3-TTS는 중국어, 영어, 독일어, 이탈리아어, 포르투갈어, 스페인어, 일본어, 한국어, 프랑스어, 러시아어 등 총 10개 주요 언어를 지원합니다. 또한 중국어 기반의 다양한 방언, 즉 만다린, 호키엔, 우, 광둥어, 쓰촨 방언, 베이징, 난징, 톈진, 산시 방언을 자연스럽게 합성할 수 있습니다.

모델은 MiniMax TTS 테스트 세트에서 MiniMax, ElevenLabs, GPT-4o-Audio-Preview보다 더 낮은 평균 WER을 기록하여 다국어 정확성이 개선되었음을 보여줍니다. 특히 방언 영역에서 지역 억양과 특유의 언어적 뉘앙스를 재현하는 점이 돋보입니다. 지역적 표현이 중요한 스토리텔링 콘텐츠나 현지화 서비스에 강점이 있습니다.


4. 더 자연스러워진 속도와 억양 조절

이전 버전과 비교했을 때 Qwen3-TTS는 텍스트에 맞춰 말의 속도와 억양을 자동으로 조절하는 능력이 크게 향상되었습니다. 문장의 구조, 감정, 긴장감에 따라 자연스럽게 말하는 방식이 사람의 발화 방식에 가까워졌습니다. 이는 단순히 음질 향상에 그치지 않고 콘텐츠의 몰입도를 높이는 데 중요한 요소입니다.


5. 샘플 음성으로 보는 표현력의 차이

Qwen3-TTS는 제공된 음색 샘플을 통해 모델의 표현력을 직접 확인할 수 있습니다. 예를 들어,

  • Ryan은 유머러스하고 캐주얼한 서술을 자연스럽게 전달하며,
  • Jennifer와 Katerina는 밝고 친근한 느낌의 음색을 표현합니다.
  • Elias는 단정하고 설명적인 스타일로 학술적 문맥에서도 자연스럽습니다.
  • Bunny나 Momo는 캐릭터성이 강해 게임이나 버추얼 캐릭터 콘텐츠에 적합합니다.
  • Nini나 Maia는 감정 전달력을 강조한 대사에서 부드러운 톤 전환을 보여줍니다.

다양한 음색 샘플을 직접 확인해보면 단순히 톤만 다른 것이 아니라 말투·리듬·감정 표현까지 세밀하게 조정된다는 점을 확인할 수 있습니다.


6. Qwen3-TTS API 사용 방법

Qwen API를 통해 Qwen3-TTS를 활용하는 과정은 간단합니다. 아래는 제공된 Python 예제를 재구성해 사용 흐름을 이해하기 쉽게 설명한 것입니다.

간단한 사용 예시

# Please install the latest version of the DashScope SDK.
import os
import requests
import dashscope

text = "Let me recommend a T-shirt to everyone. This one is really super good-looking, and the color is very classy. It’s also a great piece to mix and match with anything, so you can totally buy it without hesitation. It looks amazing and is very forgiving on the figure—no matter what body type you have, it will look great on you. Highly recommend you place an order!"

# Usage of the SpeechSynthesizer Interface: dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
    model="qwen3-tts-flash-2025-11-27",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    text=text,
    voice="Ryan",
    language_type="English", 
    stream=False
)

audio_url = response.output.audio.url
save_path = "downloaded_audio.wav"

try:
    response = requests.get(audio_url)
    response.raise_for_status()
    with open(save_path, 'wb') as f:
        f.write(response.content)
    print(f"The audio file has been saved to: {save_path}")
except Exception as e:
    print(f"Download failed: {str(e)}")

여기서 핵심은 다음과 같습니다.

  • text: 음성으로 변환할 텍스트
  • voice: 사용할 음색 선택
  • language_type: 텍스트와 일치하는 언어 설정
  • stream 옵션을 통해 스트리밍 생성도 가능

생성된 음성은 URL 형태로 전달되며, 다운로드 후 바로 사용할 수 있습니다.


Qwen3-TTS는 음색의 다양성, 다국어·방언 지원, 자연스러운 억양 조절 등 여러 측면에서 전반적인 품질을 크게 향상한 TTS 모델입니다. 특히 49가지 음색을 제공한다는 점은 다양한 콘텐츠 제작 환경에서 강력한 선택지를 제공합니다. 정확한 다국어 합성 능력과 표현력 높은 음색 구성은 글로벌 서비스에도 즉시 적용 가능한 수준이며, API 사용 방식도 단순해 개발 환경에서 바로 활용할 수 있습니다.

앞으로 음성 기반 콘텐츠가 더욱 다양해지는 만큼, Qwen3-TTS와 같은 고품질 음성 합성 기술은 더 많은 서비스에서 핵심 기능으로 자리잡을 가능성이 큽니다. 이번 업데이트는 음성 표현력의 확장이라는 측면에서 의미가 크며, 실제 제작자와 개발자 모두에게 새로운 가능성을 열어주는 기술적 진전이라 할 수 있습니다.

300x250

https://qwen.ai/blog?id=qwen3-tts-1128&fbclid=IwY2xjawOjCv1leHRuA2FlbQIxMABicmlkETFrWDBHMW8zWmhPV3lOdHlFc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHmTm76v5L8lNoaGJQqkbCOfvx186ZECTYbyTr2ZuS3IuKXa0a8C0aPJbUm3v_aem_TvJzIJowNt1_Qfa8qPBo4Q

 

Qwen

 

qwen.ai

728x90
반응형
그리드형