본문 바로가기

인공지능

실시간 스트리밍 음성 번역 모델 'Hibiki' – 기술과 특징 정리

728x90
반응형

기존의 오프라인 번역 기술과 달리, Hibiki는 사용자의 음성을 실시간으로 번역된 음성으로 변환하는 모델입니다. 단순한 텍스트 번역이 아닌, 원본 음성의 스타일을 유지하면서 자연스럽게 변환하는 것이 특징입니다.

특히, Decoder-only 모델 아키텍처를 기반으로 하며, Moshi의 멀티스트림(multistream) 기술을 활용하여 원본 및 번역 음성을 동시에 처리할 수 있습니다. 현재 프랑스어 → 영어(FR → EN) 번역만 지원하지만, 경량 모델인 Hibiki-M은 스마트폰에서도 실행 가능하여 활용성이 높습니다.

반응형

2. Hibiki의 주요 기술 및 아키텍처

① Decoder-only 모델 기반 실시간 음성 번역

Hibiki는 Decoder-only 구조로 설계되어 실시간 음성 번역을 가능하게 합니다. 일반적인 번역 모델과 달리, 입력된 음성을 실시간으로 분석하고, 즉시 번역된 음성을 생성하는 것이 특징입니다.

  • 초당 12.5Hz의 일정한 프레임 속도 유지
  • 타임스탬프 포함된 텍스트 번역 제공
  • 원본 및 번역 음성을 동시에 모델링 가능

즉, 사용자가 말을 하면 동시에 번역된 음성이 자연스럽게 출력되는 형태입니다.

② Moshi 멀티스트림(multistream) 아키텍처 적용

멀티스트림(multistream) 아키텍처를 통해 Hibiki는 원본 음성과 번역된 음성을 동시에 처리할 수 있습니다. 이를 통해 더욱 자연스러운 대화형 번역이 가능해집니다.

③ 원본 스타일 유지 기능

Hibiki는 번역된 음성을 생성할 때, 원본 음성의 스타일(억양, 속도 등)을 유지하려는 특징이 있습니다. 이를 통해 기계적인 음성 대신, 보다 인간적인 자연스러운 번역 음성이 제공됩니다.


3. 학습 방법 - 합성 데이터(Synthetic Data) 활용

실제 원본 및 번역 음성이 정렬된 데이터는 많지 않기 때문에, Hibiki는 **합성 데이터(synthetic data)**를 생성하여 학습을 진행합니다.

  • MADLAD 기계 번역 시스템을 활용하여 원본 및 번역 텍스트를 약한 지도학습 방식으로 정렬
  • 번역이 원본에서 예측 가능해지는 시점에만 단어가 나타나도록 정렬 규칙 적용

💡 학습을 위한 정렬 방법

  1. 침묵 삽입(Silence Insertion): 번역된 음성이 원본 음성 흐름과 자연스럽게 연결되도록 침묵 구간 추가
  2. 정렬을 반영한 음성 합성(Alignment-aware TTS): 원본 및 번역된 음성 간 타이밍을 맞추기 위해 정렬을 반영하여 합성

이를 통해 실제 대화와 비슷한 흐름을 유지하면서도 정확한 번역이 가능하도록 학습됩니다.


4. 실시간 추론(Inference) 방식

Hibiki는 온디바이스(on-device) 실행이 가능한 경량 모델을 제공하면서도, 고품질의 음성 번역을 제공합니다.

온디바이스 실행 가능

  • Hibiki-M(경량 모델)은 스마트폰에서도 실행 가능
  • PyTorch, Rust, MLX(macOS), MLX-Swift(iOS)에서 실행 가능

Classifier-Free Guidance 활용

  • 음성 유사도를 조절하는 Classifier-Free Guidance 계수 조정 가능
  • 계수가 높을수록 원본과 비슷한 음성 생성, 하지만 번역 품질이 저하될 수 있음

온도 샘플링(Temperature Sampling) 방식

  • Hibiki는 복잡한 추론 방식을 배제하고, 온도 샘플링을 적용하여 배치 처리와 호환됨

5. Hibiki 모델 종류

현재 Hibiki는 프랑스어 → 영어(FR → EN) 번역을 지원하는 두 가지 모델을 제공합니다.

모델 특징

Hibiki 2B 더 깊은 Transformer 구조, 스트림당 16 RVQ
Hibiki 1B (Hibiki-M) 경량 버전, 스트림당 8 RVQ, 스마트폰에서도 실행 가능

💡 Hibiki-M은 온디바이스 실행이 가능하여, 모바일 환경에서도 실시간 번역을 사용할 수 있습니다.


6. Hibiki 실행 방법

Hibiki는 다음과 같은 환경에서 실행할 수 있습니다.

  • PyTorch
  • Rust
  • MLX(macOS)
  • MLX-Swift(iOS)

또한, Hibiki의 코드는 kyutai-labs/moshi 저장소에서 확인할 수 있으며, 실제 구현은 Moshi 프로젝트와 거의 동일합니다.


728x90

Hibiki는 기존의 오프라인 번역과 달리, 실시간으로 음성을 번역하고 자연스럽게 전달하는 기술을 제공합니다.

🔹 실시간 음성 번역 가능 – 지연 없이 바로 대화 가능
🔹 멀티스트림 기술로 원본 및 번역 음성을 동시에 모델링
🔹 온디바이스(on-device) 실행 가능 – 스마트폰에서도 사용 가능
🔹 원본 음성 스타일 유지 – 자연스러운 음성 번역 제공

현재는 프랑스어 → 영어(FR → EN) 번역만 지원하지만, 향후 다양한 언어로 확장될 경우 글로벌 커뮤니케이션의 새로운 패러다임을 제시할 가능성이 높습니다.

💡 Hibiki가 상용화되면 어떤 변화가 기대될까요?

  • 국제 회의, 여행, 다국적 협업에서 실시간 번역이 더욱 원활해질 것
  • 실시간 통역 기술이 더욱 발전하여 인공지능 기반 커뮤니케이션이 활성화될 것
  • 경량 모델을 활용하여 스마트폰, 웨어러블 기기에서도 쉽게 사용할 수 있을 것

https://github.com/kyutai-labs/hibiki

 

GitHub - kyutai-labs/hibiki: Hibiki is a model for streaming speech translation (also known as simultaneous translation). Unlike

Hibiki is a model for streaming speech translation (also known as simultaneous translation). Unlike offline translation—where one waits for the end of the source utterance to start translating--- H...

github.com

728x90
반응형