본문 바로가기

HIBIKI

(1)

실시간 스트리밍 음성 번역 모델 'Hibiki' – 기술과 특징 정리 기존의 오프라인 번역 기술과 달리, Hibiki는 사용자의 음성을 실시간으로 번역된 음성으로 변환하는 모델입니다. 단순한 텍스트 번역이 아닌, 원본 음성의 스타일을 유지하면서 자연스럽게 변환하는 것이 특징입니다.특히, Decoder-only 모델 아키텍처를 기반으로 하며, Moshi의 멀티스트림(multistream) 기술을 활용하여 원본 및 번역 음성을 동시에 처리할 수 있습니다. 현재 프랑스어 → 영어(FR → EN) 번역만 지원하지만, 경량 모델인 Hibiki-M은 스마트폰에서도 실행 가능하여 활용성이 높습니다.2. Hibiki의 주요 기술 및 아키텍처① Decoder-only 모델 기반 실시간 음성 번역Hibiki는 Decoder-only 구조로 설계되어 실시간 음성 번역을 가능하게 합니다. 일반..

이전 1 다음

티스토리툴바