
이 글에서는 2026년 6월 2일 공개된 MAI-Transcribe-1.5에 대해 정리합니다.
MAI-Transcribe-1.5는 43개 언어를 지원하는 멀티링구얼 음성-텍스트 변환(STT) 모델로, 정확도와 처리 속도 모두에서 업계 최고 수준의 성능을 목표로 설계되었습니다. 이 글에서는 모델의 배경, 핵심 기능, 정확도와 속도 지표, 키워드 바이어싱 기능, 실제 활용 가치, 그리고 향후 로드맵까지 단계적으로 살펴봅니다.
MAI-Transcribe-1.5란 무엇인가
MAI-Transcribe-1.5는 다국어 음성 데이터를 텍스트로 변환하는 최신 STT 모델입니다.
가장 큰 특징은 언어 수를 대폭 확장하면서도 정확도를 희생하지 않았다는 점입니다. 기존 25개 언어에서 43개 언어로 확장되었으며, 표준 멀티링구얼 벤치마크인 FLEURS에서 전 언어 기준 최고 수준의 Word Error Rate(WER)를 달성했습니다.
이 모델은 Copilot, Teams, GitHub, Dynamics 365 Contact Centre에 통합되고 있으며, Foundry 환경에서는 초고속·고효율·저비용 전사 모델로 제공됩니다.
핵심 기능과 특장점
1. 업계 최고 수준의 정확도
MAI-Transcribe-1.5는 FLEURS 멀티링구얼 전사 벤치마크에서 43개 언어 전체에 대해 최고 수준의 WER를 기록했습니다.
또한 Artificial Analysis 공개 리더보드에서 WER 2.4%로 3위를 차지하며 경쟁이 치열한 환경에서도 성능을 입증했습니다.
이는 단순히 특정 언어에 특화된 결과가 아니라, 다양한 언어와 발화 환경 전반에서 일관된 정확도를 유지한다는 점에서 의미가 큽니다.
2. 정확도 × 속도 최상위 성능
MAI-Transcribe-1.5는 정확도뿐 아니라 처리 속도에서도 강점을 보입니다.
- 1시간 분량의 오디오를 15초 이내에 전사
- 긴 오디오 기준으로 Gemini 3.1, Scribe v2, GPT-4o-Transcribe 대비 최대 5배 빠른 처리 속도
- Artificial Analysis 리더보드 기준 Accuracy × Speed 부문 선도 모델
이 성능은 회의 녹취, 콜센터 기록, 대규모 미디어 아카이빙처럼 대용량 오디오를 다루는 환경에서 특히 큰 차이를 만듭니다.
3. 키워드 바이어싱(Keyword Biasing)
음성 인식 모델의 가장 큰 난관 중 하나는 도메인 특화 용어 인식 실패입니다.
사람 이름, 제품명, 의료 용어, 내부 약어처럼 실제 업무에서 중요한 단어들이 정확히 인식되지 않으면 결과의 신뢰도가 급격히 떨어집니다.
MAI-Transcribe-1.5는 이를 해결하기 위해 키워드 바이어싱 기능을 제공합니다.
- 사용자가 도메인 특화 키워드 목록을 사전에 전달
- 모델이 무조건 단어를 강제로 매칭하지 않고, 문맥에 따라 자연스럽게 반영
- FLEURS 기준 WER 최대 30% 감소
간단한 예시
키워드 바이어싱 미적용 시, 발음이 유사한 고유명사가 잘못 인식됩니다.
키워드 바이어싱을 적용하면, 사전에 전달한 이름과 용어가 정확히 반영되어 실제 업무에 바로 사용할 수 있는 전사 결과를 얻을 수 있습니다.
4. 실제 환경을 고려한 설계
MAI-Transcribe-1.5는 실험실 환경이 아닌 현실적인 사용 시나리오를 기준으로 최적화되었습니다.
- 소음이 있는 배경에서도 안정적인 전사
- 다양한 억양과 발화 속도 대응
- 장시간 음성 파일 처리에 최적화
이로 인해 회의실, 콜센터, 현장 녹음 등 실제 비즈니스 환경에서 바로 활용할 수 있습니다.
정확도와 언어 확장의 의미
이번 버전에서는 18개 언어를 새롭게 추가하면서도 정확도를 유지했습니다.
다국어 모델에서 언어 수 확장은 보통 정확도 저하로 이어지지만, MAI-Transcribe-1.5는 FLEURS 기준 최고 성능을 유지하며 이 문제를 해결했습니다.
이는 글로벌 서비스를 운영하는 기업에게 중요한 의미를 가집니다.
단일 모델로 여러 언어를 처리하면서도 품질 관리 부담을 줄일 수 있기 때문입니다.
앞으로의 발전 방향
MAI-Transcribe-1.5는 여기서 멈추지 않습니다. 다음과 같은 기능이 예고되어 있습니다.
- Diarization: 다중 화자 음성에서 “누가 무엇을 말했는지” 식별
- 실시간 스트리밍 API: 배치 처리 중심 구조에서 벗어나 실시간 전사 지원
- 언어 지원 확대: 신규 언어도 기존 43개 언어와 동일한 정확도 수준으로 제공
이는 회의 자동 기록, 인터뷰 분석, 실시간 음성 에이전트 등 활용 범위를 더욱 넓혀줄 요소입니다.
MAI-Transcribe-1.5는 단순한 성능 개선 모델이 아닙니다.
다국어 환경에서 정확도, 속도, 실무 활용성을 동시에 끌어올린 STT 모델이라는 점에서 의미가 큽니다.
- 43개 언어 최고 수준 정확도
- 대용량 오디오를 처리하는 압도적인 속도
- 키워드 바이어싱을 통한 실무 중심 설계
- 엔터프라이즈 제품군과의 즉시 통합 가능성
앞으로 실시간 전사와 화자 분리 기능까지 더해진다면, 음성 데이터를 다루는 방식 자체가 한 단계 더 진화할 것으로 기대됩니다.
Introducing MAI-Transcribe-1.5 | Microsoft AI
We’re a lean, fast-moving lab made up of some of the world’s most talented minds. We have an exciting roadmap of compute at MAI, with our next-generation GB200 cluster now operational. And we have an ambitious mission we truly believe in. We’re also
microsoft.ai

'인공지능' 카테고리의 다른 글
| Claude Code의 다이내믹 워크플로우: 대규모 코드 작업을 며칠 만에 끝내는 새로운 방식 (0) | 2026.06.04 |
|---|---|
| Gemma 4 12B 소개: 노트북에서 실행 가능한 통합 멀티모달 AI 모델 (0) | 2026.06.04 |
| MAI-Image-2.5 이미지 생성·편집 모델 핵심 정리와 활용 가치 (0) | 2026.06.03 |
| MAI-Code-1-Flash 소개: 개발자 워크플로우를 위한 마이크로소프트의 새로운 코딩 모델 (0) | 2026.06.03 |
| MAI-Thinking-1: 엔터프라이즈를 위한 Microsoft의 차세대 추론 AI 모델 정리 (0) | 2026.06.03 |