
복잡한 소리 속에서 원하는 소리만 깔끔하게 분리하는 작업은 오디오 편집에서 가장 까다로운 영역 중 하나입니다. 메타(Meta)는 이미지와 영상에서 객체를 분리해 혁신을 일으켰던 **SAM(Segment Anything Model)**의 개념을 소리 영역으로 확장하며, 새로운 AI 모델 **‘SAM 오디오(SAM Audio)’**를 공개했습니다.
이 글에서는 SAM 오디오의 등장 배경부터 핵심 기술 구조, 주요 기능과 성능, 그리고 함께 공개된 평가 도구까지 한눈에 이해할 수 있도록 정리합니다.
SAM 오디오 등장 배경: ‘무엇이든 분리’에서 ‘어떤 소리든 분리’로
메타의 SAM은 이미지나 영상에서 특정 객체를 손쉽게 분리할 수 있는 기술로 큰 주목을 받았습니다.
SAM 오디오는 이 철학을 그대로 가져와 복잡한 오디오 환경에서도 사용자가 원하는 소리만 직관적으로 분리하는 것을 목표로 합니다.
기존 오디오 분리 기술은
- 음성 전용 모델
- 음악 전용 모델
- 악기별 전용 모델
처럼 용도마다 모델을 따로 만들어야 하는 한계가 있었습니다. SAM 오디오는 이러한 문제를 해결하기 위해 하나의 통합 모델로 다양한 분리 작업을 수행하도록 설계됐습니다.
SAM 오디오의 핵심 특징: 세 가지 프롬프트 방식
SAM 오디오는 사용자가 원하는 소리를 지정하는 방식을 크게 세 가지로 제공합니다.
1. 텍스트 프롬프트
- “개 짖는 소리”
- “노래하는 목소리”
처럼 자연어로 소리를 설명하면 해당 소리만 분리할 수 있습니다.
2. 시각 프롬프트
영상 속 인물, 악기 등 객체를 클릭하면
그 객체와 연결된 소리만 정확히 추출합니다.
3. 시간 구간(스팬) 프롬프트
오디오나 영상에서 특정 시간대만 지정해
그 구간의 소리를 분리할 수 있습니다.
이 세 가지 방식은 단일 모델에서 동시에 지원되며, 사용자는 상황에 맞는 가장 직관적인 방법을 선택하면 됩니다.
기술 구조: 멀티모달 입력을 결합한 통합 아키텍처
SAM 오디오는 여러 입력 정보를 동시에 처리하는 구조를 갖고 있습니다.
- 오디오 인코더: 원본 오디오 분석
- 텍스트 인코더: 자연어 설명 이해
- 스팬 인코더: 시간 정보 처리
- 비주얼 인코더: 영상 프레임과 객체 마스크 분석
이 정보들은 시간 축 기준으로 정렬된 후,
**확산 트랜스포머(diffusion transformer)**를 거쳐 최종 결과로 출력됩니다.
출력 결과는 두 가지
- 타깃 오디오: 사용자가 분리하고자 한 소리
- 잔여 오디오: 나머지 모든 소리
이 구조 덕분에
- 특정 소음 제거
- 특정 악기나 목소리 강조
와 같은 실제 편집 작업에 바로 활용할 수 있습니다.
PE-AV 모델 기반: 보이는 것과 들리는 것을 함께 이해
SAM 오디오는 메타가 공개한 PE-AV(Perception Encoder Audiovisual) 모델을 기반으로 합니다.
PE-AV는 영상 프레임과 오디오를 시간 단위로 정밀하게 정렬해, 화면 속 객체와 소리를 함께 이해하도록 설계됐습니다.
- 화면 속 인물 ↔ 해당 인물의 목소리
- 연주 장면 ↔ 특정 악기의 소리
이러한 연결을 정확히 학습하기 위해
1억 개 이상의 영상 데이터가 활용됐으며,
PE-AV 모델은 오픈 소스로 공개돼 있습니다.
성능 평가 결과: 기존 최고 수준과 동등 또는 그 이상
메타의 자체 평가에 따르면 SAM 오디오는
- 일반 소리
- 음성
- 음악
- 악기 분리
등 다양한 영역에서 기존 최고 수준 모델과 맞먹거나 이를 뛰어넘는 성능을 기록했습니다.
특히 SAM 오디오 Large 모델은
전문 악기 분리 분야에서 높은 점수를 받았으며,
처리 속도 또한 실시간보다 빠른 수준으로 평가돼
대규모 편집 작업에도 활용 가능함을 보여줍니다.
한계점도 명확히 공개
SAM 오디오는 아직 다음과 같은 한계도 가지고 있습니다.
- 소리를 프롬프트로 사용하는 방식은 지원하지 않음
- 조건 없는 완전 자동 분리는 불가
- 합창단에서 특정 한 명의 목소리만 분리하는 등
유사한 소리 간 구분은 여전히 어려운 과제
메타는 이러한 한계를 명확히 밝히며, 향후 개선 가능성을 시사했습니다.
함께 공개된 평가 도구: SAM 오디오-벤치 & 저지
SAM 오디오-벤치
- 음성, 음악, 일반 효과음을 모두 포함한 종합 오디오 분리 벤치마크
- 텍스트·시각·스팬 프롬프트 모두 지원
- 실제 영상과 음성을 기반으로 구성돼 현실성이 높음
- 참조 음원 없이도 평가 가능
SAM 오디오 저지(Judge)
- 사람이 직접 듣고 판단하는 방식을 모방한 자동 평가 모델
- 정확도, 재현율, 충실도, 전반적 품질 등
9가지 지각적 기준으로 평가 - 참조 음원 없이도 분리 품질을 객관적으로 판단 가능
오디오 편집의 패러다임을 바꾸는 시도
SAM 오디오는
**“모델 하나로 어떤 소리든 직관적으로 분리한다”**는 목표를 분명히 보여줍니다.
텍스트, 시각, 시간 정보를 결합한 멀티모달 접근 방식은
실제 편집 환경과 높은 궁합을 보이며,
기존 오디오 분리 작업의 복잡함을 크게 낮출 가능성을 제시합니다.
아직 해결해야 할 과제는 남아 있지만,
SAM 오디오와 함께 공개된 벤치마크와 평가 모델은
향후 오디오 AI 기술의 기준점이 될 것으로 기대됩니다.
오디오 편집과 AI 기술의 다음 단계가 궁금하다면,
SAM 오디오는 반드시 주목할 만한 기술입니다.
GitHub - facebookresearch/sam-audio: The repository provides code for running inference with the Meta Segment Anything Audio Mod
The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how t...
github.com

'인공지능' 카테고리의 다른 글
| 엔비디아 범용 게임 에이전트 ‘나이트로젠(NitroGen)’ 공개 - 게임을 넘어 로봇 공학까지 확장되는 체화 AI의 가능성 (0) | 2025.12.23 |
|---|---|
| 프롬프트 캐싱(Prompt Caching)이란 무엇인가? - LLM 응답 속도는 빨라지고 비용은 10배 줄어드는 이유 (0) | 2025.12.23 |
| 2025년 AI 엔지니어링 트렌드 총정리: 에이전트, MCP, 그리고 바이브 코딩의 등장 (0) | 2025.12.23 |
| MiniMax M2.1 공개: 루빅스 큐 시뮬레이터까지 구현한 실전형 오픈소스 AI 코딩 모델 (0) | 2025.12.23 |
| GLM-4.7 코딩 성능과 에이전트 활용을 한 단계 끌어올린 최신 대규모 언어 모델 (0) | 2025.12.23 |