Multi-Vector Retrieval 검색 정확도와 속도를 동시에? MUVERA가 만든 현실적인 해답
검색 성능이냐 속도냐, 그것이 문제였다
정확한 정보 검색을 위해서는 더 많은 계산과 정교한 알고리즘이 필요합니다. 하지만 문제는 여기에 있습니다. 아무리 정확한 알고리즘이라도 연산량이 많아지면, 실시간 처리는커녕 시스템이 버티지 못합니다.
요즘 각광받는 멀티 벡터 검색 방식은 의미를 풍부하게 담을 수 있어 검색 정확도를 끌어올릴 수 있습니다. ColBERT와 같은 대표적인 멀티 벡터 모델은 토큰마다 여러 개의 벡터를 사용해 문맥을 더 잘 이해합니다. 하지만 연산량이 너무 커져 대규모 서비스에는 적용이 어렵다는 한계가 있습니다.
이 고민을 해결하기 위해 구글 리서치팀이 제안한 솔루션이 바로 MUVERA입니다. 복잡한 멀티 벡터 정보를 하나의 고정된 벡터로 압축하고, 이를 단일 벡터처럼 검색하는 혁신적인 접근 방식입니다. 성능과 속도를 모두 챙긴 MUVERA는 어떤 기술일까요?
멀티 벡터 검색: 정확하지만 느린 방식
기존의 검색 방식은 하나의 벡터로 전체 문서를 표현합니다. 빠르게 결과를 찾을 수 있지만, 문맥이나 복잡한 의미 관계를 정확히 반영하기 어렵습니다. 반면, 멀티 벡터 모델은 문서나 쿼리를 여러 개의 벡터 집합으로 나눠 표현합니다. 토큰 단위로 의미를 벡터화하기 때문에, 단일 벡터보다 훨씬 정교한 검색 결과를 제공할 수 있습니다.
문제는 속도입니다. 멀티 벡터는 토큰 수만큼 벡터가 늘어나고, 벡터 간 유사도를 계산하는 방식도 복잡합니다. Chamfer similarity 같은 연산은 정확하지만 매우 무겁고, GPU 사용량과 메모리 요구도 커지게 됩니다. 대규모 실시간 검색 시스템에서는 이런 방식이 비현실적일 수밖에 없습니다.
MUVERA: 고속성과 정확성을 동시에 갖춘 멀티 벡터 검색
MUVERA는 ‘Multi-Vector Retrieval via Fixed Dimensional Encodings’의 약자입니다. 핵심 아이디어는 간단합니다. 복잡한 멀티 벡터 집합을 고정된 하나의 벡터로 압축하고, 이를 통해 빠른 검색을 수행하는 것입니다. 이렇게 압축한 벡터를 FDE(Fixed Dimensional Encoding)라고 부릅니다.
기존처럼 각 벡터마다 유사도를 계산하지 않아도 되기 때문에, MUVERA는 단일 벡터 기반 검색과 동일한 속도를 유지할 수 있습니다. 동시에, 검색 후보군을 고른 후에는 원래의 정밀한 멀티 벡터 연산을 다시 적용해 정확도도 보장합니다.
MUVERA 작동 방식: 세 단계로 정리
MUVERA의 작동 방식은 다음 세 단계로 요약할 수 있습니다.
- FDE 생성
쿼리나 문서의 멀티 벡터 집합을 하나의 고정 길이 벡터(FDE)로 압축합니다. 이 과정은 데이터와 독립적으로 작동해, 다양한 환경에서도 적용이 가능합니다. - MIPS 기반 고속 검색
모든 문서의 FDE를 MIPS(Maximum Inner Product Search) 인덱스에 저장한 후, 쿼리 FDE를 사용해 빠르게 후보군을 검색합니다. 이 과정은 기존 단일 벡터 검색과 동일한 속도로 처리됩니다. - 정밀 재정렬
후보 문서에 대해서만 원래의 멀티 벡터 연산(예: Chamfer similarity)을 수행합니다. 정확도를 보장하면서도 연산량을 크게 줄일 수 있습니다.
수학적 근거: 왜 이 방식이 가능한가
MUVERA는 확률적 트리 임베딩 등 기하 기반 알고리즘에서 착안한 방식입니다. FDE는 벡터 공간을 무작위로 분할해, 쿼리와 문서 벡터가 동일한 섹션에 위치할 경우 유사도를 근사 계산합니다.
논문에서는 Chamfer similarity 근사 오차 범위 내에서 결과를 제공한다는 수학적 이론과 실험 결과를 제시하고 있어, 이 방식의 신뢰성을 뒷받침합니다.
실제 성능은? MUVERA의 수치적 성과
MUVERA는 다양한 대규모 IR 데이터셋(BEIR 등)에서 다음과 같은 성능 개선을 보여주었습니다.
- 검색 지연(latency) 90% 이상 감소
- 기존 대비 평균 10% 높은 recall
- 동일 recall 기준, 후보 문서 수 5~20배 절감
- 메모리 사용량 32배 감소(Product Quantization 적용 시)
이러한 수치는 단순한 이론적 성과가 아니라, 실제 적용 가능한 기술임을 보여줍니다.
어디에 어떻게 활용할 수 있을까
MUVERA는 다음과 같은 분야에서 특히 효과적으로 활용될 수 있습니다.
- 검색 엔진
대용량 문서를 빠르고 정확하게 검색 가능 - 추천 시스템
사용자 행동을 멀티 벡터로 표현하고, 고속 연산으로 관련 콘텐츠 추천 - 자연어 처리(NLP)
의미 기반 쿼리 응답, 문서 요약, 질문 응답 시스템 등에 적합
MUVERA는 오픈소스 구현체와 논문, 실험 결과가 모두 공개되어 있어 실제 프로젝트에도 쉽게 적용할 수 있습니다.
MUVERA가 열어주는 검색의 새로운 가능성
MUVERA는 ‘속도 vs 정확도’라는 오래된 검색 기술의 딜레마에 현실적인 해법을 제시한 기술입니다. 멀티 벡터의 풍부한 의미 정보를 포기하지 않으면서도, 단일 벡터처럼 빠른 검색을 가능하게 했습니다.
무엇보다도 MUVERA는 지금 당장 실무에 적용할 수 있는 오픈소스 기반 기술이라는 점에서, 연구실에만 머무는 이론이 아닌 실제 산업에서 효과를 볼 수 있는 도구입니다. 검색, 추천, 자연어 처리 등 다양한 분야에서 새로운 가능성을 열어줄 MUVERA의 확장은 앞으로도 기대해볼 만합니다.
https://research.google/blog/muvera-making-multi-vector-retrieval-as-fast-as-single-vector-search/
MUVERA: Making multi-vector retrieval as fast as single-vector search
Neural embedding models have become a cornerstone of modern information retrieval (IR). Given a query from a user (e.g., “How tall is Mt Everest?”), the goal of IR is to find information relevant to the query from a very large collection of data (e.g.,
research.google