위키데이터가 벡터 데이터베이스를 도입한 이유는?
검색 결과에 뜨는 '지식 카드', 알고리즘이 추천하는 콘텐츠, AI가 제공하는 정보… 이 모든 것의 바탕에는 데이터의 '연결'이 있습니다. 그런데 이 연결이 단순한 텍스트나 키워드 기반이라면, 과연 얼마나 정확할까요?
위키미디어 재단은 이런 고민에 대한 해답으로 ‘벡터 데이터베이스’를 꺼내 들었습니다. 기존 지식 그래프와 그래프 데이터베이스 위에 벡터 기술을 결합하면서, 더 정밀하고 신뢰할 수 있는 AI 검색 환경을 만들고자 하는 것이죠. 이 블로그에서는 위키데이터가 벡터 데이터베이스를 어떻게 도입했는지, 그 배경과 기술적 구조, 기대 효과까지 상세히 소개합니다.
1. 지식 그래프와 그래프 데이터베이스: 위키데이터의 기반
위키데이터란?
위키데이터는 위키미디어 재단이 운영하는 오픈 지식 기반(Knowledge Base)입니다. 전 세계의 다양한 개체(예: 오바마, 독일, 지구 등)와 이들 사이의 관계를 '항목'과 '속성' 형태로 연결한 지식 그래프 구조를 가지고 있습니다.
예를 들어:
- 항목: 버락 오바마
- 속성: 대통령
- 연결: 미국 (그는 미국의 대통령이었다는 의미)
이러한 구조는 정보 간의 명확한 관계를 정의해주며, 다국어 환경에서도 공통된 의미를 유지할 수 있도록 도와줍니다.
그래프 데이터베이스의 역할
위키데이터의 실제 데이터는 관계형 데이터베이스(MariaDB)에 저장되고, 이를 바탕으로 Blazegraph라는 그래프 데이터베이스를 통해 지식 그래프 형태로 재구성됩니다. Blazegraph는 의미 기반(Semantic) 그래프 접근 방식을 지원해, 관계를 명시적으로 저장하고 검색할 수 있습니다.
2. 벡터 데이터베이스 도입의 배경과 필요성
기존 검색 방식의 한계
기존의 키워드 검색은 문맥이나 개념 간의 연관성을 파악하는 데 한계가 있습니다. 특히 수백만 개의 항목이 존재하는 위키데이터 같은 방대한 데이터셋에서는 속도와 정확성을 동시에 확보하기 어렵습니다.
SPARQL의 진입 장벽
지식 그래프를 검색할 수 있는 쿼리 언어인 SPARQL은 강력하지만 배우기 어렵고 직관적이지 않다는 단점이 있습니다. 이를 대체하거나 보완할 수 있는 사용자 친화적 방법이 필요했습니다.
3. 벡터 데이터베이스의 역할과 작동 방식
벡터 검색이란?
벡터 데이터베이스는 자연어 문장을 수치화된 벡터로 변환하여 유사도 기반 검색을 수행합니다. 이를 통해 동일한 개념이라도 표현이 달라질 수 있는 다양한 문장들을 이해하고 관련성을 판단할 수 있습니다.
예시:
- "버락 오바마는 미국 대통령이었다"
- "미국의 전 대통령인 오바마"
두 문장은 단어가 다르지만 의미는 유사합니다. 벡터 검색은 이러한 유사성을 정확하게 인식할 수 있습니다.
위키데이터에서의 활용
위키데이터는 벡터 임베딩 생성을 위해 Jina AI의 오픈소스 모델을 활용 중입니다. 항목별로 연결된 정보를 텍스트로 통합하고, 이를 벡터화하여 검색 성능을 향상시키는 방향으로 진행하고 있습니다.
또한, SPARQL과 벡터 검색을 병행함으로써 전문가와 일반 사용자 모두를 위한 검색 환경을 제공하는 것이 목표입니다.
4. 오픈소스 생태계와 협업
Blazegraph 이후의 선택
Blazegraph는 아마존에 개발팀이 인수된 이후 업데이트가 중단된 상태입니다. 이에 따라 위키미디어는 지속 가능한 그래프 백엔드 솔루션을 모색하고 있으며, 오픈소스 중심의 대안과 협력 모델을 적극적으로 검토 중입니다.
Datastax와의 협업
Datastax는 위키미디어 팀에게 벡터 데이터베이스 엔진 지원을 제안하며, 검색 성능 개선을 위한 다양한 실험을 함께 진행하고 있습니다. 이는 오픈 생태계를 기반으로 한 기술 협력의 좋은 예시입니다.
5. 생성형 AI 시대, 신뢰받는 데이터의 중요성
데이터 생성은 사람의 몫
위키데이터는 생성형 AI가 지식 그래프 데이터를 직접 생성하는 것을 지양하고 있습니다. 이유는 간단합니다. 잘못된 데이터가 누적되면 AI 모델의 신뢰도 전체가 무너질 수 있기 때문이죠.
따라서, AI는 '탐색'과 '검색'을 지원하는 도구로서만 활용되고, 지식의 생성은 인간 커뮤니티가 직접 맡고 있습니다. 이는 ‘데이터 신뢰성’을 유지하려는 위키미디어의 철학이기도 합니다.
학습 데이터로서의 가치
정확하게 구성된 지식 그래프는 향후 생성형 AI 학습용 데이터로 활용될 수 있습니다. 위키데이터는 이를 위해 다국어 지원 확대, 항목별 정보 결합 등 다양한 방안을 실험하고 있습니다.
위키데이터 + 벡터 = 더 똑똑한 검색, 더 신뢰할 수 있는 AI
위키데이터는 단순한 데이터 저장소가 아니라, 신뢰 가능한 지식을 만들고 연결하는 플랫폼입니다. 여기에 벡터 데이터베이스가 결합되면서, 검색 정확도는 물론 사용자 접근성까지 크게 향상될 전망입니다.
- 기대되는 점
- 자연어 기반의 직관적 검색 가능
- 다국어 지원 및 접근성 향상
- 생성형 AI 개발을 위한 신뢰성 있는 데이터 기반 확보
AI가 더 똑똑해질수록, 그 기반이 되는 '데이터의 품질'은 더욱 중요해집니다. 위키데이터의 이번 변화는 단순한 기술 업데이트가 아니라, 더 신뢰받는 AI 시대를 향한 중요한 한 걸음이라 할 수 있습니다.
Wikidata adds AI vectors to graph and knowledge bases. Here's why
Wikidata has built the semantic web backbone supporting knowledge cards in popular engines. Now, it's extending this foundation using a vector database to enhance its existing knowledge graph and graph database for AI use cases.
diginomica.com
'인공지능' 카테고리의 다른 글
AI 시대, '모던 데이터 스택'이 다시 주목받는 이유 (0) | 2025.04.07 |
---|---|
"텍스트만으론 부족해"…GPT가 이미지를 직접 그리게 된 비결, ‘트랜스퓨전’ 기술 완전 정리 (0) | 2025.04.07 |
“MCP 서버, 그냥 설치하지 마세요” – 생성형 AI 시대, 개인과 기업을 위한 MCP 보안 가이드 (0) | 2025.04.07 |
AI와 도구를 연결하는 새로운 표준, MCP란 무엇인가? – OpenAI도 채택한 ‘핫’한 기술의 모든 것 (0) | 2025.04.07 |
AI에 USB-C가 생긴다면? LangChain과 함께하는 Model Context Protocol(MCP) 활용법 (0) | 2025.04.07 |