
이 글은 기존 벡터 기반 RAG(Retrieval-Augmented Generation)가 가진 한계를 짚고, 이를 해결하기 위해 등장한 Vectorless, Reasoning-based RAG 시스템 ‘PageIndex’의 개념과 배경, 핵심 특징, 그리고 실제 활용 방법까지 정리한 기술 블로그입니다. 특히 긴 전문 문서에서 왜 ‘유사도’가 아닌 ‘추론 기반 검색’이 중요한지, PageIndex가 이를 어떻게 해결하는지를 중심으로 설명합니다.
기존 벡터 기반 RAG의 한계
많은 RAG 시스템은 벡터 데이터베이스를 활용해 문서를 임의의 청크로 나눈 뒤, 질문과의 의미적 유사도를 기준으로 검색합니다. 하지만 실제 업무 환경, 특히 금융·법률·기술 문서처럼 전문성과 다단계 추론이 필요한 문서에서는 다음과 같은 문제가 반복됩니다.
- 유사하지만 실제로는 핵심이 아닌 문단이 검색됨
- 문서 구조와 맥락이 무시된 채 단편적인 답변 생성
- 왜 해당 문단이 선택됐는지 설명하기 어려움
즉, Similarity는 Relevance를 보장하지 않습니다. 전문 문서 검색에서 진짜 필요한 것은 ‘추론을 통한 관련성 판단’입니다.
PageIndex란 무엇인가
PageIndex는 이러한 문제의식에서 출발한 Vectorless, Reasoning-based RAG 시스템입니다. 긴 문서를 벡터로 변환하거나 인위적으로 쪼개지 않고, 문서의 구조 자체를 활용해 LLM이 사람처럼 문서를 탐색하고 추론하도록 설계되었습니다.
이 접근 방식은 알파고의 트리 탐색 개념에서 영감을 받아, 문서를 계층적 트리 구조로 변환하고 LLM이 해당 트리를 따라가며 가장 적절한 위치를 찾아내는 방식입니다.
핵심 아이디어는 단순합니다.
“사람이 목차를 보며 문서를 읽는 방식 그대로, LLM이 문서를 이해하게 하자.”
Reasoning-based RAG의 작동 방식
PageIndex의 검색은 크게 두 단계로 이뤄집니다.
1. 문서 트리 구조 생성
긴 PDF 문서를 분석해 목차와 유사한 계층적 트리 구조(PageIndex Tree)를 생성합니다. 각 노드는 다음 정보를 포함합니다.
- 섹션 제목
- 페이지 범위
- 요약 정보
- 하위 섹션 노드
이 구조는 LLM이 한 번에 모든 문서를 읽지 않고도, 전체 맥락을 이해할 수 있도록 돕습니다.
2. 트리 기반 추론 검색
질문이 들어오면 LLM은 벡터 유사도 검색 대신, 트리 구조를 따라가며 단계적으로 추론합니다.
- 어떤 챕터가 관련 있는지 판단
- 그 안에서 어떤 하위 섹션이 핵심인지 탐색
- 최종적으로 가장 관련성 높은 페이지와 섹션을 선택
이 과정은 사람이 전문 문서를 분석하는 방식과 매우 유사합니다.
PageIndex의 핵심 특징
기존 벡터 기반 RAG와 비교했을 때 PageIndex가 가지는 차별점은 다음과 같습니다.
No Vector DB
벡터 데이터베이스를 사용하지 않습니다. 의미 유사도 대신 문서 구조와 LLM의 추론 능력을 활용합니다.
No Chunking
문서를 임의 길이로 쪼개지 않습니다. 실제 문서의 자연스러운 섹션 단위로 관리됩니다.
Human-like Retrieval
사람이 목차를 보고 문서를 탐색하듯, LLM이 트리를 따라 이동하며 정보를 찾습니다.
높은 설명 가능성과 추적성
검색 결과는 “왜 이 섹션이 선택됐는지”를 페이지와 섹션 단위로 명확히 설명할 수 있습니다. 불투명한 벡터 검색 결과와는 다릅니다.
검증된 성능
PageIndex 기반 시스템은 FinanceBench에서 98.7% 정확도를 기록하며, 전문 문서 QA 영역에서 벡터 기반 RAG를 크게 상회하는 성능을 보였습니다.
대규모 문서 환경에서도 확장 가능한 구조
PageIndex는 단일 문서가 아니라 수백만 개 문서까지 확장 가능한 파일 시스템 기반 트리 레이어를 제공합니다. 이를 통해 다음과 같은 시나리오에 적합합니다.
- 금융 리포트 및 공시 문서
- 규제 및 정책 문서
- 법률 문서
- 기술 매뉴얼 및 교재
- LLM 컨텍스트 길이를 초과하는 초대형 문서
PageIndex 활용 및 배포 방식
PageIndex는 다양한 형태로 활용할 수 있습니다.
제공 형태
- ChatGPT 스타일의 문서 분석 채팅 플랫폼
- MCP 및 API를 통한 시스템 연동
- 오픈소스 기반 셀프 호스팅
배포 옵션
- Self-host: 로컬 환경에서 PDF 파싱 기반 실행
- Cloud Service: 고급 OCR 및 트리 빌딩 파이프라인 제공
- Enterprise: 프라이빗 또는 온프레미스 배포
PageIndex는 “문서를 얼마나 잘 벡터화했는가”가 아니라, **“문서를 얼마나 잘 이해하고 추론하는가”**에 초점을 맞춘 RAG 시스템입니다.
긴 전문 문서에서 벡터 기반 검색의 한계를 경험했다면, PageIndex는 매우 현실적인 대안이 될 수 있습니다. 특히 설명 가능성, 정확성, 그리고 사람과 유사한 문서 탐색 방식은 향후 RAG 시스템의 중요한 방향성을 보여줍니다.
앞으로 전문 문서 분석과 엔터프라이즈 AI 환경에서는, 유사도 검색을 넘어 추론 중심 검색이 표준이 될 가능성이 높습니다. PageIndex는 그 변화를 가장 선명하게 보여주는 사례 중 하나입니다.
https://github.com/VectifyAI/PageIndex
GitHub - VectifyAI/PageIndex: 📑 PageIndex: Document Index for Vectorless, Reasoning-based RAG
📑 PageIndex: Document Index for Vectorless, Reasoning-based RAG - VectifyAI/PageIndex
github.com

'인공지능' 카테고리의 다른 글
| 에이전트형 AI 시대, RAG 한계를 넘는 새로운 지식 레이어의 등장 (0) | 2026.05.06 |
|---|---|
| Unsloth API 엔드포인트로 로컬 LLM을 도구처럼 사용하는 방법 정리 (0) | 2026.05.06 |
| GenericAgent 기술 개념과 구조 정리: 최소 코드로 스스로 진화하는 자율 에이전트 프레임워크 (0) | 2026.05.04 |
| AI 코딩 에이전트 컨텍스트 윈도우를 98% 절약하는 MCP 서버의 개념과 특징 정리 (0) | 2026.05.04 |
| Codex CLI 0.128.0 업데이트: 목표 기반 자동 반복 실행 /goal 기능 정리 (0) | 2026.05.04 |