본문 바로가기

인공지능

[Dify RAG #2] LLM 검색 정확도를 좌우하는 인덱싱 설정 – High-Quality와 Economical, 무엇이 다를까?

728x90
반응형

 

검색 정확도가 왜 이렇게 낮을까? 인덱싱 설정이 문제일 수 있습니다

LLM(대규모 언어 모델)을 도입해 지식베이스 검색 시스템을 구축하고 있는 IT 담당자라면 이런 경험이 있을 겁니다.
검색 기능을 열심히 만들었는데, 막상 사용해보니 원하는 정보를 정확히 찾아주지 못해서 답답했던 적 말입니다.

이럴 때 "인덱싱 방식이 잘못됐을 수 있다"는 이야기를 듣지만,
High-Quality, Economical, Vector Search, Full-Text Search, Hybrid Search 같은 어려운 용어들 때문에
어떤 설정을 선택해야 할지 막막해지는 경우가 많습니다.

저도 처음엔 그랬습니다. 검색 정확도가 낮아서 클라이언트 불만이 터졌고,
결국 인덱싱 방식과 검색 설정을 하나하나 다시 뜯어고치며 최적화해야 했죠.

이 글에서는 LLM 기반 검색 시스템의 인덱싱 방식과 검색 설정을 완벽하게 이해할 수 있도록
핵심 개념부터 실무에서 바로 적용할 수 있는 설정법까지 설명드릴 겁니다.
이 글을 읽고 나면, 더 이상 검색 정확도 때문에 불안해하지 않아도 됩니다.

반응형

1. 인덱싱 방식의 중요성 – 검색 정확도와 효율성의 시작점

검색 시스템에서 ‘인덱싱’은 책의 목차와 비슷합니다.
사용자가 질문했을 때, 빠르고 정확하게 답을 찾으려면 미리 정보를 잘 정리해둬야 합니다.
이걸 ‘인덱싱(Indexing)’이라고 부르죠.

잘못된 인덱싱은 이런 상황을 만듭니다:

  • 사용자가 "고객센터 연락처"를 찾는데, '회사 소개'만 잔뜩 나오고 연락처는 안 보임.
  • "리뷰 작성 방법"을 물어봤는데, 제품 설명서만 나옴.

결국, 인덱싱 방식이 검색 정확도를 좌우합니다.


2. High-Quality vs Economical 인덱싱 방식 – 무엇이 다를까?

High-Quality 방식

  • LLM이 질문과 문서를 ‘벡터(Vector)’라는 수치로 바꿔서, 의미적으로 비슷한 내용을 찾아주는 방식입니다.
  • 질문에 정확한 키워드가 없어도 문맥상 의미가 맞으면 찾아줍니다.
  • 검색 정확도가 높지만, 초기 인덱싱에 시간이 걸리고 저장 비용이 더 듭니다.

Economical 방식

  • 우리가 흔히 아는 키워드 검색입니다. 문서에 있는 단어와 사용자가 입력한 단어가 일치해야 검색됩니다.
  • 설정과 유지가 간단하고 비용이 저렴하지만, 의미를 이해하지 못하기 때문에 정확도가 떨어질 수 있습니다.

결론적으로:
정확도를 중시하면 High-Quality,
비용 절감과 단순 검색이면 Economical을 선택하면 됩니다.


3. 검색 설정의 핵심 요소 완벽 해설

1) Vector Search – 의미 중심 검색

  • 질문을 벡터로 변환해 문서와 ‘의미적으로 가까운 것’을 찾아줍니다.
  • "고객센터 연락처"라고 해도 "문의 전화번호"라는 표현까지 찾아낼 수 있습니다.

2) Full-Text Search – 키워드 중심 검색

  • 문서에 있는 단어 그대로 찾아냅니다.
  • "고객센터 연락처"라고 하면 정확히 그 단어가 들어간 문서만 찾습니다.

3) Hybrid Search – 둘 다 활용하는 복합 검색

  • Vector Search + Full-Text Search를 동시에 실행해 결과를 종합합니다.
  • 의미도 보고, 키워드도 보고, 가장 정확한 걸 찾아줍니다.

검색 설정 옵션: 정확도와 효율성을 위한 핵심 값

✅ Rerank 모델

  • 검색 결과가 애매할 때 ‘우선순위’를 더 잘 정해주는 모델입니다.
  • 정확도는 올라가지만, 비용이 발생합니다.

✅ TopK

  • 상위 몇 개의 문서를 가져올지 설정합니다. 기본값은 3입니다.
  • 숫자를 높이면 더 많은 문서를 가져오지만, 너무 많으면 오히려 LLM이 혼란스러워질 수 있습니다.

✅ Score Threshold

  • 검색 결과가 어느 정도 비슷해야 가져올지 정합니다. 기본값은 0.5(50% 유사).
  • 높이면 정확도는 올라가지만, 검색 결과가 없을 수도 있습니다.

4. 내 상황에 맞는 최적의 설정 찾는 법

상황 추천 인덱싱 방식 및 설정

고객 지원 챗봇 – 정확한 답변 필요 High-Quality + Vector Search (TopK 3, Score 0.5)
대량 문서 검색 – 빠르고 간단한 조회 Economical + Full-Text Search
기술 자료 검색 – 정확성과 효율 둘 다 필요 High-Quality + Hybrid Search (Semantic 0.7, Keyword 0.3)

5. 설정 적용 예시 – 실무에서 이렇게 하면 된다

사례: 고객 지원 챗봇 검색 설정하기

  1. 인덱싱 방식: High-Quality 선택
  2. 검색 설정: Vector Search 선택
  3. Rerank 모델: 비활성화 (예산이 여유 있다면 활성화)
  4. TopK: 3
  5. Score Threshold: 0.5

이렇게 설정하면, 고객이 질문했을 때 관련성이 높은 답변부터 보여줍니다.
문의 유형이 비슷하지만 표현이 다를 때 특히 효과적입니다.

728x90

6. 정확한 검색, 성공적인 LLM 솔루션의 시작

LLM 기반 검색 시스템에서 인덱싱과 검색 설정은 결과의 정확도를 결정짓는 핵심 요소입니다.

정확도를 원하면 High-Quality,
비용 절감을 원하면 Economical.
그리고 상황에 맞게 Vector Search, Full-Text Search, Hybrid Search를 선택하면 됩니다.

설정이 복잡해 보일 수 있지만, 위에서 설명한 핵심만 기억하면 어렵지 않습니다.
정확한 검색 결과는 고객 만족과 업무 효율을 높이는 출발점입니다.
지금 사용 중인 검색 시스템, 인덱싱 설정부터 점검해보는 건 어떨까요?

728x90
반응형