본문 바로가기

인공지능

RAG의 핵심, Retrieval 기술로 검색 성능 극대화하기!

728x90
반응형

Retrieval: RAG의 성능을 좌우하는 핵심 단계

RAG(Retrieval-Augmented Generation)는 LLM(Large Language Model)의 능력을 확장하고 보완하는 기술로, LLM이 보다 정확하고 풍부한 정보를 제공할 수 있도록 도와줍니다. 그중에서도 Retrieval 단계는 사용자의 쿼리에 맞는 적절한 정보를 찾아내는 중요한 역할을 담당합니다. 이 글에서는 Retrieval 단계의 핵심 기술인 Hybrid Search, Hypothetical Question, **HyDE(Hypothetical Document Embeddings)**에 대해 살펴보겠습니다. 각각의 기술이 어떤 원리로 동작하며, 언제 효과적인지 알아볼까요?


반응형

1. Hybrid Search: 시맨틱과 키워드 검색의 절묘한 조화

https://dify.ai/blog/hybrid-search-rerank-rag-improvement

  • Hybrid Search란?
    Hybrid Search는 시맨틱 검색키워드 기반 검색을 함께 사용하는 방법입니다. 시맨틱 검색은 단어의 의미와 맥락을 이해하여 유사한 의미를 가진 문서를 찾는 방식입니다. 하지만 모든 검색이 시맨틱하게 이루어질 때, 구체적인 키워드가 담긴 문서를 놓칠 수 있습니다. 그래서 키워드 기반 검색을 보완적으로 사용하여, 정확한 단어가 포함된 문서도 함께 찾도록 합니다.
  • 왜 Hybrid Search가 유용한가?
    시맨틱 검색은 사용자의 질문과 의미적으로 가까운 정보를 제공할 수 있지만, 때로는 구체적인 키워드가 필요할 때가 있습니다. 예를 들어, 사용자가 특정 법률 조항이나 제품명, 고유명사를 검색할 때는 키워드 검색이 더욱 효과적입니다. Hybrid Search를 사용하면 이러한 시맨틱과 키워드 검색의 장점을 동시에 활용하여 더 풍부하고 정확한 결과를 제공합니다.
  • 키워드 방식에 비중을 높여야 하는 경우
    키워드 검색에 더 큰 비중을 두어야 할 경우는 다음과 같습니다:
    • 구체적인 용어 검색: 법률, 기술 문서, 제품 정보와 같이 특정 용어나 코드, 이름이 중요한 경우.
    • 정확한 문구 검색: 논문이나 특정 구문을 포함한 문서가 필요할 때.
    이러한 상황에서는 시맨틱 검색만으로는 놓칠 수 있는 정보를 키워드 검색을 통해 정확하게 찾아낼 수 있습니다. Hybrid Search는 상황에 따라 두 검색 방식을 적절히 조합하여 최상의 검색 결과를 제공합니다.

2. Hypothetical Question: 문서를 질문 형태로 변환하기

https://www.youtube.com/watch?v=aMUopbBrAmA&t=3964s

  • Hypothetical Question이란?
    Hypothetical Question 기법은 문서의 내용을 질문 형태로 변환한 뒤, 사용자의 쿼리와 의미적으로 매칭하여 적합한 답변을 찾는 방식입니다. 이 방법은 문서에 포함된 정보를 질문으로 변환하여 사용자가 실제로 묻는 질문과 얼마나 유사한지를 평가하는 데 중점을 둡니다.
  • 어떻게 동작하나요?
    1. 문서에 있는 중요한 정보를 질문 형태로 변환합니다. 예를 들어, "고양이는 밤에 더 잘 볼 수 있다"라는 문서가 있을 때, "고양이는 언제 더 잘 보나요?"와 같은 질문으로 변환합니다.
    2. 사용자가 입력한 쿼리와 변환된 질문을 의미적으로 비교하여 가장 관련성이 높은 질문과 연결된 문서를 선택합니다.
  • 왜 Hypothetical Question이 유용한가?
    이 방식은 문서와 사용자의 쿼리 간의 의미적 일치를 높이는 데 도움을 줍니다. 단순한 키워드 매칭을 넘어 문서의 의미를 추론하여 더 정확하게 사용자의 의도를 반영할 수 있습니다. 특히 복잡한 질문이나 간접적인 표현을 사용할 때 유용하게 활용됩니다.

3. HyDE (Hypothetical Document Embeddings): 가상의 문서를 생성하여 유사도를 측정하기

https://www.youtube.com/watch?v=aMUopbBrAmA&t=3964s

  • HyDE란?
    HyDE(Hypothetical Document Embeddings)는 사용자의 쿼리에 대해 가상의 문서(답변)를 생성하고, 이 가상의 문서와 실제 문서 간의 유사도를 평가하여 가장 관련성이 높은 정보를 찾는 방법입니다. 이 기법은 생성된 답변이 쿼리보다 임베딩 공간에서 더 가깝다는 가정에 기반합니다.
  • 어떻게 동작하나요?
    1. 사용자의 쿼리를 바탕으로 LLM이 가상의 문서(또는 답변)를 생성합니다.
    2. 생성된 문서와 실제 문서 사이의 의미적 유사도를 비교하여, 가장 가까운 문서를 선택합니다.
    예를 들어, 사용자가 "고양이는 밤에 더 잘 보나요?"라고 질문하면, LLM은 이 질문에 대한 가상의 답변을 생성합니다. 이 답변과 실제 문서들을 비교하여, 가장 의미적으로 가까운 문서를 찾아냅니다.
  • 왜 HyDE가 필요한가?
    사용자의 쿼리가 짧거나 불명확할 때, 이를 보완하여 보다 풍부한 의미를 가진 가상의 답변을 만들고, 이를 기준으로 검색을 진행할 수 있습니다. 이 방법은 LLM의 추론 능력을 활용해 문서와 쿼리 간의 깊은 의미적 관계를 찾는 데 효과적입니다. 특히 정보가 명확하게 주어지지 않은 상황에서 유용합니다.
728x90

Retrieval 단계는 RAG 시스템에서 사용자의 질문에 적절한 정보를 찾아내는 데 있어 핵심적인 역할을 합니다. Hybrid Search를 통해 시맨틱과 키워드 검색을 유연하게 결합하고, Hypothetical Question으로 문서와 쿼리의 의미적 일치를 강화하며, HyDE를 사용해 가상의 문서 생성으로 더 정확한 검색 결과를 도출할 수 있습니다. 이러한 다양한 방법을 통해 Retrieval 단계의 성능을 최적화하고, 사용자가 원하는 답변을 더욱 정확하게 제공할 수 있습니다.

Retrieval 기술의 이해와 활용은 LLM 기반의 AI 시스템에서 더 나은 사용자 경험을 제공하는 데 큰 도움이 될 것입니다. RAG의 Retrieval 단계에서 이 기술들을 적용하여, 여러분의 AI 시스템의 성능을 한 단계 업그레이드해 보세요!

728x90
반응형