본문 바로가기

Hyde

(2)
새로운 도메인 검색의 해답, HyDE: 가상의 문서로 RAG 성능을 향상시키다! 기존 검색의 한계와 HyDE의 탄생 배경기존의 Embedding 기반 검색 시스템, 특히 RAG(Retrieval-Augmented Generation) 파이프라인에서 활용되는 유사도 검색은 대부분 학습된 데이터 세트를 바탕으로 이루어집니다. 하지만 데이터의 도메인이 기존 학습 데이터와 다를 경우, 검색 성능이 저하되는 문제가 발생할 수 있습니다. 특히 새로운 도메인에 대한 검색에서는 사용자의 질문이 기존 데이터와 연결되지 않아 검색 결과가 부정확해지거나 적합한 맥락을 제공하지 못할 수 있습니다.이러한 문제를 해결하기 위해 등장한 것이 **HyDE(Hypothetical Document Embeddings)**입니다. HyDE는 사용자의 질문을 토대로 가상의 문서를 생성하여, 이를 검색의 입력으로 사용함..
RAG의 핵심, Retrieval 기술로 검색 성능 극대화하기! Retrieval: RAG의 성능을 좌우하는 핵심 단계RAG(Retrieval-Augmented Generation)는 LLM(Large Language Model)의 능력을 확장하고 보완하는 기술로, LLM이 보다 정확하고 풍부한 정보를 제공할 수 있도록 도와줍니다. 그중에서도 Retrieval 단계는 사용자의 쿼리에 맞는 적절한 정보를 찾아내는 중요한 역할을 담당합니다. 이 글에서는 Retrieval 단계의 핵심 기술인 Hybrid Search, Hypothetical Question, **HyDE(Hypothetical Document Embeddings)**에 대해 살펴보겠습니다. 각각의 기술이 어떤 원리로 동작하며, 언제 효과적인지 알아볼까요?1. Hybrid Search: 시맨틱과 키워드 검색..