본문 바로가기

advanced rag

(4)
새로운 도메인 검색의 해답, HyDE: 가상의 문서로 RAG 성능을 향상시키다! 기존 검색의 한계와 HyDE의 탄생 배경기존의 Embedding 기반 검색 시스템, 특히 RAG(Retrieval-Augmented Generation) 파이프라인에서 활용되는 유사도 검색은 대부분 학습된 데이터 세트를 바탕으로 이루어집니다. 하지만 데이터의 도메인이 기존 학습 데이터와 다를 경우, 검색 성능이 저하되는 문제가 발생할 수 있습니다. 특히 새로운 도메인에 대한 검색에서는 사용자의 질문이 기존 데이터와 연결되지 않아 검색 결과가 부정확해지거나 적합한 맥락을 제공하지 못할 수 있습니다.이러한 문제를 해결하기 위해 등장한 것이 **HyDE(Hypothetical Document Embeddings)**입니다. HyDE는 사용자의 질문을 토대로 가상의 문서를 생성하여, 이를 검색의 입력으로 사용함..
LLM의 성능을 높이는 비밀, Pre-Retrieval의 역할과 필요성! Pre-Retrieval: LLM 성능을 위한 첫 단계많은 사람들이 LLM(Large Language Model)을 사용할 때, 단순히 질문만 입력하면 정확한 답변을 받을 수 있을 거라 기대합니다. 하지만 실제로는 사용자가 입력한 쿼리(Query)가 LLM에 의해 잘 이해되지 않을 때가 많습니다. 이러한 문제를 해결하고, 더욱 정확한 검색 결과를 얻기 위해서 Pre-Retrieval이라는 단계가 필요합니다. Pre-Retrieval은 사용자의 쿼리를 LLM이 더 잘 이해할 수 있도록 사전에 최적화하는 과정으로, 실제 검색(Retrieval) 전에 수행됩니다.그렇다면, Pre-Retrieval 단계에서 어떤 작업들이 이루어질까요? 이번 글에서는 Pre-Retrieval의 주요 역할과 그 필요성에 대해 알아..
Advanced RAG의 등장과 Naive RAG의 한계: 왜 우리는 더 나은 솔루션을 필요로 하는가? Retrieval-Augmented Generation (RAG)은 언어 모델의 성능을 크게 향상시킬 수 있는 기술로, 최근 AI 연구와 응용에서 중요한 위치를 차지하고 있습니다. RAG의 출현은 단순히 데이터를 학습하는 언어 모델을 넘어, 방대한 외부 지식 데이터베이스와 결합하여 필요한 정보를 실시간으로 검색하고, 이를 바탕으로 보다 정확한 답변을 생성하는 능력을 제공하려는 시도에서 비롯되었습니다. 특히 의료, 법률 등 높은 정확성과 신뢰성이 요구되는 분야에서 RAG는 필수적인 기술로 자리 잡고 있습니다.그러나 Naive RAG에는 여러 한계가 존재합니다. 기본적인 RAG 시스템에서는 단순한 검색과 생성의 반복으로 인해 불필요한 데이터 중복과 노이즈가 발생할 수 있습니다. 특히, 의미론적 유사성을 고려..
최신 AI 기술, Advance RAG로 한 단계 더 진화한 정보 검색 요즘 인공지능(AI) 분야에서 빠르게 주목받고 있는 기술 중 하나가 바로 RAG(Reinforcement-Augmented Generation)입니다. RAG는 정보 검색과 생성 모델을 결합하여 사용자에게 보다 정교한 답변을 제공하는 데 중점을 둡니다. 그런데 최근에는 이 RAG를 한 단계 더 발전시킨 Advance RAG라는 개념이 등장해 연구자들과 개발자들 사이에서 큰 화제가 되고 있습니다. 이번 블로그에서는 Advance RAG가 무엇인지, 기존 RAG와는 어떤 점에서 차별화되는지, 그리고 최근의 연구 동향까지 살펴보겠습니다.1. RAG(Reinforcement-Augmented Generation)란?RAG는 정보 검색(Information Retrieval)과 자연어 생성(Natural Lang..