본문 바로가기

인공지능

모듈형 RAG의 첫걸음, Linear Pattern으로 쉽게 이해하는 고도화된 검색 기반 AI 모델

728x90
반응형

 

검색 기반 생성 모델, 흔히 RAG(Retrieval-Augmented Generation) 패턴은 최근 많은 관심을 받는 AI 모델 구조입니다. 특히 이 중에서 Linear Pattern은 가장 기본적이면서도 효율적인 구조로, 단순히 단방향(Sequence)으로 구성되어 쉽게 구축할 수 있는 장점이 있습니다. 그럼에도 불구하고 모듈형 RAG(Modular RAG)에서는 각 단계가 독립적 모듈로 분리되어 더욱 유연하게 활용될 수 있죠. 이번 글에서는 Linear Pattern이 모듈형 RAG에서 어떻게 작동하며, 어떤 기술이 사용되는지 알아보겠습니다.

반응형

Linear Pattern이란? – 단방향 Sequence 기반 구조

Linear Pattern은 이름 그대로 순차적으로 작업을 진행하는 패턴으로, Advanced RAG의 기본적인 구조와 일치합니다. 그러나 Modular RAG 패턴에서는 독립적인 모듈로 각 단계가 구성되며, Pre-RetrievePost-Retrieve 단계가 Retrieve 단계를 중심으로 앞뒤로 존재하는 것이 특징입니다.

Pre-Retrieve 단계 – Query의 명확화

Pre-Retrieve 단계는 Query의 모호성을 해결하여 검색의 정확도를 높이는 작업을 담당합니다. 이 과정에서 가장 많이 사용되는 기술은 Query TransformationHyDE입니다.

  • Query Transformation는 사용자의 Query를 재작성하여 의미를 명확히 하거나 적합한 형태로 조정합니다. 예를 들어, "강아지 먹이 추천"이라는 Query를 "강아지 건강에 좋은 먹이 추천"으로 수정하여 좀 더 구체적인 검색을 유도할 수 있죠.
  • **HyDE (Hypothetical Document Embedding)**는 Query를 확장(Expansion)하여, 관련 있는 키워드와 문장을 추가함으로써 검색 엔진이 더 포괄적으로 문서를 찾을 수 있게 돕습니다.

이러한 Pre-Retrieve 과정을 통해 모호하거나 불완전한 Query가 보다 명확하게 다듬어져, Retrieve 단계에서 보다 정확한 검색 결과를 도출하게 됩니다.

Retrieve 단계 – 문서 검색

Retrieve 단계에서는 다듬어진 Query를 통해 관련 문서를 빠르게 검색합니다. 이 과정에서 사용하는 검색 엔진은 고속으로 관련성을 판단하여 다양한 문서를 반환하게 됩니다. Retrieve 단계는 RAG 모델에서 가장 중요한 단계 중 하나로, 이 단계의 효율성이 전체 모델 성능에 큰 영향을 미칩니다.

Post-Retrieve 단계 – 결과물의 정렬과 필터링

Retrieve 단계에서 반환된 문서가 있더라도, 그 결과물이 모두 최적화된 상태는 아닙니다. Post-Retrieve 단계에서는 검색된 문서를 다시 한번 평가하여, 보다 정확도 높은 문서가 상위에 위치하도록 합니다.

  • Reranker는 Query와 검색된 문서의 관련성을 재평가하여 가장 관련성 높은 문서를 상위에 배치하는 방식입니다.
  • Reorder는 검색된 문서의 순서를 중요도에 따라 재배치하여, 사용자가 얻을 결과물의 품질을 높입니다.

이처럼 Linear Pattern은 모듈형 구조 덕분에 각 단계에서 필요한 처리와 최적화를 유연하게 적용할 수 있어, 효율적인 검색 기반 AI 모델을 구축할 수 있습니다.


RRR (Rewrite-Retrieve-Read) 방식 – 고도화된 Query 검증 방식

Linear Pattern 외에도 최근에는 RRR 방식이 Advanced RAG 패턴의 고도화된 형태로 주목받고 있습니다. RRR은 Rewrite-Retrieve-Read의 약자로, 세 단계를 통해 보다 정교한 답변을 생성합니다.

  1. Rewrite 단계에서 Query를 다듬어 좀 더 정확하게 변경합니다.
  2. Retrieve 단계에서 이 Query를 통해 관련 문서를 찾습니다.
  3. Read 단계에서 문서 내용을 기반으로 답변을 생성한 후, 그 답변의 평가를 추가하는 과정이 포함됩니다.

이 평가 과정은 단순히 답변을 생성하는 데서 그치지 않고, 생성된 답변의 품질을 다시 확인하는데 초점이 맞춰져 있습니다. 만약 답변의 품질이 떨어진다고 판단되면, Query를 Rewrite하여 다시 Retrieve-Read 과정을 거쳐 최종적으로 정확도가 높은 답변을 생성하게 됩니다. 이를 통해 사용자에게 더 신뢰성 높은 정보를 제공할 수 있게 되죠.

이처럼 RRR 방식은 추가적인 검증 과정을 통해 답변의 정확성을 높이고, 결과물의 신뢰도를 극대화할 수 있는 선순환 구조를 제공합니다.

728x90

결론: Linear Pattern을 통한 모듈형 RAG의 효과적 활용

모듈형 RAG의 Linear Pattern은 단순하면서도 강력한 구조를 제공하여 빠르게 검색 기반 AI 모델을 구축하고자 할 때 유용한 선택지입니다. Pre-Retrieve와 Post-Retrieve 단계에서 다양한 기술을 활용하여 Query와 결과물을 최적화할 수 있어, 모호한 Query나 불완전한 검색 결과를 효과적으로 다룰 수 있죠. 나아가 RRR과 같은 고도화된 패턴을 통해 한층 높은 수준의 답변 정확도를 추구할 수도 있습니다.

이처럼 검색 기반 AI 모델의 기초 구조를 이해하고 적용한다면, 복잡한 RAG 모델도 한층 쉽게 다가갈 수 있을 것입니다. 앞으로도 다양한 RAG 패턴을 통해 검색 기반 모델의 발전 가능성을 함께 살펴보겠습니다.

728x90
반응형