본문 바로가기

인공지능

기존 RAG의 한계를 넘어: GraphRAG로 확장된 LLM 데이터 분석의 새로운 시대

728x90
반응형

대형 언어 모델(LLM)의 주요 도전 과제 중 하나는 학습하지 않은 데이터에도 문제 해결 능력을 적용하는 것입니다. 이는 새로운 데이터 탐구의 가능성을 열어주며, 데이터셋의 맥락과 기반에 따라 주제나 의미론적 개념을 식별할 수 있는 능력을 제공합니다. Microsoft Research에서 개발한 GraphRAG는 이러한 LLM의 능력을 확장하여 문서 분석 성능을 크게 향상시키는 혁신적인 접근 방식입니다.

반응형

기존 RAG 방식의 한계와 GraphRAG의 필요성

Retrieval-Augmented Generation(RAG)은 사용자 쿼리에 따라 정보를 검색하고 이를 AI가 생성한 응답에 참고하는 기술입니다. 대부분의 RAG 접근법은 벡터 유사성을 검색 기법으로 사용하지만, 기존 RAG 방식에는 여러 한계가 존재합니다.

  1. 정보 연결의 어려움: 기존 RAG는 서로 다른 정보 조각을 연결하여 새로운 통찰을 도출하는 데 어려움을 겪습니다. 예를 들어, 하나의 질문에 답변하기 위해 분산된 정보들 사이의 공통 속성을 찾아내고 이를 통합해야 하는 상황에서 기존 RAG는 성능이 떨어집니다.
  2. 의미론적 개념의 이해 부족: 대규모 데이터 집합이나 단일 대규모 문서를 요약하고 의미론적 개념을 전체적으로 이해하는 질문에 대해 기존 RAG는 만족스러운 결과를 내지 못합니다.

이러한 한계를 해결하기 위해 Microsoft Research는 LLM 기반 지식 그래프를 생성하여 문서 분석 성능을 크게 향상시키는 새로운 접근법인 GraphRAG를 개발했습니다.

GraphRAG의 기본 개념과 구현 방법

GraphRAG는 LLM이 전체 데이터셋을 처리하여 생성한 지식 그래프를 기반으로 합니다. 이 지식 그래프는 데이터 내 모든 엔터티와 관계를 참조하여 생성되며, GraphRAG는 이 그래프를 사용하여 문서 검색 및 질문 응답 성능을 향상시킵니다. LLM이 생성한 지식 그래프를 사용하면 기존 RAG 방식에서는 불가능했던 정보 연결과 요약이 가능합니다.

GraphRAG의 구현은 크게 세 단계로 구성됩니다:

  1. 지식 그래프 생성: LLM은 데이터셋을 처리하여 모든 엔터티와 그 관계를 참조하는 지식 그래프를 생성합니다. 이 그래프는 이후 데이터의 의미를 구조화하고 요약하는 데 사용됩니다.
  2. 그래프 머신 러닝 사용: 생성된 지식 그래프를 기반으로 데이터를 의미론적 클러스터로 조직화합니다. 이 과정에서 그래프 머신 러닝 기술을 사용하여 데이터의 구조를 바탕으로 의미 있는 그룹을 형성하고 이를 사전 요약합니다.
  3. 질문 응답 시 그래프 활용: 질문이 들어오면 생성된 지식 그래프와 의미론적 클러스터를 사용하여 적절한 데이터를 검색하고, 이를 LLM의 컨텍스트 창에 포함시켜 답변을 생성합니다.

GraphRAG의 우수한 성능과 개선된 정확도

https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/?ref=blog.langchain.dev

GraphRAG는 기존의 RAG와 비교하여 다음과 같은 문제를 효과적으로 해결하고, 정확도를 높이는 데 기여합니다:

  • 정보 연결 및 통합: GraphRAG는 지식 그래프를 활용하여 쿼리에 포함된 엔터티를 인식하고, 관련 정보를 연결하여 더욱 풍부한 답변을 제공합니다. 예를 들어, "노보로시야(Novorossiya)는 무엇을 했는가?"라는 질문에서 기존 RAG가 답을 찾지 못한 반면, GraphRAG는 지식 그래프를 활용해 노보로시야의 활동과 관련된 다양한 사건을 연결하여 구체적인 답변을 생성할 수 있었습니다.
  • 전체 데이터셋의 의미 분석: 기존 RAG는 대규모 데이터셋에서 주제를 요약하는 작업에 취약하지만, GraphRAG는 지식 그래프의 클러스터링 기능을 통해 데이터셋 전체의 주요 주제를 효과적으로 요약할 수 있습니다. 이를 통해 "데이터에서 가장 중요한 다섯 가지 주제는 무엇인가?"와 같은 질문에 대해, GraphRAG는 의미론적 클러스터를 바탕으로 명확하고 구체적인 답변을 제공합니다.

GraphRAG의 이러한 성능 향상은 정보의 신뢰성과 정확성을 보장하며, 사용자가 결과를 직접 검증할 수 있도록 근거를 제공합니다. 이는 사용자가 LLM의 출력을 원본 소스 자료와 비교하여 신속하고 정확하게 감사를 수행할 수 있도록 도와줍니다.

728x90

결론

GraphRAG는 LLM 기반 지식 그래프와 그래프 머신 러닝을 결합하여 기존 RAG의 한계를 뛰어넘는 데이터 분석 능력을 제공합니다. 이를 통해 기업의 내부 연구나 비즈니스 문서, 커뮤니케이션 자료와 같은 LLM이 본 적 없는 데이터에서도 뛰어난 성능을 발휘할 수 있습니다. 앞으로도 Microsoft Research는 다양한 도메인에서 GraphRAG의 활용을 확대해 나가며, 지속적인 연구와 개선을 통해 더욱 강력한 데이터 분석 도구로 발전시킬 계획입니다.

https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/?ref=blog.langchain.dev

728x90
반응형