본문 바로가기

인공지능

CLaRa: RAG의 한계를 넘어서는 연속 벡터 기반 지식 구조

728x90
반응형
728x170

생성형 AI가 아무리 강력해도, 모든 지식을 실시간으로 알고 있을 수는 없다. 그래서 대부분의 시스템은 RAG 구조를 사용한다. 질문이 들어오면 검색기가 관련 문서를 가져오고, LLM이 이를 읽고 답을 생성하는 방식이다. 문제는 이 과정이 생각보다 비효율적이라는 점이다. 긴 문서를 그대로 LLM에게 넣으면 계산량이 폭증하고, 검색과 생성이 따로 작동해 서로에게 피드백을 줄 수도 없다. 이 글에서는 이러한 구조적 한계를 해결하기 위해 등장한 CLaRa(Continuous Latent Reasoning)를 설명한다. CLaRa는 문서와 질문을 동일한 연속 벡터 공간에서 처리해, RAG 전체를 하나의 시스템처럼 최적화하는 새로운 방식이다.

반응형

기존 RAG가 가진 구조적 문제

긴 문서가 만드는 높은 비용

기존 RAG는 긴 문서를 그대로 모델 입력으로 넘겨야 한다. 이는 곧 높은 계산 비용과 긴 응답 지연으로 이어진다. 문서 길이가 커지면 모델이 모든 내용을 읽기도 어려워, 때로는 중요한 내용을 놓친 채 답을 만들어내곤 한다.

검색과 생성의 단절

RAG의 검색기는 문서만 보고 top-k 결과를 선택하며, 생성기는 그 결과를 이용해 답변을 만든다. 두 모듈은 서로 완전히 단절돼 있어 생성기가 검색 결과에 대한 피드백을 직접 줄 수 없다. 결국 검색이 조금만 틀어져도 생성 품질은 크게 떨어진다.

불필요한 중복 처리

검색 단계에서는 문서를 embedding으로 바꾸고, 생성 단계에서는 다시 원본 텍스트를 LLM이 읽는다. 사실상 같은 정보를 두 번 가공하는 셈이다.


CLaRa의 핵심 아이디어: 모든 것을 연속 벡터로 통합

CLaRa는 기존 RAG의 구조적 한계를 완전히 다른 방식으로 접근한다. 바로 모든 문서와 질문을 동일한 연속 벡터 공간에서 처리하는 방식이다. 핵심 아이디어는 다음과 같다.

문서를 의미 중심의 memory token으로 압축

CLaRa는 문서를 압축하되 단순 요약을 만드는 것이 아니다. 문서에서 중요한 의미를 추출하기 위해 내부적으로 질문-답변 쌍을 생성하고, 다양한 표현을 반영하기 위해 paraphrase까지 생성한다. 이를 기반으로 문서를 짧은 memory token 묶음으로 변환한다. 긴 원문 대신, 꼭 필요한 의미만 담은 압축 벡터를 저장하는 방식이다.

질문도 같은 벡터 영역에서 처리

사용자가 질문하면 같은 방식으로 벡터로 변환되고, model은 문서의 memory token들과 직접 비교해 reasoning을 한다. 문서와 질문 모두가 연속 공간에서 비교되므로 긴 텍스트를 LLM에 다시 넣을 필요가 없다.


CLaRa의 문서 압축 방식: SCP 기반 의미 보존

CLaRa의 압축은 단순히 길이를 줄이는 과정이 아니라 의미를 보존하는 것이 핵심이다. 이를 위해 SCP(Key-preserving data synthesis)라는 방식을 사용한다.

QA 기반 정보 추출

문서에서 중요한 정보를 명확히 드러내기 위해 자동으로 질문-답변 쌍을 만든다. 어떤 정보가 핵심 의미인지 모델이 이해하도록 학습하는 과정이다.

Paraphrase를 통한 표현 다양화

같은 의미라도 다양한 표현으로 바꿔 생성한다. 이는 압축 벡터가 문서의 표면적 표현이 아니라 의미적 내용을 유지하도록 돕는다.

의미 중심 압축

최종적으로 문서는 하나의 압축된 memory token 세트가 된다. 이는 기존 텍스트보다 훨씬 짧지만, 문서를 이해하는 데 필요한 의미는 모두 유지한다.


Three-stage Training: CLaRa가 작동하는 구조

CLaRa는 단순 모델이 아니라 세 단계의 학습 과정을 거친다. 이 구조가 압축, 검색, 생성 전체를 하나로 통합하는 기반이 된다.

1단계: Compression Pretraining

SCP 기반의 QA·paraphrase 데이터를 사용해 문서를 의미 중심으로 압축하도록 학습한다. 이 단계에서 1x~256x 다양한 압축 비율을 처리할 수 있게 된다.

2단계: Compression Instruction Tuning

압축된 벡터 상태에서도 QA 작업을 수행할 수 있도록 추가 미세 조정한다. 이는 압축만 잘하는 것이 아니라, 실제 질문에 필요한 의미를 유지하도록 돕는 단계다.

3단계: End-to-End Fine-tuning

CLaRa의 핵심 단계다. 검색 reranker와 생성 모델을 하나의 언어 모델링 loss로 동시에 학습한다. 이때 differentiable top-k(STE)를 사용해 검색 단계에도 gradient가 흐르도록 만든다.
즉, 생성 모델이 검색기에게 직접 “이 문서 선택은 적절하지 않았다”는 신호를 보낼 수 있게 된다.


Differentiable top-k(STRAIGHT-THROUGH ESTIMATOR)의 역할

기존 RAG의 검색기는 top-k 선택이 비미분적이어서 생성 모델로부터 피드백을 받을 수 없었다. CLaRa는 STE를 통해 top-k 선택을 미분 가능하게 만들었다. 그 결과, 검색과 생성이 서로 분리된 모듈이 아니라 하나의 연속적인 시스템이 된다. 검색 단계의 선택이 답변 품질과 직접 연결되며, 최종 답변을 더 정확하게 만드는 방향으로 전체 시스템이 조정된다.


왜 압축했는데 성능이 더 좋아지는가

실험 결과가 특히 흥미롭다.

  • 문서를 4배, 16배, 32배로 압축해도 기존 텍스트 기반 RAG보다 성능이 비슷하거나 더 좋다.
  • 일부 경우에는 supervised reranker를 초월하는 검색 성능을 보여준다.

이는 단순 정보량 감소가 아니라 모델이 문서의 핵심 의미에 집중하도록 설계되었기 때문이다. 결국 모델은 더 적은 정보를 더 정확히 활용하게 된다.


CLaRa가 여는 새로운 AI 지식 구조

CLaRa는 단순한 RAG 개선이 아니다. 지식을 저장하고 사용하는 방식 자체가 바뀌고 있음을 보여준다.

앞으로는 다음 구조가 기본이 될 가능성이 크다.

  • 긴 텍스트를 그대로 읽는 것이 아니라
  • 의미가 압축된 벡터를 저장하고
  • 검색과 생성이 같은 공간에서 동시 처리되며
  • LLM은 연속적인 지식 구조 안에서 reasoning을 수행한다

지식 경쟁의 기준도 바뀐다.
“얼마나 많이 읽느냐”가 아니라
“얼마나 잘 압축하고, 검색과 생성을 얼마나 촘촘히 연결하느냐”가 핵심이다.


728x90

CLaRa가 실무와 미래 AI에 주는 의미

CLaRa는 RAG의 비효율적 구조를 근본적으로 해결하려는 시도이며, 이미 실험 단계에서 상당한 성과를 보여주었다.
실무적으로는 다음과 같은 기대 효과가 있다.

  • 긴 문서 처리 비용 대폭 절감
  • 더 정확한 검색 결과
  • 문서 압축에도 불구하고 답변 품질 유지 혹은 향상
  • 검색과 생성의 end-to-end 연결로 전체 시스템 품질 상승

앞으로 AI 시스템은 더 이상 방대한 텍스트를 그대로 모델에 먹이는 방식이 아니라, 의미 중심으로 압축된 벡터를 기반으로 한 reasoning 구조로 발전할 가능성이 크다. CLaRa는 그 변화를 가장 앞에서 보여주는 기술적 시도이며, RAG 이후 시대의 새로운 기준이 될 수 있다.

300x250

https://arxiv.org/abs/2511.18659

 

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified

arxiv.org

728x90
반응형
그리드형