본문 바로가기

인공지능

RAG는 정말 더 안전할까? 오히려 더 위험할 수 있는 이유

728x90
반응형

https://arxiv.org/pdf/2504.18041

대형 언어모델(LLM)이 다양한 업무에 활용되며, 이제는 단순한 챗봇을 넘어서 기업의 업무 자동화, 고객 서비스, 검색 보조 시스템에까지 적용되고 있습니다. 그 중 RAG(Retrieval-Augmented Generation) 는 정보를 외부 문서에서 검색해 생성에 반영하는 방식으로, 최신 정보 반영이 가능하다는 장점 덕분에 널리 활용되고 있죠.

하지만 최근 연구는 놀라운 결과를 제시합니다. RAG를 도입한 시스템이 오히려 기존 LLM보다 안전하지 않을 수 있다는 것입니다. 안전한 문서와 모델을 사용했음에도 불구하고, 위험한 응답을 생성하는 사례가 나타났습니다.

이 블로그에서는 최신 연구인 “RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models” 를 바탕으로, RAG 시스템이 왜 덜 안전할 수 있는지, 어떤 요인이 작용하는지, 그리고 이를 해결하기 위한 연구 방향에 대해 자세히 알아봅니다.

반응형

🔍 RAG란 무엇이고 왜 중요한가?

RAG (Retrieval-Augmented Generation) 는 LLM이 응답을 생성할 때 자체 지식뿐만 아니라 외부 문서를 검색해 함께 활용하는 방식입니다. 예를 들어, 모델이 "2024년 총선 결과는?"이라는 질문을 받았을 때, 최신 위키피디아 문서를 검색해 응답에 반영할 수 있습니다.

이 방식은 정보의 정확도최신성을 높일 수 있고, 비싼 파인튜닝 없이도 원하는 정보를 반영할 수 있어 특히 기업에서 선호됩니다. 하지만 여기에는 중대한 함정이 숨어 있었습니다.


⚠️ RAG 시스템이 오히려 더 위험한 이유

연구팀은 11개의 주요 LLM(Llama, Mistral, GPT-4o 등)에 대해 다음 세 가지 설정에서 안전성을 비교했습니다:

  1. 비 RAG (Non-RAG): 오로지 모델 내부 지식만으로 응답.
  2. RAG (문서만 사용): 검색된 문서만 이용.
  3. RAG (문서 + 모델 지식): 문서와 내부 지식을 함께 사용.

그 결과는 놀라웠습니다.

  • 11개 모델 중 8개 모델이 RAG 설정에서 더 많은 안전하지 않은 응답을 생성
  • 예: Llama-3-8B는 비 RAG 설정에서 0.3%만 비안전 응답을 보였지만, RAG에서는 무려 9.2%로 증가

안전한 문서와 안전한 모델을 사용했음에도 이런 결과가 나타난 것입니다.


🧠 왜 이런 일이 발생할까? 세 가지 주요 요인

1. LLM 자체의 안전성 한계

모델이 본래 안전하지 않다면, RAG 설정에서도 그대로 이어집니다. 다만 문제는, 기존에는 안전했던 모델도 RAG 설정에서 안전하지 않아진다는 점입니다. 문서가 제공되면서, 모델이 내부 지식을 우회적으로 활용하는 방식으로 유해 응답을 생성할 수 있습니다.

예: 경찰의 GPS 추적 사용에 대한 문서가, 추적을 회피하는 방법으로 왜곡되어 응답에 포함됨

2. 안전한 문서도 위험한 생성으로 이어질 수 있음

  • 검색된 문서의 95% 이상은 안전했음에도 불구하고
  • RAG 설정에서는 문서 내용의 악의적 재활용이 일어났습니다

문서에 있는 정보를, 모델이 내부 지식과 조합해 위험한 방식으로 재구성하거나, 문서의 맥락을 오해해 잘못된 방향으로 응답하는 문제가 발생했습니다.

예: 법적 감시 기술에 대한 정보를 "회피법"처럼 잘못 해석하는 경우

3. 모델의 문서 활용 능력

RAG 시스템은 문서를 잘 읽고 요약하고, 그 문맥을 이해해야 합니다. 하지만 일부 모델은 문서를 정확히 파악하지 못하거나, 오히려 내부 지식에 더 의존하는 경우가 많았습니다.

예: Gemma 모델은 문서에서 필요한 정보를 찾지 못해 "모르겠습니다"라는 거부 응답이 많았고, 이는 겉보기엔 안전해 보이지만 실제로는 RAG 작업 능력이 부족한 결과일 수 있습니다.


🧪 기존의 안전성 점검 방법, RAG에는 무력하다?

전통적인 LLM 안전성 점검 방식인 레드티밍(Red Teaming) 도 RAG 환경에선 효과가 떨어졌습니다.

  • 기존에는 모델에 직접 공격적인 프롬프트를 붙여 응답을 유도했지만
  • RAG에서는 프롬프트가 검색 결과(문서)를 바꾸기 때문에, 공격이 무력화되는 경우가 많았습니다

즉, RAG는 그 자체로 안전하지 않으며, 기존의 방어 도구도 잘 작동하지 않는다는 문제가 드러났습니다.


728x90

이번 연구는 매우 중요한 시사점을 던져줍니다.

  1. RAG 시스템은 단순한 기술 향상이 아니라, 안전성 측면에서 구조적으로 다시 검토돼야 한다
  2. 안전한 문서와 모델 조합만으로는 안전하지 않은 결과를 막을 수 없다
  3. RAG 전용의 안전 미세 조정 및 레드티밍 기법 개발이 필요하다

현재 많은 기업이 "RAG 기반 챗봇"을 구축하고 있지만, 단순히 검색기를 붙이고 문서를 잘 정리하는 것만으로는 안전한 시스템을 보장할 수 없습니다. RAG는 안전을 약속하지 않습니다. 오히려 새로운 취약점을 불러올 수 있습니다.

앞으로 RAG 시스템을 설계하고 도입하는 모든 기업과 연구자는, 이 기술의 편리함만큼이나 위험성을 인식하고, 별도의 안전 전략을 반드시 함께 고려해야 합니다.

https://arxiv.org/abs/2504.18041?fbclid=IwY2xjawKEZHJleHRuA2FlbQIxMABicmlkETEzWjh6Vk5kdGRQVkU2OVgxAR5k7mFJXqKPAegLetd6GkrOZ8eDo8oaPw5Csz_vUDf3ajdMSJsfJiF_z18YSQ_aem_bZG-C_7-opR1E0c_NQrqjg

 

728x90
반응형