복잡한 미세조정보다 똑똑한 검색이 답일까?
많은 기업과 개발자들이 LLM(대형 언어 모델)의 정확도를 높이기 위해 미세조정(fine-tuning)에 막대한 시간과 비용을 투자하고 있습니다. 하지만 최근 연구 결과에 따르면, 검색 정확도를 높이는 방식, 즉 RAG(Retrieval-Augmented Generation) 시스템을 개선하는 것이 오히려 더 효율적이라는 주장이 제기됐습니다.
특히 일리노이대학교 어바나-샴페인(UIUC) 연구진이 공개한 오픈소스 프레임워크 ‘s3’는 기존보다 적은 데이터로도 높은 성능을 낼 수 있어 주목을 받고 있습니다. 이 글에서는 RAG의 진화와 함께, ‘s3’가 어떤 방식으로 기존 한계를 뛰어넘는지, 그리고 실제 기업 환경에서 어떤 이점을 제공하는지를 정리해보겠습니다.
RAG 기술의 진화: 클래식부터 RL 기반까지
RAG 시스템은 외부 지식을 검색해 생성 과정에 반영하는 방식으로, 기본적인 언어모델의 한계를 보완하는 기술입니다. 이 기술도 발전하면서 여러 단계로 구분됩니다.
- 클래식 RAG:
고정된 쿼리를 이용해 정적 검색을 수행합니다. 생성과 검색이 분리돼 복잡한 질문에 약하고, 실제 성능 향상에 한계가 있습니다. - Pre-RL-Zero 단계:
LLM이 검색 과정에 적극 관여해 다중 턴의 쿼리 생성과 추론을 수행합니다. 하지만 학습 가능한 구조가 아니어서 검색 최적화는 어렵습니다. - RL-Zero 단계:
강화 학습(RL)을 도입해 검색 에이전트를 훈련합니다. 검색과 추론을 반복하며 성능 지표 기반 피드백으로 학습하지만, 여전히 LLM 미세조정이 필요하고 비용과 오류 리스크가 큽니다.
s3 프레임워크: Search, Select, Stop
이런 기존 한계를 극복하기 위해 등장한 것이 바로 ‘s3’입니다. 이름 그대로 ‘검색(Search) → 선택(Select) → 중지(Stop)’라는 세 단계를 기반으로 합니다. 핵심 아이디어는 생성과 검색을 명확히 분리하고, 검색 과정에 최적화를 집중한다는 점입니다.
- Search: 검색 에이전트가 반복적으로 외부 지식에 접근해 쿼리를 생성합니다.
- Select: 추천 문서를 고르고, 추가 검색을 계속할지 판단합니다.
- Stop: 문서 선택이 완료되면 생성기는 답변을 생성합니다.
이 과정을 통해 모델은 다양한 상황에 더 유연하게 반응하고, 특정 AI 모델에 의존하지 않아 범용성도 확보합니다.
GBR: 단순한 정확도 비교를 넘어서
‘s3’의 핵심 성능 향상 요인은 ‘GBR(Gain Beyond RAG)’이라는 보상 신호입니다. GBR은 기존 RAG가 선택한 문서와 s3가 선택한 문서를 기반으로 생성된 답변의 정확도를 비교해 보상합니다.
이 방식은 검색 에이전트가 단순히 관련성 있는 문서를 찾는 데 그치지 않고, 실제 답변 품질 향상에 기여하는 문서를 선택하도록 유도합니다. 다시 말해, ‘답을 잘 써줄 수 있는 자료’를 찾아내는 데 최적화된 학습이 이루어집니다.
벤치마크 결과: 적은 데이터로 더 높은 성능
‘s3’는 여러 QA 벤치마크에서 기존 RAG 시스템보다 우수한 성능을 보였습니다. 특히 데이터 효율성에서 두각을 나타냈습니다.
- s3 학습 데이터: 약 2400개
- 서치-R1: 약 17만 개
- 딥리트리벌: 약 7만 개
이처럼 s3는 훨씬 적은 학습 예제로도 기존 시스템의 성능을 능가했습니다. 이는 실제 기업 환경에서 구축 비용을 크게 줄일 수 있음을 의미합니다.
도메인 일반화 능력: 새로운 분야에서도 잘 작동
s3의 또 다른 강점은 도메인 일반화 능력입니다. 연구진은 일반 QA 데이터만으로 훈련한 s3를 의료 QA 등 학습하지 않은 분야에 적용해봤고, 제로샷 성능에서도 안정적인 결과를 보였습니다.
이는 검색 중심의 RL 접근 방식이 특정 도메인에 과하게 의존하지 않고도 높은 성능을 유지할 수 있음을 보여줍니다. 미세조정보다 안정적으로 다양한 분야에 적용할 수 있다는 점에서 실무 활용도 매우 높습니다.
기업 환경에서의 장점: 유연성, 비용 절감, 확장성
‘s3’는 기업 애플리케이션에도 매우 적합한 구조입니다.
- 부서 간 공유 가능한 검색 에이전트 설계 가능 (예: 고객지원, 법무, 인사 등)
- 도메인 특화 데이터 수집 없이도 성능 확보 가능
- 제품 문서 업데이트처럼 자주 바뀌는 콘텐츠에도 자동 적응 가능
이런 유연성과 효율성 덕분에, 운영 비용은 줄이면서도 성능은 유지 또는 향상시킬 수 있다는 장점이 있습니다.
이제는 ‘생성’이 아니라 ‘검색’이 성패를 좌우한다
이번 연구와 프레임워크가 시사하는 바는 분명합니다. LLM의 성능을 끌어올리는 핵심은 더 이상 미세조정에 있지 않습니다. 검색 전략을 얼마나 정교하게 구성하고, 이를 실제 생성 품질에 반영할 수 있느냐가 관건입니다.
‘s3’는 데이터가 적더라도, 비용이 제한적이더라도, 그리고 다양한 분야에 적용하려 해도 모두 대응할 수 있는 RAG 기반 프레임워크입니다. 앞으로 AI 시스템을 설계하고 운용하는 데 있어 하나의 강력한 선택지가 될 것입니다.
https://arxiv.org/pdf/2505.14146
'인공지능' 카테고리의 다른 글
AI가 직접 글을 쓴다고? Anthropic의 ‘Claude Explains’ 실험이 주는 의미 (0) | 2025.06.04 |
---|---|
Open Diffusion Language Model - Dream 7B가 보여주는 새로운 언어 모델의 진화 (0) | 2025.06.04 |
정답 없어도 AI가 더 똑똑해진다고? ‘RLVR’이 바꾸는 인공지능 훈련 방식 (0) | 2025.06.04 |
AI 에이전트 전쟁: Manus, TARS, Genspark, Flowith — 누가 진짜 업무를 대신해줄까? (0) | 2025.06.04 |
AI 모델, 한 번에 Android·iOS·웹에 배포한다고? (0) | 2025.06.03 |