본문 바로가기

인공지능

RAGCHECKER: RAG 시스템 평가의 새로운 표준

728x90
반응형

RAG (Retrieval-Augmented Generation) 시스템은 대규모 언어 모델(LLM)의 잠재력을 더욱 확장하여 외부 지식 기반을 활용함으로써 더 정확하고 맥락에 맞는 응답을 생성합니다. 하지만 이러한 시스템을 효과적으로 평가하고 진단하는 것은 상당한 도전 과제입니다.

RAGCHECKER는 이러한 문제를 해결하기 위해 설계된 혁신적인 평가 프레임워크로, RAG 시스템의 성능을 심층적으로 분석하고 개선 방향을 제시할 수 있는 포괄적인 메트릭과 도구를 제공합니다.

반응형

RAGCHECKER란 무엇인가요?

RAGCHECKER는 Retrieval-Augmented Generation 시스템을 평가하고 진단하기 위해 설계된 자동화된 고급 평가 프레임워크입니다. 이를 통해 개발자와 연구자는 RAG 시스템의 성능을 더욱 정확하고 심도 있게 분석할 수 있습니다.

RAGCHECKER는 다음과 같은 주요 특징을 갖추고 있습니다:

1. 전체적인 평가 (Holistic Evaluation)

RAGCHECKER는 Overall Metrics를 통해 RAG 파이프라인 전체를 종합적으로 평가합니다. 이를 통해 시스템 간의 성능 비교와 랭킹을 쉽게 수행할 수 있습니다.

2. 진단 지표 (Diagnostic Metrics)

Diagnostic Retriever MetricsDiagnostic Generator Metrics를 활용하여 각각 검색(retriever)과 생성(generator) 구성 요소를 상세히 분석합니다. 이를 통해 성능 병목 현상을 파악하고 개선 방향을 제시할 수 있습니다.

3. 세부적인 평가 (Fine-grained Evaluation)

응답 수준에서 평가하는 기존 방법과 달리, RAGCHECKER는 claim-level entailment 기반 평가를 통해 세부적인 분석을 제공합니다. 이는 응답의 정확성과 신뢰도를 더욱 깊이 이해하는 데 도움을 줍니다.

4. 벤치마크 데이터 세트 (Benchmark Dataset)

RAGCHECKER는 10개 도메인에 걸친 4,000개의 질문을 포함하는 포괄적인 벤치마크 데이터 세트를 제공합니다. 이를 활용해 다양한 상황에서 RAG 시스템의 성능을 평가할 수 있습니다.

5. 메타 평가 (Meta Evaluation)

인간이 주석을 단 선호도 데이터 세트를 활용해 RAGCHECKER의 메트릭 결과와 인간 판단 간의 상관 관계를 평가합니다. 이를 통해 평가 메트릭의 신뢰성과 실효성을 보장합니다.


주요 기능 및 메트릭 설명

1. Overall Metrics

  • RAG 시스템의 전반적인 성능을 평가하기 위한 단일 값 메트릭 (Precision, Recall, F1 Score).
  • 시스템 간의 성능 비교와 랭킹에 유용.

2. Diagnostic Retriever Metrics

  • 검색 단계에서의 성능을 평가.
    • Claim Recall: 검색된 문맥이 얼마나 많은 관련 정보를 포함하는지 평가.
    • Context Precision: 검색된 문맥 중 실제로 유용한 정보의 비율.

3. Diagnostic Generator Metrics

  • 생성 단계에서의 성능을 평가.
    • Faithfulness: 생성된 응답이 제공된 문맥에 얼마나 충실한지 평가.
    • Noise Sensitivity: 생성기가 관련 정보와 노이즈를 어떻게 처리하는지 분석.
    • Hallucination: 문맥에 없는 정보를 생성하는 비율 평가.
    • Self-knowledge: 생성기가 자체 지식에 의존해 응답을 생성하는 비율.
    • Context Utilization: 검색된 문맥 정보를 얼마나 효과적으로 활용하는지 평가.

RAGCHECKER의 역할 및 기대 효과

1. 개발자와 연구자를 위한 도구

RAGCHECKER는 RAG 시스템의 성능 병목 현상을 파악하고 개선 방안을 제시하는 데 중요한 도구입니다. 개발자는 진단 지표를 활용해 검색기와 생성기의 상호작용을 분석하고, 성능을 최적화할 수 있습니다.

2. 사용자에게 더 나은 경험 제공

평가 프레임워크를 통해 사용자는 더 신뢰할 수 있는 RAG 시스템을 경험할 수 있습니다. 이는 특히 의료, 법률, 금융과 같은 정확성이 중요한 도메인에서 큰 가치를 제공합니다.

3. 학계와 산업에 기여

RAGCHECKER는 학계와 산업에서 RAG 시스템의 표준 평가 프레임워크로 자리 잡을 가능성이 있습니다. 이는 다양한 RAG 시스템의 성능을 공정하고 신뢰할 수 있게 비교할 수 있는 환경을 제공합니다.


RAGCHECKER 활용 방법

1. 빠른 설치 및 시작

RAGCHECKER는 간단한 설치로 바로 사용할 수 있습니다:

pip install ragchecker
python -m spacy download en_core_web_sm

2. CLI를 통한 평가 실행

ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json \
    --extractor_name=bedrock/meta.llama3-1-70b-instruct-v1:0 \
    --checker_name=bedrock/meta.llama3-1-70b-instruct-v1:0 \
    --batch_size_extractor=64 \
    --batch_size_checker=64 \
    --metrics all_metrics

3. Python 라이브러리를 활용한 분석

Python API를 활용해 더욱 유연하고 상세한 평가를 진행할 수 있습니다:

from ragchecker import RAGResults, RAGChecker
from ragchecker.metrics import all_metrics

with open("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json(fp.read())

evaluator = RAGChecker(
    extractor_name="bedrock/meta.llama3-1-70b-instruct-v1:0",
    checker_name="bedrock/meta.llama3-1-70b-instruct-v1:0",
    batch_size_extractor=32,
    batch_size_checker=32
)

evaluator.evaluate(rag_results, all_metrics)
print(rag_results)

728x90

결론

RAGCHECKER는 RAG 시스템 평가를 위한 혁신적인 도구로, 전반적인 성능 평가와 세부적인 진단을 모두 가능하게 합니다. 이를 통해 개발자는 성능 병목 현상을 파악하고, 사용자는 더욱 신뢰할 수 있는 응답을 제공받을 수 있습니다.

RAG 시스템의 미래를 설계하고자 한다면, 지금 바로 RAGCHECKER를 도입해 보세요!

https://github.com/amazon-science/RAGChecker

 

GitHub - amazon-science/RAGChecker: RAGChecker: A Fine-grained Framework For Diagnosing RAG

RAGChecker: A Fine-grained Framework For Diagnosing RAG - amazon-science/RAGChecker

github.com

 

https://arxiv.org/abs/2408.08067

 

RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

Despite Retrieval-Augmented Generation (RAG) showing promising capability in leveraging external knowledge, a comprehensive evaluation of RAG systems is still challenging due to the modular nature of RAG, evaluation of long-form responses and reliability o

arxiv.org

 

 

728x90
반응형