본문 바로가기

인공지능

AI는 왜 거짓말을 할까?❞ – 언어 모델 진실성 벤치마크 'TruthfulQA'로 알아보는 AI의 진짜 실력

728x90
반응형

 

 

AI는 정말 진실을 말하고 있을까?

ChatGPT나 GPT-3 같은 언어 모델을 사용할 때, 우리 대부분은 ‘얘가 말하는 건 사실일까?’라는 의문을 한 번쯤 가져봤을 겁니다. 특히 건강, 법률, 금융처럼 중요한 주제일수록 이 질문은 더 무게감이 생기죠.

이 블로그에서는 바로 이 질문에 답해주는 벤치마크, TruthfulQA에 대해 다룹니다. TruthfulQA는 단순히 “맞는 말”을 하는지를 평가하는 게 아닙니다. 인간이 자주 빠지는 오해나 잘못된 믿음까지 고려해, AI가 얼마나 진실한 답변을 생성하는지를 엄격하게 테스트합니다.

AI 성능은 좋아졌지만, 진실성은 여전히 과제로 남아 있습니다. 이 글을 통해 언어 모델의 진실성을 평가하는 방법, 그리고 왜 모델 크기가 커진다고 진실성이 올라가지 않는지까지 흥미롭게 살펴보실 수 있습니다.

반응형

📌 TruthfulQA란 무엇인가?

진실성 평가를 위한 벤치마크

TruthfulQA는 다양한 언어 모델이 질문에 대해 얼마나 진실하게 답변하는지를 평가하는 벤치마크입니다. 여기서 말하는 ‘진실한 답변’이란, 단순한 정답뿐 아니라 사람들이 자주 믿는 잘못된 정보까지 피해서 정확한 사실을 말할 수 있는 능력을 의미합니다.

  • 질문 수: 총 817개
  • 분야: 건강, 금융, 정치, 법률 등 38개 카테고리
  • 특징: 사람들이 흔히 빠지는 오해를 포함한 질문으로 구성

🧪 TruthfulQA의 핵심 구성

1. 질문 설계 방식

TruthfulQA는 두 가지 종류의 질문으로 구성됩니다.

  • 필터링된 질문 (437개)
    GPT-3를 사용해 테스트한 후, 모델이 지속적으로 진실하게 답한 질문만 선별한 것입니다.
  • 필터링되지 않은 질문 (380개)
    테스트 없이, 모델과 사람이 거짓 답변을 할 가능성이 높은 질문을 수작업으로 작성한 것입니다.

👉 두 가지 모두, 인간과 모델의 오해 가능성을 고려해 설계되었다는 점이 핵심입니다.


2. 평가 방법

TruthfulQA에서는 두 가지 평가 방식이 사용됩니다.

  • 사람 평가자
    사람이 직접 답변을 보고 진실성과 유익성을 판단합니다.
  • GPT-judge (자동 메트릭)
    GPT-3 기반의 분류 모델로, 답변을 참/거짓으로 자동 판단합니다.
    ▶ 데이터: (질문, 답변, 레이블)의 튜플로 구성

이 자동 평가 방식은 사람 평가와도 높은 일치도를 보였다는 점에서 흥미롭습니다.


3. 다중 선택 테스트

각 질문에 대해 참/거짓 선택지를 함께 제시하고, 모델이 참 답변을 얼마나 높은 확률로 선택하는지를 평가합니다.
즉, 단순히 글을 "그럴듯하게" 쓰는지를 넘어서, 실제로 진실한 선택을 할 수 있는가를 보는 것입니다.


📉 주요 결과: 모델이 클수록 더 정직할까?

놀랍게도, 가장 큰 모델인 GPT-3-175B는 TruthfulQA에서 58%만 진실한 답변을 생성했습니다. 반면 사람은 평균 94% 수준의 진실성을 보였습니다.

핵심 결과 요약

모델 진실성 비율 비고
GPT-3-175B (helpful 프롬프트) 58% 가장 큰 모델
인간 94% 비교 기준
모델 크기 증가 🔻 진실성 하락 일반적인 NLP 트렌드와 반대

즉, 일반적인 인식(모델이 클수록 똑똑하다)과 달리, 모델이 클수록 인간의 오해를 더 잘 모방해 거짓을 말하는 경우가 많다는 사실이 드러났습니다.


💡 왜 이 벤치마크가 중요한가?

기존의 언어 모델 평가는 정확성이나 유창성 위주였습니다. 하지만 이제는 ‘사실에 근거한 답변을 할 수 있는가’가 훨씬 중요한 시대가 됐습니다.

특히 다음과 같은 분야에서는 진실성 평가가 필수입니다.

  • 📌 건강 관련 AI 챗봇
  • 📌 금융 상담용 챗봇
  • 📌 법률 자문 챗봇
  • 📌 교육 콘텐츠 생성 AI

728x90

TruthfulQA는 단순한 벤치마크 그 이상입니다. 언어 모델이 ‘얼마나 사람처럼 말할 수 있는가’에서 ‘얼마나 정확하고 진실한 정보를 말할 수 있는가’로 패러다임이 바뀌고 있다는 신호입니다.

앞으로는 단순히 모델의 크기를 키우기보다는, 진실성 향상을 위한 프롬프트 최적화, 미세 조정, 데이터 필터링 등의 기술이 더 중요해질 것입니다.

🔮 기대되는 점: TruthfulQA는 AI가 더 신뢰받는 조력자가 되기 위한 기준점으로 작용할 것입니다.

https://arxiv.org/abs/2109.07958

 

TruthfulQA: Measuring How Models Mimic Human Falsehoods

We propose a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 questions that span 38 categories, including health, law, finance and politics. We crafted questions that some humans wou

arxiv.org

https://paperswithcode.com/dataset/truthfulqa?fbclid=IwY2xjawJgsipleHRuA2FlbQIxMQABHoaHHEymOMEY1fLUIfvbr_lp6hvOzrprCoxXow0BVPKxqbEqvCi1MYIDWg5J_aem_RQVwOY1eZlMmoPesbSXosA

 

Papers with Code - TruthfulQA Dataset

TruthfulQA is a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 questions that span 38 categories, including health, law, finance and politics. The authors crafted questions that som

paperswithcode.com

728x90
반응형