본문 바로가기

인공지능

AI가 거짓말을 하는 이유: 언어 모델 환각(Hallucination)의 비밀

728x90
반응형
728x170

인공지능 언어 모델은 우리가 정보를 찾거나 아이디어를 정리할 때 점점 더 많이 활용되고 있습니다. 그러나 아무리 성능이 발전해도 여전히 해결되지 않는 문제가 있습니다. 바로 환각(hallucination)입니다. 환각은 언어 모델이 실제로는 모르는 사실을 마치 사실인 것처럼 자신 있게 말하는 현상입니다.

예를 들어, 특정 학자의 논문 제목이나 생일을 물어봤을 때 존재하지 않는 내용을 매우 설득력 있게 답변하는 경우가 있습니다. 이런 현상은 단순한 오류가 아니라 언어 모델의 학습 방식과 평가 체계에 뿌리를 두고 있습니다. 이번 글에서는 언어 모델 환각이 발생하는 원인과 배경, 이를 줄이기 위한 방법을 정리해 보겠습니다.

반응형

환각(Hallucination)이란 무엇인가

환각은 언어 모델이 그럴듯하지만 틀린 정보를 만들어내는 현상을 말합니다. 이는 일반적인 오탈자나 문법 오류와는 다릅니다. 문장 자체는 자연스럽고 논리적으로 보이지만, 사실과 맞지 않는 내용을 담고 있는 것입니다.

예시로, 연구진이 챗봇에게 한 저자의 박사 학위 논문 제목을 물었을 때, 모델은 세 번을 물어볼 때마다 서로 다른 제목을 자신 있게 답변했습니다. 그러나 그 답변 중 어떤 것도 사실이 아니었습니다. 마찬가지로 생일을 물어봤을 때도 세 번의 답변이 모두 달랐습니다. 이런 사례는 환각이 얼마나 흔하게 발생하는지를 잘 보여줍니다.


왜 언어 모델은 환각을 일으키는가

1. 평가 체계의 문제

현재 언어 모델의 성능은 주로 정확도(accuracy) 중심으로 평가됩니다. 문제는 이 평가 체계가 환각을 유도한다는 점입니다.

  • 정답을 맞히면 점수를 얻습니다.
  • 모르겠다고 답하면 무조건 0점입니다.
  • 잘 모르더라도 찍어서 맞히면 점수를 얻을 수 있습니다.

즉, 언어 모델은 솔직하게 “모르겠다”라고 답하는 것보다 틀리더라도 답을 내놓는 것이 더 유리합니다. 이 때문에 환각이 계속 발생하는 구조적 문제가 생깁니다.

이를 사람의 시험에 비유하면 더 이해가 쉽습니다. 객관식 시험에서 답을 모를 때 찍으면 맞을 가능성이 있습니다. 반면, 빈칸으로 두면 무조건 0점입니다. 현재 평가 체계는 모델이 정답률을 높이기 위해 “찍기 전략”을 쓰도록 강제하는 셈입니다.

2. 학습 방식의 한계

언어 모델은 다음 단어 예측(next-word prediction) 방식으로 훈련됩니다. 이는 주어진 문맥에서 다음에 올 단어를 확률적으로 맞히는 과정입니다.

  • 문법, 철자, 괄호 짝짓기 같은 규칙적 패턴은 학습을 통해 거의 완벽하게 처리할 수 있습니다.
  • 그러나 특정 인물의 생일이나 논문 제목처럼 무작위적이고 빈도가 낮은 사실 정보는 패턴만으로 예측할 수 없습니다.

결과적으로 언어 모델은 일관된 규칙에는 강하지만, 사실 검증이 필요한 영역에서는 오류를 피하기 어렵습니다.


평가 기준의 한계와 개선 방향

기존 평가의 문제점

대부분의 벤치마크 시험은 정확한 답만 점수화합니다. 따라서 환각으로 잘못된 답변을 하는 경우와 “모르겠다”라고 답하는 경우를 똑같이 0점 처리합니다. 이로 인해 모델은 겸손하게 불확실성을 표현하는 대신 틀린 답이라도 말하도록 유도됩니다.

실제로 GPT-5 시스템 카드에서 공개된 실험에 따르면, 작은 모델인 o4-mini는 정확도가 24%로 높게 나왔지만, 환각률(잘못된 답변률)은 75%에 달했습니다. 반면 gpt-5-thinking-mini는 정확도는 22%로 조금 낮았지만, 환각률은 26%로 훨씬 낮았습니다. 대신 이 모델은 모른다고 답하는 비율(Abstention rate)이 52%로 매우 높았습니다. 즉, 정확도만 보면 성능이 낮아 보이지만 실제로는 더 신뢰할 수 있는 모델입니다.

개선 방향

평가 체계를 바꾸는 것이 핵심입니다.

  • 틀린 답변에는 강한 패널티를 주어야 합니다.
  • **불확실성 표현(“모른다”)**에는 부분 점수를 부여해야 합니다.
  • 정답만 중시하는 방식이 아니라, 모델이 얼마나 자기 한계를 인식하고 정확성을 유지하려 하는지를 평가해야 합니다.

이는 일부 표준화 시험에서 쓰이는 방식과 유사합니다. 예를 들어, 오답에는 감점을 주고, 모르는 문제는 무응답으로 남기면 감점이 없는 방식입니다.


환각에 대한 잘못된 통념과 사실

  • 통념 1: 정확도가 높아지면 환각이 사라진다.
    → 사실: 100% 정확도는 불가능합니다. 답 자체가 존재하지 않는 질문도 있기 때문입니다.
  • 통념 2: 환각은 피할 수 없는 문제다.
    → 사실: 모델이 불확실성을 표현한다면 충분히 줄일 수 있습니다.
  • 통념 3: 환각을 줄이려면 더 큰 모델이 필요하다.
    → 사실: 오히려 작은 모델이 “자신이 모른다”고 솔직히 답할 가능성이 높습니다.
  • 통념 4: 환각은 AI의 미스터리한 오류다.
    → 사실: 환각은 언어 모델의 학습·평가 구조에서 비롯된 통계적 현상입니다.

728x90

언어 모델 환각은 단순한 실수가 아니라 학습과 평가 체계에서 발생하는 구조적 문제입니다. 언어 모델이 진짜로 신뢰받으려면, 성능을 높이는 것 못지않게 평가 기준을 바꾸는 노력이 필요합니다. 특히 “모른다”라는 답변이 불이익이 아닌 올바른 태도로 인정받도록 해야 합니다.

궁극적으로, 언어 모델이 사람과 협업하는 파트너로 자리 잡기 위해서는 정확성을 높이는 것뿐 아니라 겸손함을 설계하는 것이 핵심입니다. 앞으로의 연구는 모델이 언제나 자신 있는 답변만 내놓는 것이 아니라, 불확실할 때는 주저 없이 “모른다”고 답할 수 있도록 만드는 방향으로 발전할 것입니다.

https://openai.com/index/why-language-models-hallucinate/

728x90
반응형
그리드형