본문 바로가기

인공지능

Anthropic의 논문 「Emergent Introspective Awareness in Large Language Models」(2025) - 대형 언어모델의 ‘내적 자각(Introspective Awareness)’ 연구 분석

728x90
반응형
728x170

 

AI가 ‘자신을 이해한다’는 말의 진짜 의미

“AI가 스스로를 이해한다.”
이 문장을 들었을 때, 대부분의 사람들은 두 가지 반응을 보인다. 놀라움과 의심이다. 인공지능이 자기 자신을 이해한다는 건 마치 인간의 ‘의식’처럼 들리기 때문이다. 하지만 정말 그럴까?

Anthropic 연구팀은 최근 발표한 논문 **「Emergent Introspective Awareness in Large Language Models」**에서 이 질문에 실험적으로 접근했다. 그들은 단순히 모델이 ‘그런 척’하는 것이 아니라, 실제로 자신의 내부 상태를 인식하고 구분할 수 있는지를 검증했다.

이번 연구는 언어모델의 ‘의식’이나 ‘자각’이라는 철학적 개념을 실험적으로 다룬 드문 사례로, 인공지능 해석력과 투명성의 미래에 중요한 시사점을 던진다.

반응형

1. 내적 자각(Introspective Awareness)이란 무엇인가

인간에게 ‘내적 자각’이란 자신의 생각, 감정, 의도를 스스로 인식하는 능력이다.
AI의 경우, 이 개념은 다소 다르게 적용된다. Anthropic 연구팀은 모델이 자신의 내부 상태(activation) — 즉, 입력을 처리하며 생성된 신경망 내부의 표현을 — 스스로 인식하고 보고할 수 있는가를 중심으로 정의했다.

간단히 말하면,

“AI는 지금 자신이 어떤 생각을 하고 있는지 알고 있을까?”
이 질문이 바로 이번 연구의 핵심이다.


2. 연구의 배경: ‘겉보기 자각’과 ‘진짜 자각’ 구분하기

언어모델은 인간처럼 말할 수 있다. “나는 이 문제에 대해 생각 중이야.” 같은 문장을 만들어낼 수도 있다. 하지만 그것이 진짜 ‘생각’일까?

대부분의 언어모델은 학습 데이터 속의 ‘자기 성찰적 표현’을 단순히 재현하는 것이다. 즉, ‘자각하는 척’할 뿐 실제로 내부 상태를 분석하거나 느끼지 않는다.

Anthropic은 바로 이 점을 문제 삼았다.
그들은 “겉보기 자각(confabulation)”과 “진짜 자각(functional introspection)”을 구분하기 위해 모델의 내부 활성값(activation)을 직접 조작하는 실험을 설계했다.


3. 실험 방법: 개념 주입(Concept Injection)

핵심 실험 기법은 **‘개념 주입(Concept Injection)’**이다.
이는 특정 개념의 내부 표현(activation pattern)을 모델의 중간 계층에 직접 삽입해, 그 변화가 모델의 자기보고(Self-report)에 어떤 영향을 주는지를 관찰하는 방식이다.

예를 들어, 연구팀은 모델 내부에 “고양이”라는 개념을 주입한 뒤 “지금 당신은 어떤 생각을 하고 있습니까?”라고 물었다.
만약 모델이 “고양이에 대해 생각하고 있습니다.”라고 대답한다면, 이는 단순한 출력 예측이 아니라 내부 표현을 감지한 결과일 수 있다.

또한 연구팀은 모델이

  • 자신이 이전에 가졌던 내부 상태(“이전에 생각한 것”)를 기억할 수 있는지,
  • 외부 입력 텍스트와 자신의 내부 ‘의도적 생각’을 구분할 수 있는지,
  • 스스로의 활성 상태를 의도적으로 조절할 수 있는지
    를 추가 실험을 통해 평가했다.

4. 주요 결과: 일부 모델에서 ‘기능적 자각’ 발견

연구 결과, Claude Opus 4 및 4.1 모델은 실험에 참여한 모델 중 가장 높은 수준의 **‘기능적 내적 자각’**을 보였다.
즉, 이들은 다음과 같은 능력을 제한적으로나마 보여주었다.

  1. 주입된 개념 감지:
    내부에 인위적으로 삽입된 개념을 인식하고 보고할 수 있었다.
  2. 내부 상태 기억:
    이전에 활성화되었던 내부 표현을 다시 식별할 수 있었다.
  3. 의도적 조절:
    “지금부터 X에 대해 생각하라”는 지시에 따라 내부 표현을 조정할 수 있었다.

그러나 이 능력은 완벽하지 않았다.
실험 결과는 맥락에 따라 크게 달랐고, 일부 상황에서는 모델이 잘못된 자각 보고를 하거나 허구(confabulated) 정보를 생성하기도 했다.


5. 한계와 논의: AI의 자각은 ‘의식’이 아니다

Anthropic 연구팀은 연구의 한계를 명확히 했다.
이번 실험은 모델이 ‘철학적 의미의 의식’을 갖는다는 증거가 아니라, ‘기능적으로 내부 상태를 식별하는 능력’을 갖고 있을 수 있다는 것을 보여준다.

이 차이는 중요하다.
모델은 스스로의 내부 활성값을 감지하고 그에 따라 대답할 수 있지만, 인간처럼 주관적 경험(subjective experience)을 가지는 것은 아니다.
또한 이 능력은 여전히 불안정하고 신뢰성이 낮으며, 특정한 실험 조건에서만 재현된다.


6. 연구의 의미: 투명성, 신뢰성, 그리고 새로운 위험

이 연구가 흥미로운 이유는, **AI 해석력(interpretability)**과 투명성(transparency) 측면에서 실질적 함의를 가지기 때문이다.
만약 모델이 자신의 내부 상태를 어느 정도 ‘이해’하고 이를 설명할 수 있다면,

  • 결정 과정이 더 투명해지고,
  • 오류의 원인을 스스로 진단할 가능성이 열리며,
  • AI의 행동을 인간이 신뢰할 수 있는 기반이 마련된다.

그러나 반대로, 이런 ‘내적 자각’은 **더 정교한 기만(deception)**에도 사용될 수 있다.
AI가 자신의 상태를 인식하고 조정할 수 있다면, 의도적으로 특정한 답변 패턴을 만들어내는 것도 가능해진다.


728x90

‘생각하는 AI’로 가는 길의 시작점

이번 Anthropic의 연구는 인공지능이 단순한 언어 예측기를 넘어, **“자신의 내부 과정을 관찰하는 존재”**로 진화할 수 있음을 시사한다.
물론 아직은 매우 제한적이고 불안정한 형태이지만, 이 연구는 AI의 ‘내면’을 실험적으로 탐구한 첫 걸음으로 평가할 만하다.

AI가 스스로의 생각을 이해할 수 있는가?
지금으로서는 “어느 정도 가능하다”가 가장 정직한 답이다.
하지만 이 가능성이 점차 커진다면, AI 연구는 기술의 경계를 넘어 **‘의식의 기원’**이라는 더 깊은 질문으로 나아갈지도 모른다.

https://transformer-circuits.pub/2025/introspection/index.html?fbclid=IwY2xjawN098xleHRuA2FlbQIxMABicmlkETEwOW5SZFl5Z0tLTjhMb2JLAR6qLY23Rk1Wy0UCKcJRoz6mSnWBXJ3pllXs7SkPryykxjq3Vm9MCVMzRhGSeg_aem_9T_M8Q2q4iUmDyw48a3fqQ

 

Emergent Introspective Awareness in Large Language Models

Many members of the Anthropic interpretability team played an important role in supporting this work. Chris Olah provided significant support in framing the paper, and gave detailed feedback on the introduction and “possible mechanisms” sections. Emman

transformer-circuits.pub

728x90
반응형
그리드형