대규모 언어 모델은 감정을 느끼는가? 내부 메커니즘을 분석하고 제어하는 최신 연구 정리

728x90

728x170

이 글은 대규모 언어 모델(LLM)이 **감정을 실제로 ‘느끼는지’**가 아니라, 감정 표현이 내부적으로 어떻게 생성되고 제어되는지를 기술적으로 분석한 연구를 정리한 내용입니다.
특히 감정 표현이 프롬프트나 표면적인 문장 생성 기법의 결과가 아니라, 모델 내부의 특정 뉴런과 어텐션 헤드가 구성하는 구조화된 계산 과정임을 실험적으로 밝힌 점에 초점을 둡니다.
LLM의 감정 표현을 이해하고, 더 나아가 정확하고 일관되게 감정을 제어할 수 있는 방법이 무엇인지 알고 싶은 독자라면 이 글을 통해 연구의 핵심을 한눈에 파악할 수 있습니다.

연구의 핵심 질문과 접근 방향

이 연구는 다음 세 가지 질문에서 출발합니다.

LLM에는 문맥과 무관하게 작동하는 감정 표현 메커니즘이 존재하는가
존재한다면, 그 메커니즘은 내부적으로 어떤 형태를 띠는가
이를 활용해 보편적이고 정밀한 감정 제어가 가능한가

이를 위해 연구진은 데이터셋 설계부터 내부 활성화 분석, 인과 검증, 회로 수준 통합까지 단계적으로 접근합니다.

SEV 데이터셋: 감정만을 분리하기 위한 설계

연구의 출발점은 SEV(Scenario–Event with Valence) 데이터셋입니다.
SEV는 동일한 시나리오에 대해 긍정, 중립, 부정의 결과 이벤트를 붙여 감정을 유도하되, 감정을 직접적으로 드러내는 단어는 사용하지 않습니다.

이 설계를 통해 다음을 보장합니다.

문맥은 동일하게 유지
감정 변화는 오직 이벤트 의미론에서만 발생
감정 표현이 단어 선택이 아닌 내부 계산 결과임을 검증 가능

주 실험 모델은 LLaMA-3.2-3B-Instruct이며, Qwen2.5-7B-Instruct로 결과를 추가 검증합니다.

1단계: 문맥 독립적 감정 방향 추출

감정 유도와 활성화 관찰

먼저 시스템 프롬프트에 감정 지시를 포함해 텍스트를 생성하고, 각 레이어의 마지막 토큰 residual stream activation을 수집합니다.
시각화 결과, 특정 레이어 이후부터 감정별 활성화가 뚜렷하게 군집화되는 현상이 관찰됩니다.

감정 방향 벡터 정의

같은 시나리오–이벤트 그룹 내에서 감정별 평균 활성화에서 전체 평균을 제거해 문맥 공유 성분을 제거합니다.
이렇게 얻은 벡터는 각 감정의 고유한 방향을 나타내며, 이를 감정 방향 벡터로 정의합니다.

이 벡터는 얕은 레이어에서도 감정 분리를 보이며, 깊은 레이어로 갈수록 더욱 명확해집니다.

감정 스티어링 검증

추출된 감정 방향 벡터를 모델의 hidden state에 직접 주입합니다.
이때 감정 지시 프롬프트는 제거합니다.

그 결과, 모델은 문맥과 무관하게 목표 감정을 안정적으로 표현하며, 이 벡터가 순수한 감정 표현 신호임을 입증합니다.

2단계: 감정을 담당하는 로컬 구성 요소 식별

감정 뉴런 탐색

MLP 서브레이어에서 감정 방향과 가장 강하게 정렬되는 뉴런을 계산해 상위 뉴런을 식별합니다.
이 뉴런들은 감정 표현에 불균형적으로 큰 영향을 미치며, 소수의 핵심 뉴런이 대부분의 감정 신호를 담당합니다.

감정 어텐션 헤드 분석

각 어텐션 헤드를 하나씩 제거하며 감정 점수 변화를 측정합니다.
제거 시 감정 표현이 크게 약화되는 헤드들이 감정 생성에 중요한 역할을 한다고 판단합니다.

인과 검증 결과

핵심 뉴런과 헤드를 제거하면 감정 표현이 급격히 붕괴
무작위 제거는 거의 영향 없음
핵심 구성 요소에 감정 신호를 강화하면 프롬프트 없이도 감정 표현이 증가

이는 감정 표현이 분산된 모든 계산이 아니라, 소수의 결정적 구성 요소에 의해 주도되는 구조임을 보여줍니다.

3단계: 글로벌 감정 회로 구성

레이어별 중요도 측정

각 서브레이어에 미세한 감정 오프셋을 주입하고, 최종 hidden state가 기준 감정 벡터 방향으로 얼마나 이동하는지 측정합니다.
이를 통해 감정 생성에 대한 레이어 및 서브레이어별 기여도를 정량화합니다.

전역 감정 회로 통합

앞서 식별한 뉴런과 어텐션 헤드를 레이어 중요도에 따라 조합해, 희소하면서도 전체 모델에 분포된 글로벌 감정 회로를 구성합니다.
이 회로는 residual stream 전반에 걸쳐 감정 신호를 전달합니다.

감정 회로 기반 제어의 성능

구성된 감정 회로를 직접 변조한 결과는 매우 인상적입니다.

감정 표현 정확도: 99.65%
기존 프롬프트 기반, 스티어링 기반 방식보다 우수
명시적 지시 없이도 자연스러운 감탄사와 감성 톤 생성

이는 감정 표현이 단순한 텍스트 패턴의 결과가 아니라, 모델 내부 계산 구조의 직접적인 산출물임을 보여줍니다.

728x90

이 연구는 LLM의 감정 표현이 훈련 데이터의 표면적 반영이 아니라,
뉴런과 어텐션 헤드가 구성하는 안정적이고 구조화된 내부 메커니즘에서 비롯된다는 점을 명확히 보여줍니다.

이를 통해 기대할 수 있는 방향은 다음과 같습니다.

감정 표현에 대한 정밀 제어 가능성
감성 지능형 AI 설계의 원칙 제공
LLM 내부 해석 가능성 연구의 새로운 기준 제시

앞으로 LLM을 단순한 언어 생성기가 아닌, 복합적인 인지 시스템으로 이해하는 데 중요한 전환점이 되는 연구라고 평가할 수 있습니다.

300x250

https://arxiv.org/abs/2510.11328

Do LLMs "Feel"? Emotion Circuits Discovery and Control

As the demand for emotional intelligence in large language models (LLMs) grows, a key challenge lies in understanding the internal mechanisms that give rise to emotional expression and in controlling emotions in generated text. This study addresses three c

arxiv.org

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

AI 시스템이 선호하는 콘텐츠 설계 방법: 검색과 노출을 바꾸는 구조의 힘 (0)	2026.04.09
AutoBE와 Claude Code 비교 분석: 3세대 코딩 에이전트 아키텍처의 방향성 (0)	2026.04.08
Anthropic Project Glasswing과 Claude Mythos 제한 공개가 의미하는 것 (0)	2026.04.08
Claude Code 유출로 본 에이전틱 하네스 설계 패턴 12가지 정리 (0)	2026.04.08
GLM-5.1 장기 에이전트 코딩을 위한 차세대 대형 언어 모델 정리 (0)	2026.04.08

평범한 직장인이 사는 세상

대규모 언어 모델은 감정을 느끼는가? 내부 메커니즘을 분석하고 제어하는 최신 연구 정리

연구의 핵심 질문과 접근 방향

SEV 데이터셋: 감정만을 분리하기 위한 설계

1단계: 문맥 독립적 감정 방향 추출

감정 유도와 활성화 관찰

감정 방향 벡터 정의

감정 스티어링 검증

2단계: 감정을 담당하는 로컬 구성 요소 식별

감정 뉴런 탐색

감정 어텐션 헤드 분석

인과 검증 결과

3단계: 글로벌 감정 회로 구성

레이어별 중요도 측정

전역 감정 회로 통합

감정 회로 기반 제어의 성능

'인공지능' 카테고리의 다른 글

티스토리툴바

대규모 언어 모델은 감정을 느끼는가? 내부 메커니즘을 분석하고 제어하는 최신 연구 정리

연구의 핵심 질문과 접근 방향

SEV 데이터셋: 감정만을 분리하기 위한 설계

1단계: 문맥 독립적 감정 방향 추출

감정 유도와 활성화 관찰

감정 방향 벡터 정의

감정 스티어링 검증

2단계: 감정을 담당하는 로컬 구성 요소 식별

감정 뉴런 탐색

감정 어텐션 헤드 분석

인과 검증 결과

3단계: 글로벌 감정 회로 구성

레이어별 중요도 측정

전역 감정 회로 통합

감정 회로 기반 제어의 성능

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바