728x90

728x170

대규모 언어 모델(LLM)의 추론 능력을 평가할 때 우리는 보통 생성된 토큰 수를 기준으로 삼아왔습니다. 답변이 길수록 더 깊이 사고했다고 판단해 온 것입니다. 그러나 2026년 2월 12일 발표된 “Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens”는 이러한 가정에 의문을 제기합니다.

이 연구는 토큰 길이가 실제 추론 품질을 제대로 반영하지 못하며, 오히려 과도한 생성은 성능 저하로 이어질 수 있다고 설명합니다. 대신 모델이 내부적으로 얼마나 깊이 생각했는지를 측정하는 새로운 지표인 Deep-Thinking Token과 **Deep-Thinking Ratio(DTR)**를 제안합니다.

이 글에서는 해당 연구의 핵심 개념, 방법론, 실험 결과, 그리고 이를 활용한 Think@n 전략까지 체계적으로 정리합니다.

1. 기존 LLM 추론 평가의 한계

1-1. 토큰 길이는 왜 신뢰하기 어려운가

기존에는 모델이 길게 설명할수록 더 많은 추론을 수행했다고 간주하는 경향이 있었습니다. 하지만 실험 결과는 다르게 나타났습니다.

토큰 길이와 정확도 사이 평균 상관계수: r = -0.594
길어질수록 오히려 정확도가 낮아지는 경향

즉, 많이 쓰는 것이 잘 푸는 것과 연결되지 않았습니다. 이는 ‘과잉 사고(overthinking)’ 현상을 보여줍니다. 불필요하게 길어지는 추론은 오히려 오류 가능성을 높일 수 있습니다.

1-2. 신뢰도 기반 지표의 한계

대안으로 사용된 지표들:

로그 확률(Log probability)
음의 퍼플렉시티(Negative perplexity)
음의 엔트로피(Negative entropy)
Self-Certainty

이 지표들은 일부 벤치마크에서 양의 상관관계를 보였지만, 모델과 과제에 따라 일관성이 부족했습니다.

결론적으로 “얼마나 길게 썼는가”도, “얼마나 자신 있어 보이는가”도 추론의 질을 안정적으로 설명하지 못했습니다.

2. Deep-Thinking Token이란 무엇인가

2-1. 핵심 아이디어

Deep-Thinking Token은 모델이 내부적으로 예측을 크게 수정하며 깊은 레이어까지 사고한 흔적이 있는 토큰을 의미합니다.

LLM은 여러 개의 트랜스포머 레이어로 구성되어 있으며, 각 토큰을 생성할 때 레이어를 거치며 예측을 점진적으로 정제합니다.

연구진은 다음 질문을 던졌습니다.

모델이 특정 토큰을 생성할 때, 내부 예측이 얼마나 오랫동안 흔들리며 수정되는가?

이 내부 수정 과정을 통해 ‘실제 사고 노력’을 포착합니다.

2-2. DTR 계산 방식

Deep-Thinking Ratio(DTR)는 다음 절차를 통해 계산됩니다.

1단계. 레이어별 예측 분포 계산

각 레이어의 hidden state를 어휘 공간으로 투영
softmax를 통해 중간 예측 분포 생성

2단계. 최종 레이어와의 차이 측정

중간 레이어 분포와 최종 레이어 분포 간
Jensen–Shannon Divergence(JSD) 계산

3단계. 안정화 깊이(Settling Depth) 정의

예측 분포가 일정 임계값 이하로 안정화되는 최초 레이어 탐색
이 레이어를 settling depth로 정의

4단계. Deep-Thinking Token 분류

전체 레이어 중 깊은 영역(예: 85% 이후)에 도달해야 안정화된 경우
해당 토큰을 Deep-Thinking Token으로 분류

2-3. Deep-Thinking Ratio(DTR)

DTR은 전체 시퀀스에서 Deep-Thinking Token이 차지하는 비율입니다.

DTR(S) = (Deep-Thinking Token 수) / (전체 토큰 수)

값이 높을수록 모델이 해당 답변을 생성하는 과정에서 깊은 내부 사고를 수행했다는 의미입니다.

3. 실험 결과 분석

3-1. 실험 환경

벤치마크: AIME 2024/2025, HMMT 2025, GPQA-diamond
모델: GPT-OSS, DeepSeek-R1, Qwen3
문제당 25개 응답 샘플링
Pearson 상관계수로 정확도와의 관계 분석

3-2. 주요 결과 비교

지표	평균 상관계수(r)	특징
토큰 길이	-0.594	길수록 정확도 하락
신뢰도 기반 지표	0.219 ~ 0.605	일관성 부족
DTR	0.683	강력하고 안정적

DTR은 모든 모델과 벤치마크에서 가장 높은 상관관계를 보였습니다.

또한 하이퍼파라미터 실험 결과:

settling threshold g = 0.5
depth fraction ρ = 0.85

일 때 가장 이상적인 균형을 보였습니다.

4. Think@n: DTR을 활용한 비용 절감 전략

4-1. 기존 방식: Cons@n

Self-consistency(Cons@n)는 여러 개의 응답을 생성하고 다수결로 최종 답을 선택합니다. 정확도는 높지만 모든 샘플을 끝까지 생성하기 때문에 비용이 큽니다.

4-2. Think@n 작동 방식

Think@n은 다음과 같이 동작합니다.

여러 샘플 병렬 생성
짧은 접두사 단계에서 DTR 추정
낮은 DTR 샘플은 조기 중단
높은 DTR 샘플만 유지해 다수결 수행

즉, “깊게 생각하지 않는 샘플”은 초기에 제거합니다.

4-3. 성능 비교

AIME 25 기준 (GPT-OSS-120B-medium 모델)

Cons@n: 정확도 92.7%, 비용 307.6k 토큰
Think@n: 정확도 94.7%, 비용 155.4k 토큰

정확도는 더 높이고, 비용은 약 절반으로 줄였습니다.

이는 DTR이 단순 분석 지표를 넘어 실제 추론 전략 최적화에 활용 가능함을 보여줍니다.

5. 왜 이 연구가 중요한가

최근 LLM 성능 개선의 핵심은 inference-time scaling입니다. 더 많은 샘플을 생성하고 더 길게 사고하게 만드는 방식입니다.

하지만 이 연구는 중요한 질문을 던집니다.

길게 말하는 것이 정말 깊게 생각하는 것인가?

Deep-Thinking Token은 길이가 아니라 내부 예측 수정 과정을 기준으로 사고를 측정합니다. 이는 다음과 같은 변화를 예고합니다.

CoT 길이 중심 평가의 재검토
내부 레이어 신호 기반 평가 확산
비용 대비 성능 최적화 전략 발전

728x90

길이보다 깊이, 추론 평가의 패러다임 전환

“Think Deep, Not Just Long”은 LLM 추론 평가 기준을 재정의합니다.

단순히 많이 생성하는 것이 아니라, 내부적으로 얼마나 깊이 수정하며 사고했는지를 측정해야 합니다. Deep-Thinking Token과 DTR은 이를 정량화한 첫 시도입니다.

또한 Think@n 전략은 정확도 향상과 비용 절감이라는 실질적 성과로 이어졌습니다.

앞으로 LLM을 평가하고 개선할 때 핵심 질문은 이것이 될 것입니다.

얼마나 길게 말했는가?
아니라
얼마나 깊이 생각했는가?

이 연구는 더 효율적이고, 더 신뢰할 수 있는 추론 중심 LLM 설계를 위한 중요한 방향을 제시합니다.

300x250

https://arxiv.org/abs/2602.13517

Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens

Large language models (LLMs) have demonstrated impressive reasoning capabilities by scaling test-time compute via long Chain-of-Thought (CoT). However, recent findings suggest that raw token counts are unreliable proxies for reasoning quality: increased ge

arxiv.org

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

Claude Code 활용 방식: 계획과 실행을 분리한 구조적 개발 워크플로우 (0)	2026.02.23
LobsterBoard: 클라우드 없이 동작하는 셀프 호스팅 대시보드 빌더 (0)	2026.02.23
Mini Diarium: 인터넷 연결 없는 로컬 암호화 저널 애플리케이션의 구조와 보안 설계 (0)	2026.02.23
Claude Code에 영구 메모리 추가하기: memvid/claude-brain 플러그인으로 세션 간 맥락 유지하는 방법 (0)	2026.02.23
Step 3.5 Flash: 고속 추론과 에이전트 기능을 결합한 오픈소스 LLM의 새로운 기준 (0)	2026.02.23

평범한 직장인이 사는 세상

LLM은 길게 말할수록 더 똑똑할까? - Deep-Thinking Token으로 추론 능력 측정하기

1. 기존 LLM 추론 평가의 한계

1-1. 토큰 길이는 왜 신뢰하기 어려운가

1-2. 신뢰도 기반 지표의 한계

2. Deep-Thinking Token이란 무엇인가

2-1. 핵심 아이디어

2-2. DTR 계산 방식

1단계. 레이어별 예측 분포 계산

2단계. 최종 레이어와의 차이 측정

3단계. 안정화 깊이(Settling Depth) 정의

4단계. Deep-Thinking Token 분류

2-3. Deep-Thinking Ratio(DTR)

3. 실험 결과 분석

3-1. 실험 환경

3-2. 주요 결과 비교

4. Think@n: DTR을 활용한 비용 절감 전략

4-1. 기존 방식: Cons@n

4-2. Think@n 작동 방식

4-3. 성능 비교

5. 왜 이 연구가 중요한가

길이보다 깊이, 추론 평가의 패러다임 전환

'인공지능' 카테고리의 다른 글

티스토리툴바

LLM은 길게 말할수록 더 똑똑할까? - Deep-Thinking Token으로 추론 능력 측정하기

1. 기존 LLM 추론 평가의 한계

1-1. 토큰 길이는 왜 신뢰하기 어려운가

1-2. 신뢰도 기반 지표의 한계

2. Deep-Thinking Token이란 무엇인가

2-1. 핵심 아이디어

2-2. DTR 계산 방식

1단계. 레이어별 예측 분포 계산

2단계. 최종 레이어와의 차이 측정

3단계. 안정화 깊이(Settling Depth) 정의

4단계. Deep-Thinking Token 분류

2-3. Deep-Thinking Ratio(DTR)

3. 실험 결과 분석

3-1. 실험 환경

3-2. 주요 결과 비교

4. Think@n: DTR을 활용한 비용 절감 전략

4-1. 기존 방식: Cons@n

4-2. Think@n 작동 방식

4-3. 성능 비교

5. 왜 이 연구가 중요한가

길이보다 깊이, 추론 평가의 패러다임 전환

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바