
대규모 언어 모델(LLM)의 추론 능력을 평가할 때 우리는 보통 생성된 토큰 수를 기준으로 삼아왔습니다. 답변이 길수록 더 깊이 사고했다고 판단해 온 것입니다. 그러나 2026년 2월 12일 발표된 “Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens”는 이러한 가정에 의문을 제기합니다.
이 연구는 토큰 길이가 실제 추론 품질을 제대로 반영하지 못하며, 오히려 과도한 생성은 성능 저하로 이어질 수 있다고 설명합니다. 대신 모델이 내부적으로 얼마나 깊이 생각했는지를 측정하는 새로운 지표인 Deep-Thinking Token과 **Deep-Thinking Ratio(DTR)**를 제안합니다.
이 글에서는 해당 연구의 핵심 개념, 방법론, 실험 결과, 그리고 이를 활용한 Think@n 전략까지 체계적으로 정리합니다.
1. 기존 LLM 추론 평가의 한계
1-1. 토큰 길이는 왜 신뢰하기 어려운가
기존에는 모델이 길게 설명할수록 더 많은 추론을 수행했다고 간주하는 경향이 있었습니다. 하지만 실험 결과는 다르게 나타났습니다.
- 토큰 길이와 정확도 사이 평균 상관계수: r = -0.594
- 길어질수록 오히려 정확도가 낮아지는 경향
즉, 많이 쓰는 것이 잘 푸는 것과 연결되지 않았습니다. 이는 ‘과잉 사고(overthinking)’ 현상을 보여줍니다. 불필요하게 길어지는 추론은 오히려 오류 가능성을 높일 수 있습니다.
1-2. 신뢰도 기반 지표의 한계
대안으로 사용된 지표들:
- 로그 확률(Log probability)
- 음의 퍼플렉시티(Negative perplexity)
- 음의 엔트로피(Negative entropy)
- Self-Certainty
이 지표들은 일부 벤치마크에서 양의 상관관계를 보였지만, 모델과 과제에 따라 일관성이 부족했습니다.
결론적으로 “얼마나 길게 썼는가”도, “얼마나 자신 있어 보이는가”도 추론의 질을 안정적으로 설명하지 못했습니다.
2. Deep-Thinking Token이란 무엇인가
2-1. 핵심 아이디어
Deep-Thinking Token은 모델이 내부적으로 예측을 크게 수정하며 깊은 레이어까지 사고한 흔적이 있는 토큰을 의미합니다.
LLM은 여러 개의 트랜스포머 레이어로 구성되어 있으며, 각 토큰을 생성할 때 레이어를 거치며 예측을 점진적으로 정제합니다.
연구진은 다음 질문을 던졌습니다.
모델이 특정 토큰을 생성할 때, 내부 예측이 얼마나 오랫동안 흔들리며 수정되는가?
이 내부 수정 과정을 통해 ‘실제 사고 노력’을 포착합니다.
2-2. DTR 계산 방식
Deep-Thinking Ratio(DTR)는 다음 절차를 통해 계산됩니다.
1단계. 레이어별 예측 분포 계산
- 각 레이어의 hidden state를 어휘 공간으로 투영
- softmax를 통해 중간 예측 분포 생성
2단계. 최종 레이어와의 차이 측정
- 중간 레이어 분포와 최종 레이어 분포 간
- Jensen–Shannon Divergence(JSD) 계산
3단계. 안정화 깊이(Settling Depth) 정의
- 예측 분포가 일정 임계값 이하로 안정화되는 최초 레이어 탐색
- 이 레이어를 settling depth로 정의
4단계. Deep-Thinking Token 분류
- 전체 레이어 중 깊은 영역(예: 85% 이후)에 도달해야 안정화된 경우
- 해당 토큰을 Deep-Thinking Token으로 분류
2-3. Deep-Thinking Ratio(DTR)
DTR은 전체 시퀀스에서 Deep-Thinking Token이 차지하는 비율입니다.
DTR(S) = (Deep-Thinking Token 수) / (전체 토큰 수)
값이 높을수록 모델이 해당 답변을 생성하는 과정에서 깊은 내부 사고를 수행했다는 의미입니다.
3. 실험 결과 분석
3-1. 실험 환경
- 벤치마크: AIME 2024/2025, HMMT 2025, GPQA-diamond
- 모델: GPT-OSS, DeepSeek-R1, Qwen3
- 문제당 25개 응답 샘플링
- Pearson 상관계수로 정확도와의 관계 분석
3-2. 주요 결과 비교
| 지표 | 평균 상관계수(r) | 특징 |
| 토큰 길이 | -0.594 | 길수록 정확도 하락 |
| 신뢰도 기반 지표 | 0.219 ~ 0.605 | 일관성 부족 |
| DTR | 0.683 | 강력하고 안정적 |
DTR은 모든 모델과 벤치마크에서 가장 높은 상관관계를 보였습니다.
또한 하이퍼파라미터 실험 결과:
- settling threshold g = 0.5
- depth fraction ρ = 0.85
일 때 가장 이상적인 균형을 보였습니다.
4. Think@n: DTR을 활용한 비용 절감 전략
4-1. 기존 방식: Cons@n
Self-consistency(Cons@n)는 여러 개의 응답을 생성하고 다수결로 최종 답을 선택합니다. 정확도는 높지만 모든 샘플을 끝까지 생성하기 때문에 비용이 큽니다.
4-2. Think@n 작동 방식
Think@n은 다음과 같이 동작합니다.
- 여러 샘플 병렬 생성
- 짧은 접두사 단계에서 DTR 추정
- 낮은 DTR 샘플은 조기 중단
- 높은 DTR 샘플만 유지해 다수결 수행
즉, “깊게 생각하지 않는 샘플”은 초기에 제거합니다.
4-3. 성능 비교
AIME 25 기준 (GPT-OSS-120B-medium 모델)
- Cons@n: 정확도 92.7%, 비용 307.6k 토큰
- Think@n: 정확도 94.7%, 비용 155.4k 토큰
정확도는 더 높이고, 비용은 약 절반으로 줄였습니다.
이는 DTR이 단순 분석 지표를 넘어 실제 추론 전략 최적화에 활용 가능함을 보여줍니다.
5. 왜 이 연구가 중요한가
최근 LLM 성능 개선의 핵심은 inference-time scaling입니다. 더 많은 샘플을 생성하고 더 길게 사고하게 만드는 방식입니다.
하지만 이 연구는 중요한 질문을 던집니다.
길게 말하는 것이 정말 깊게 생각하는 것인가?
Deep-Thinking Token은 길이가 아니라 내부 예측 수정 과정을 기준으로 사고를 측정합니다. 이는 다음과 같은 변화를 예고합니다.
- CoT 길이 중심 평가의 재검토
- 내부 레이어 신호 기반 평가 확산
- 비용 대비 성능 최적화 전략 발전
길이보다 깊이, 추론 평가의 패러다임 전환
“Think Deep, Not Just Long”은 LLM 추론 평가 기준을 재정의합니다.
단순히 많이 생성하는 것이 아니라, 내부적으로 얼마나 깊이 수정하며 사고했는지를 측정해야 합니다. Deep-Thinking Token과 DTR은 이를 정량화한 첫 시도입니다.
또한 Think@n 전략은 정확도 향상과 비용 절감이라는 실질적 성과로 이어졌습니다.
앞으로 LLM을 평가하고 개선할 때 핵심 질문은 이것이 될 것입니다.
- 얼마나 길게 말했는가?
- 아니라
- 얼마나 깊이 생각했는가?
이 연구는 더 효율적이고, 더 신뢰할 수 있는 추론 중심 LLM 설계를 위한 중요한 방향을 제시합니다.
https://arxiv.org/abs/2602.13517
Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
Large language models (LLMs) have demonstrated impressive reasoning capabilities by scaling test-time compute via long Chain-of-Thought (CoT). However, recent findings suggest that raw token counts are unreliable proxies for reasoning quality: increased ge
arxiv.org

'인공지능' 카테고리의 다른 글
| Claude Code 활용 방식: 계획과 실행을 분리한 구조적 개발 워크플로우 (0) | 2026.02.23 |
|---|---|
| LobsterBoard: 클라우드 없이 동작하는 셀프 호스팅 대시보드 빌더 (0) | 2026.02.23 |
| Mini Diarium: 인터넷 연결 없는 로컬 암호화 저널 애플리케이션의 구조와 보안 설계 (0) | 2026.02.23 |
| Claude Code에 영구 메모리 추가하기: memvid/claude-brain 플러그인으로 세션 간 맥락 유지하는 방법 (0) | 2026.02.23 |
| Step 3.5 Flash: 고속 추론과 에이전트 기능을 결합한 오픈소스 LLM의 새로운 기준 (0) | 2026.02.23 |