
대규모 언어 모델(LLM)은 최근 추론 정확도를 높이기 위해 여러 개의 추론 경로(trace)를 생성하고, 다수결로 최종 답을 결정하는 self-consistency 방식을 널리 사용하고 있습니다. 그러나 이 방식은 계산 비용이 선형적으로 증가하고, 모든 추론 경로를 동일하게 취급하기 때문에 저품질 경로가 결과를 오염시킬 수 있다는 문제점이 있습니다.
이번 글에서는 이러한 한계를 해결하기 위해 제안된 Deep Think with Confidence(DeepConf) 논문을 살펴봅니다. DeepConf는 모델 내부의 confidence(확신도) 신호를 활용해 불필요한 추론을 줄이고 정확도를 높이는 방법을 제시하며, 최대 85%의 토큰 절감과 99.9%의 정확도를 달성했습니다.
기존 접근의 한계
Self-Consistency 방식의 한계
- 추론 경로가 많아질수록 계산 비용이 크게 증가
- 모든 경로를 동일하게 취급해 저품질 경로가 최종 결과에 악영향을 미침
- 생성 경로 수를 늘려도 성능이 일관되게 향상되지 않음
Global Confidence 방식의 한계
기존 연구에서는 토큰 단위의 엔트로피와 확신도를 합산해 전체 추론 경로의 신뢰도를 평가했습니다. 하지만 이 방식은 다음과 같은 한계를 가집니다.
- 중간 단계에서 발생하는 신호를 놓침
- 추론이 완전히 끝난 후에만 평가 가능 → 조기 종료 불가
DeepConf의 핵심 아이디어
DeepConf는 local confidence 신호를 기반으로 추론 품질을 평가하고 제어합니다. 이를 통해 저품질 경로를 제거하거나 조기 종료시켜 효율을 극대화합니다.
Confidence 측정 방식
- Group Confidence: 토큰 단위 확신도를 일정 구간 단위로 평균
- Bottom 10% Group Confidence: 가장 낮은 10% 구간의 평균 확신도 활용
- Lowest Group Confidence: 가장 낮은 구간 하나만 평가, 조기 종료에 적합
- Tail Confidence: 추론의 마지막 부분 신뢰도 측정, 수학적 추론에서 특히 효과적
실험 결과, Bottom 10% Confidence와 Tail Confidence가 단순 평균보다 정답과 오답을 더 잘 구분했습니다.
Offline 모드: Confidence 기반 집계
오프라인 모드에서는 여러 추론 경로가 이미 생성된 상태에서 최종 답을 결정합니다.
- Majority Voting: 단순 다수결
- Confidence-Weighted Voting: 경로별 confidence 크기에 따라 가중치 부여
- Confidence Filtering: 확신도가 낮은 경로를 아예 제거 후 집계
- Top 10% (Aggressive): 소수의 고품질 경로만 활용, 정확도 크게 상승하지만 잘못된 답에 과신할 경우 위험
- Top 90% (Conservative): 대부분의 경로를 유지하면서 낮은 품질 일부 제거, 안정성 확보
실험에서는 GPT-OSS-120B 모델이 AIME25 데이터셋에서 97.0%에서 99.9%까지 정확도가 향상되는 결과를 보였습니다.
Online 모드: 실시간 추론 제어
온라인 모드에서는 추론 도중 실시간으로 confidence를 측정해 품질이 낮은 경로를 조기에 종료합니다.
- DeepConf-low: 상위 10% 경로만 유지, 토큰 절감 극대화
- DeepConf-high: 상위 90% 경로 유지, 안정적 성능 보장
또한 adaptive sampling 기법을 활용해 문제 난이도에 따라 추론 경로 수를 동적으로 조절합니다.
실험 결과, GPT-OSS-120B 모델은 토큰 사용량을 최대 85.8% 줄이면서도 baseline 수준의 정확도를 유지했습니다. DeepSeek-8B 모델은 평균 62.9%의 토큰 절약을 기록했습니다.
핵심 성과 요약
- 정확도 향상: AIME25에서 최대 99.9% 달성
- 효율성 개선: 토큰 사용량 최대 85% 절감
- 유연성 제공: 공격적(Top 10%)과 보수적(Top 90%) 모드 선택 가능
DeepConf는 추론 성능과 계산 효율을 동시에 달성할 수 있음을 보여주며, LLM의 실용화 가능성을 크게 확장했습니다. 그러나 몇 가지 과제도 남아 있습니다.
- 잘못된 추론에도 높은 confidence를 부여하는 경우 존재
- 더 정교한 confidence calibration과 불확실성 정량화 방법 필요
향후 강화학습과 결합하면 추론 효율성을 더욱 개선할 수 있을 것으로 기대됩니다.
DeepConf는 단순한 아이디어를 바탕으로 추론 정확도와 효율성을 동시에 끌어올린 실용적인 접근법입니다. 실험 결과는 이 방법이 다양한 모델과 데이터셋에서 효과적임을 보여주었고, 특히 test-time compression 가능성을 확인했습니다.
앞으로 confidence-aware 추론 기법은 LLM 추론의 새로운 표준으로 자리 잡을 가능성이 높습니다.
https://arxiv.org/abs/2508.15260
Deep Think with Confidence
Large Language Models (LLMs) have shown great potential in reasoning tasks through test-time scaling methods like self-consistency with majority voting. However, this approach often leads to diminishing returns in accuracy and high computational overhead.
arxiv.org

'인공지능' 카테고리의 다른 글
| Function Calling vs. MCP: 차세대 AI 팀이 꼭 알아야 할 핵심 차이점 (0) | 2025.09.04 |
|---|---|
| vLLM PagedAttention: LLM 추론 처리량을 혁신하는 기술 (0) | 2025.09.04 |
| StepWiser: 단계별 추론을 혁신하는 생성적 판사 모델의 등장 (0) | 2025.09.03 |
| Crawl4AI: 웹을 LLM 친화적 데이터로 바꾸는 오픈소스 크롤러 (0) | 2025.09.03 |
| "Claude Code SDK 헤드리스 모드 완전 정복: 자동화와 CLI 활용 가이드" (0) | 2025.09.02 |