인공지능이 복잡한 문제를 해결할 때, 우리는 종종 "모델이 어떻게 이런 답을 도출했을까?"라는 질문을 던집니다. 지금까지 많은 AI 모델은 인간의 사고 과정을 모방하기 위해 단계별로 추론을 수행하는 Chain-of-Thought(CoT) 방식을 사용해 왔습니다. 그러나 Meta의 최신 연구는 한 걸음 더 나아가 새로운 방식을 제안합니다. 바로 **Chain of Continuous Thought(COCONUT)**입니다.
COCONUT은 LLM(대형 언어 모델)의 추론 방식에 근본적인 혁신을 가져왔으며, AI가 더 효율적이고 정확하게 문제를 해결할 수 있도록 설계되었습니다. 이번 블로그에서는 COCONUT의 개념, 작동 방식, 그리고 왜 이 방식이 CoT와 차별화되는지 자세히 살펴보겠습니다.
CoT에서 COCONUT으로: 왜 새로운 방식이 필요했을까?
Chain-of-Thought(CoT) 방식은 질문을 받은 후, 모델이 단계별로 추론 과정을 생성하여 답변을 도출하는 방법입니다.
예를 들어, 수학 문제를 풀 때 모델은 각 단계에서 추론을 언어로 출력하며 답을 계산합니다. 이는 사람이 종이에 계산 과정을 적어가며 문제를 푸는 것과 비슷합니다.
하지만 CoT에는 다음과 같은 한계가 있습니다:
- 추론 과정이 텍스트로 생성되어야 하므로 효율성이 떨어집니다.
- 모델이 항상 언어로 사고를 표현해야 하기 때문에 불필요한 토큰 생성이 많습니다.
- 복잡한 계획 중심 문제에서는 오류(환각)를 일으키는 경우가 많습니다.
Meta는 이러한 문제를 해결하기 위해 CoT 방식을 뛰어넘는 COCONUT 방식을 제안했습니다.
COCONUT: LLM을 위한 새로운 추론 방식
COCONUT은 기존 CoT 방식을 보완하며, AI가 더 효율적이고 정확한 추론을 수행할 수 있도록 설계되었습니다. 이 방식의 핵심은 **잠재 사고(latent thought)**라는 새로운 모드에 있습니다.
COCONUT의 작동 원리
- 두 가지 모드의 전환
- 언어 모드: CoT와 마찬가지로 모델이 텍스트 토큰을 생성합니다.
- 잠재 사고 모드: 언어 대신 모델의 내부 상태(히든 상태)를 기반으로 추론을 진행합니다.
<bot> 토큰이 나오면 잠재 사고 모드로 진입하고, <eot> 토큰이 나오면 다시 언어 모드로 전환됩니다.
- 잠재 사고 모드에서의 추론
- 추론 과정은 단어 대신 모델의 히든 상태를 통해 이루어지며, 이는 매우 효율적입니다.
- 더 이상 언어로 사고를 표현하지 않아도 되므로, 불필요한 토큰 생성을 줄이고 성능을 향상시킵니다.
- 학습 과정
- 초기에는 CoT 데이터(질문, 추론 단계, 최종 답변)를 사용하여 모델을 학습시킵니다.
- 이후 단계에서는 언어 기반 추론 단계를 잠재 사고 모드로 대체하여 학습합니다.
COCONUT vs CoT: 무엇이 다를까?
1. 효율성
- CoT는 각 추론 단계를 텍스트로 생성하므로 시간이 오래 걸립니다.
- COCONUT은 잠재 사고 모드를 사용해 불필요한 텍스트 생성을 줄여 더 빠른 추론이 가능합니다.
2. 성능
COCONUT은 다양한 데이터셋에서 우수한 성능을 보였습니다.
- GSM8K(수학 문제): CoT보다 낮은 성능을 보였지만, 여전히 높은 정확도를 유지했습니다.
- ProsQA(계획 중심 문제): CoT를 압도하며 최고의 성능을 기록했습니다.
3. 계획 문제 해결 능력
- CoT는 복잡한 그래프 탐색 문제에서 오류(환각)를 일으키는 경우가 많습니다.
- COCONUT은 다중 잠재 사고 토큰을 활용해 정확한 경로를 탐색할 수 있습니다.
왜 COCONUT이 주목받아야 하는가?
COCONUT은 단순히 더 효율적인 AI 모델을 만드는 것을 넘어, 인간 사고의 연속성과 유사한 방식으로 문제를 해결합니다.
이는 특히 복잡한 계획 문제나 논리적 추론이 필요한 작업에서 큰 잠재력을 보입니다.
커리큘럼 학습의 효과
COCONUT은 단계적으로 학습하는 커리큘럼을 통해 모델 성능을 극대화합니다. 커리큘럼 없이 학습된 모델은 훨씬 낮은 성능을 보인다는 실험 결과는 이를 뒷받침합니다.
그래프 탐색의 가능성
ProsQA와 같은 계획 중심 데이터셋에서, COCONUT은 마치 인간이 **BFS(너비 우선 탐색)**를 수행하듯 효율적이고 정확한 경로를 탐색할 수 있음을 보여주었습니다.
앞으로의 방향: COCONUT의 미래
COCONUT은 LLM의 한계를 넘어설 새로운 가능성을 제시했습니다. 하지만 아직 탐구해야 할 영역이 많습니다.
Meta는 앞으로 다음과 같은 연구를 계획하고 있습니다:
- 사전 학습 단계에서 연속 사고 통합
- 다중 순차적 추론의 효율성 향상
- CoT와 잠재 사고의 결합 가능성
COCONUT이 보여준 잠재력은 AI가 인간과 비슷한 방식으로 사고할 수 있는 길을 열어주었습니다. 앞으로 이 기술이 어떤 혁신을 가져올지 기대됩니다.
COCONUT은 단순한 기술적 개선이 아닙니다. 이는 AI가 생각하고 계획하는 방식에 근본적인 변화를 가져오는 패러다임의 전환입니다. 이제 우리는 AI가 "언어를 넘어서는 사고"를 통해 인간처럼 복잡한 문제를 해결하는 시대를 향해 나아가고 있습니다.
https://aipapersacademy.com/chain-of-continuous-thought/
'인공지능' 카테고리의 다른 글
LLM 인프라에 대해 알아보기! 메모리부터 멀티 GPU 까지 (0) | 2025.01.06 |
---|---|
"LangChain 2024 리포트: AI 에이전트와 LLM의 새로운 동향과 통찰" (0) | 2025.01.03 |
AI 추론의 미래: 게임에서 STEM까지, 그리고 그 너머 (0) | 2025.01.03 |
학술 논문도 손쉽게 번역! PDF MathTranslate로 원본 포맷 그대로 번역하기 (0) | 2025.01.02 |
로컬에서 대형 언어 모델(LLM)을 실행하는 방법: 시작부터 활용까지 (0) | 2025.01.01 |