
UC Berkeley & UCLA 연구팀이 2025년 11월 발표한 논문 Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens은 지금까지의 멀티모달 모델이 겪어온 가장 고질적인 문제, 바로 **“시각적 이해의 부족”**을 정면으로 겨냥합니다.
언어 추론은 유창하지만, 공간 구조나 기하 정보를 다루는 데에는 여전히 허약했던 기존 VLM들. COVT는 이 한계를 연속형 시각 토큰(continuous visual tokens)이라는 새로운 방식으로 해결하려는 시도입니다. 이 글에서는 COVT가 무엇이며, 기존 VLM과 어떻게 다른지, 어떤 성과를 보였는지 명확하고 실용적으로 정리합니다.
1. VLM이 언어는 잘하면서 시각은 못하는 이유
최근 대형 VLM들은 텍스트 기반 합리화나 추론은 뛰어나지만, "그림 속 사물이 어디에 있고, 어떤 형태인지, 어떻게 배치돼 있는지"를 이해하는 데 취약합니다.
이유는 단순합니다.
기존 VLM은 dense visual information을 충분히 저장하고 다룰 수 있는 구조를 갖고 있지 않았기 때문입니다.
이미지에서 언어로 넘어가는 과정에서 공간, 기하, 에지 같은 세밀한 정보는 상당 부분 손실됩니다. 결과적으로 모델은 시각적 맥락을 충분히 이해하지 못한 상태에서 언어적 추론만 수행하게 되었습니다.
COVT는 바로 이 지점을 바꿉니다.
2. COVT란 무엇인가: 연속형 시각 토큰으로 시각적 사고를 가능하게 하는 구조
Chain-of-Visual-Thought(COVT)의 핵심 개념은 continuous visual tokens입니다.
이는 이미지에서 추출된 풍부한 시각 정보를 단 20개 안팎의 연속형 토큰(latent representation)으로 압축한 형태입니다.
이 토큰 안에는 다음과 같은 정보가 담겨 있습니다:
- 2D appearance
- 3D geometry
- spatial layout
- edge structure
이 말은 토큰 한 개가 단순한 벡터가 아니라, 시각 전문가 모델이 추출해낸 깊이, 분할 정보, 에지 구조 등 다양한 지각 신호를 한꺼번에 담고 있다는 의미입니다.
기존 방식처럼 “이미지를 텍스트로 요약하고 문장으로만 사고”하는 게 아니라,
COVT는 ‘시각적 생각’을 위한 토큰 공간 자체를 따로 갖게 되는 것입니다.
3. 기존 방식과의 차이: 왜 연속형 시각 토큰인가
기존 VLM은 텍스트 기반 CoT만을 사용해 추론했습니다.
하지만 텍스트만으로는 공간적 추론을 표현하기 어렵습니다.
COVT의 차별점은 다음과 같습니다:
- 텍스트가 아닌 시각적 사고 체인을 생성
- dense supervision(깊이·분할·에지 등)을 재구성하며 학습
- 지각 정보를 토큰 형태로 유지하여 추론 단계에서도 활용 가능
즉, 이미지 → 언어로 바로 변환하는 과정을 거치지 않고
이미지 → 시각 토큰 → 언어·추론으로 이어지는 경로를 갖게 됩니다.
이를 통해 모델이 더 풍부한 시각 기반 추론을 수행할 수 있습니다.
4. COVT 훈련 방식: VLM이 스스로 시각 토큰을 생성하도록 학습
훈련 단계에서 COVT는 다음 구조를 따릅니다:
- 이미지에 대해 depth, segmentation, edges, DINO features 같은 dense signals를 준비합니다.
- 경량 시각 전문가 모델(experts)이 이 정보를 latent 형태로 distill합니다.
- VLM은 이를 연속형 시각 토큰 시퀀스로 autoregressive하게 예측합니다.
- 예측된 토큰을 다시 디코딩해 원래의 dense signals를 복원하도록 학습합니다.
정리하면,
VLM은 ‘다음 언어 토큰’이 아닌 ‘다음 시각 토큰’을 예측하면서 시각적 사고 능력을 얻게 됩니다.
5. 추론(inference) 단계: 시각 토큰 기반 reasoning
훈련을 마친 후 실제 추론에서는 다음과 같은 방식으로 동작합니다:
- 모델은 이미지로부터 연속형 시각 토큰을 생성합니다.
- 이 토큰들을 기반으로 공간적·기하적 판단을 수행합니다.
- 필요할 경우 토큰을 다시 디코딩하여 깊이 맵이나 에지 맵 같은 보조 정보를 생성할 수 있습니다.
중요한 점은 이 과정이 기존 VLM의 속도를 해치지 않는다는 점입니다.
약 20개 수준의 토큰만 사용하기 때문에 효율성은 유지됩니다.
6. 벤치마크 성능 향상: 3%~16% 개선
연구진은 COVT를 Qwen2.5-VL, LLaVA 등 다양한 VLM에 적용해 평가했습니다.
다음과 같은 다양한 시각 이해 중심 벤치마크에서 3%~16% 성능 향상을 보였습니다:
- CV-Bench
- MMVP
- RealWorldQA
- MMStar
- WorldMedQA
- HRBench
흥미로운 점은 단순한 인식 과제가 아니라
복잡한 reasoning 기반 비전 테스크에서 더 큰 향상이 나타났다는 것입니다.
이는 COVT가 단순 시각 정보 보완이 아니라
추론 과정 자체를 바꿔냈다는 의미입니다.
7. COVT의 기대 효과와 활용 가능성
COVT가 주는 변화는 단순한 성능 향상이 아닙니다.
- 멀티모달 모델의 지각 능력 향상
공간, 기하, 구조 이해가 필요한 실세계 문제에 더 적합해집니다. - VLM의 reasoning 품질 강화
시각적 근거 기반 답변이 가능해지며, 왜 그렇게 판단했는지 해석 가능성도 높아집니다. - 다양한 도메인 확장성
의료 영상 분석, 로봇 지각, AR/VR 환경 이해 등에서 활용도가 높아집니다. - 경량·효율 구조
토큰 수가 적기 때문에 추가적인 비용 없이 성능 개선이 가능합니다.
Chain-of-Visual-Thought(COVT)는 기존 VLM이 안고 있던 가장 큰 구조적 한계, 즉 지각 정보 부족으로 인한 시각적 추론 실패를 정면으로 해결하려는 기술입니다.
연속형 시각 토큰이라는 새로운 표현 방식을 통해
VLM이 이미지 속 공간·기하 구조를 더 정확히 이해하도록 만들며,
이로 인해 다양한 벤치마크에서 의미 있는 성능 향상을 이뤄냈습니다.
앞으로 멀티모달 모델이 실제 환경에서 안정적으로 활용되기 위해서는
텍스트 기반 사고뿐만 아니라 시각 기반 사고 능력이 필수입니다.
COVT는 이를 가능하게 하는 첫 중요한 단계이며,
향후 VLM 설계 방향에 큰 영향을 줄 기술로 보입니다.
이제 VLM은 단순히 이미지를 ‘보는’ 것을 넘어
이미지 안에서 생각하는 모델로 발전하고 있습니다.
Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
Vision-Language Models (VLMs) excel at reasoning in linguistic space but struggle with perceptual understanding that requires dense visual perception, e.g., spatial reasoning and geometric awareness. This limitation stems from the fact that current VLMs ha
arxiv.org

'인공지능' 카테고리의 다른 글
| 로컬 RAG 구축, 어디까지 가능할까? Skald 사례로 살펴보는 완전 로컬 RAG의 현실 (0) | 2025.11.30 |
|---|---|
| MiniMax M2: 도구 사용과 인터리브드 사고로 완성되는 차세대 에이전트 AI (0) | 2025.11.30 |
| NVIDIA Orchestrator-8B: 단일 LLM의 한계를 넘어서는 차세대 AI 툴 오케스트레이션 모델 (0) | 2025.11.29 |
| STARFlow-V: 확산 모델을 넘어서는 새로운 비디오 생성 패러다임 - 정규화 흐름 기반으로 구현된 최초의 고품질 장기 비디오 생성 모델 (0) | 2025.11.29 |
| 알리바바 ‘AgentEvolver’: 스스로 학습 데이터를 만들어 진화하는 자율 에이전트 프레임워크 (0) | 2025.11.29 |