
AI는 아직 세상을 이해하지 못한다
최근 몇 년간 인공지능은 놀라운 발전을 거듭했다. ChatGPT를 비롯한 대규모 언어 모델(LLM)은 언어를 이해하고 생성하는 능력에서 인간에 가까운 수준에 도달했다. 그러나 여전히 한 가지 한계가 있다. AI는 “세상”을 모른다.
현재의 AI는 텍스트를 읽고 쓰는 데에는 뛰어나지만, 실제 공간—즉 거리, 방향, 물리 법칙이 존재하는 세계—를 제대로 이해하지 못한다. 예를 들어, 컵을 테이블 위에 놓는 단순한 행동조차 AI에게는 여전히 어려운 문제다.
이 한계를 극복하기 위한 새로운 연구 분야가 바로 공간 지능(Spatial Intelligence) 이다. 공간 지능은 AI가 현실 세계를 ‘지각하고’, ‘이해하며’, ‘상호작용’할 수 있도록 만드는 기술이다. 이는 언어 중심의 AI를 넘어, 인간처럼 세상을 인식하는 AI로 나아가기 위한 핵심 단계다.
공간 지능이란 무엇인가
인간의 지능은 단순히 언어로 사고하는 능력만이 아니다. 우리는 환경 속에서 사물을 인식하고, 공간을 탐색하며, 물리적 제약을 고려한 행동을 한다. 이러한 능력은 지각과 행동이 끊임없이 순환하는 지각-행동 루프(perception-action loop) 속에서 발달한다.
자동차를 주차하거나, 복잡한 방 안에서 물건을 찾거나, 사람과 협력해 무언가를 조립할 때 우리는 모두 공간 지능을 사용한다. 이는 언어 이전 단계의 인지이며, 인간의 창의성과 상상력의 기반이기도 하다.
역사적으로도 공간적 사고는 문명의 발전을 이끌었다. 에라토스테네스가 지구의 둘레를 계산하고, 제임스 와트가 증기기관을 설계하며, 왓슨과 크릭이 DNA의 구조를 밝혀낸 것 모두 공간 지능의 결과다.
AI가 인간 수준의 지능으로 발전하기 위해서는 이러한 공간적 사고 능력을 갖춰야 한다. 하지만 지금의 AI는 여전히 2차원 이미지나 텍스트 수준에 머물러 있다. 현실의 물리적 일관성, 거리감, 방향성, 기하 구조를 이해하지 못하기 때문에 실제 세계와의 상호작용이 제한된다.
월드 모델(World Model): 공간 지능을 구현하는 새로운 AI 구조
공간 지능을 AI에 부여하기 위해 제안된 개념이 바로 월드 모델(World Model) 이다. 이는 단순히 언어를 처리하는 LLM과는 다르게, 현실과 가상 세계의 의미적, 물리적, 기하학적, 동적 복잡성을 통합적으로 이해하는 것을 목표로 한다.
월드 모델의 핵심 능력은 세 가지로 요약된다.
- 생성적(Generative)
현실 혹은 가상의 세계를 지각적, 기하학적, 물리적으로 일관되게 생성한다.
예를 들어, 방 안의 사물 배치나 움직임을 시뮬레이션하며 시간의 연속성을 유지할 수 있다. - 다중모달(Multimodal)
이미지, 비디오, 텍스트, 제스처 등 다양한 입력을 동시에 이해하고 처리한다.
단순한 시각 인식이 아닌, 의미 해석과 공간적 일관성을 동시에 유지한다. - 상호작용적(Interactive)
사용자의 행동이나 명령에 따라 세계의 변화를 예측하고 생성한다.
예를 들어, “문을 열어”라는 명령을 받으면 그 행동 이후의 공간 상태를 스스로 시뮬레이션할 수 있다.
이처럼 월드 모델은 언어 생성보다 훨씬 복잡한 구조를 요구한다. 단순히 다음 단어를 예측하는 수준이 아니라, 세계의 물리 법칙과 기하 구조를 일관되게 반영해야 하기 때문이다. 이는 AI 연구에서 매우 도전적인 과제이며, 현재 여러 연구 기관들이 이 문제를 해결하기 위한 시도를 이어가고 있다.
World Labs의 연구와 Marble 프로젝트
이 분야의 대표적인 연구 기관 중 하나가 World Labs다.
2024년 초 설립된 이 연구소는 공간 지능을 중심으로 한 월드 모델을 개발하고 있으며, 그 첫 번째 결과물이 Marble이다.
Marble은 이미지, 텍스트, 비디오 등 다양한 입력을 받아 일관된 3D 환경을 생성하고 유지할 수 있는 모델이다. 이를 통해 AI는 단순히 그림을 그리거나 문장을 쓰는 것을 넘어, “공간 속의 세계”를 스스로 구성하고 변화시킬 수 있다.
World Labs는 다음과 같은 연구 과제를 수행 중이다.
- 보편적 학습 함수 정의: LLM이 ‘다음 단어 예측’으로 학습하듯, 월드 모델도 물리적 일관성을 유지할 수 있는 단순하면서도 강력한 학습 목표를 찾고 있다.
- 대규모 학습 데이터 확보: 인터넷 이미지, 비디오, 합성 데이터뿐 아니라 깊이(depth)와 촉각(tactile) 정보까지 포함된 데이터셋을 활용한다.
- 새로운 모델 구조 연구: 3D·4D 인식 기반의 토크나이징(tokenizing)과 메모리 구조를 실험하며, 공간적 일관성을 유지하는 학습 방법을 개발 중이다.
현재 Marble은 시범 단계에서 일부 연구자들에게 공개되어 있으며, 향후 확장 버전이 공개될 예정이다.
공간 지능의 응용 영역
공간 지능은 단순한 기술 혁신이 아니라, 인간의 창의성과 생산성을 근본적으로 확장시킬 수 있는 플랫폼으로 평가된다.
1. 창의성과 콘텐츠 제작
Marble과 같은 모델은 영화 제작자, 게임 디자이너, 건축가 등에게 완전 탐색형 3D 세계를 생성할 수 있는 기능을 제공한다.
복잡한 세트나 예산 제약 없이 다양한 장면과 시점을 실험할 수 있고, VR·XR 환경에서도 몰입형 콘텐츠를 손쉽게 제작할 수 있다.
2. 로보틱스
로봇 학습의 가장 큰 한계는 ‘현실 세계에서의 학습 데이터 부족’이다.
월드 모델은 시뮬레이션 환경에서 로봇이 실제처럼 행동을 연습하게 함으로써, 현실과 가상의 간극을 줄여준다.
이로써 인간의 목표를 이해하고 협력할 수 있는 인간 친화형 로봇의 개발이 가능해진다.
3. 과학, 의료, 교육
과학 연구에서는 월드 모델을 이용해 복잡한 물리 현상이나 분자 구조를 시뮬레이션함으로써 실험 속도를 높이고 비용을 줄일 수 있다.
의료 분야에서는 약물 탐색, 영상 진단, 환자 상태 예측 등에서 활용 가능하다.
교육에서는 학습자가 세포 구조나 역사적 사건을 ‘직접 탐험’하며 배우는 몰입형 학습 환경이 구현된다.
인간 중심의 AI 발전 비전
공간 지능은 단순히 기술적 진보를 의미하지 않는다. 그 목표는 인간 능력의 확장에 있다.
AI가 인간을 대체하는 것이 아니라, 인간의 창의성·탐구심·공감 능력을 강화하는 방향으로 발전해야 한다는 것이다.
AI가 공간을 이해하게 되면, 우리는 더 나은 스토리텔링, 더 정밀한 과학 연구, 더 따뜻한 돌봄 시스템을 구축할 수 있다.
이러한 비전을 실현하기 위해서는 연구자, 기업, 정책 입안자 등 AI 생태계 전반의 협력이 필수적이다.
AI의 완성은 공간 지능으로 향한다
AI는 이미 언어, 이미지, 데이터 분석 등 다양한 영역에서 인간 수준의 성과를 보여주었다. 그러나 아직 진짜 ‘세계’를 이해하지는 못한다.
공간 지능은 이러한 한계를 뛰어넘어, AI가 현실과 조화롭게 상호작용할 수 있도록 만드는 기술적 전환점이다.
월드 모델을 통해 AI는 이제 단순한 언어 모델을 넘어, 세상을 ‘이해하고 행동하는 존재’로 진화하고 있다.
인간의 지능이 공간 감각에서 시작되었듯, AI의 진화 역시 공간 지능에서 완성될 것이다.
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
From Words to Worlds: Spatial Intelligence is AI’s Next Frontier
In 1950, when computing was little more than automated arithmetic and simple logic, Alan Turing asked a question that still reverberates today: can machines think?
drfeifei.substack.com

'인공지능' 카테고리의 다른 글
| Self-Evolving Agents: 자가 학습형 AI 에이전트 재훈련 매뉴얼 (0) | 2025.11.12 |
|---|---|
| 구글, GKE Agent Sandbox와 Inference Gateway 공개 – AI 워크로드 보안과 성능의 새 시대 (0) | 2025.11.12 |
| AI Agent 보안을 위한 인증(Authentication)과 인가(Authorization) 완벽 가이드 (0) | 2025.11.12 |
| Kimi K2 Thinking: 로컬에서 직접 실행하는 방법 (0) | 2025.11.11 |
| AI 시대, TypeScript의 부상: Anders Hejlsberg의 통찰 (0) | 2025.11.11 |