이 글은 실시간 멀티모달 상호작용을 모델 내부에 내장한 ‘상호작용 모델(Interaction Model)’이라는 새로운 AI 접근법을 정리합니다. 기존 턴 기반 AI가 가진 협업 병목이 무엇인지, 이를 해결하기 위해 어떤 구조와 기술이 제안됐는지, 그리고 실제 인간-AI 협업 경험이 어떻게 달라질 수 있는지를 중심으로 설명합니다. 특히 오디오·비디오·텍스트를 동시에 다루는 실시간 설계와, 이를 가능하게 하는 시스템 구성과 평가 결과까지 한 번에 이해할 수 있도록 구성했습니다.
기존 AI 협업의 한계: 턴 기반 구조가 만든 병목
오늘날 대부분의 AI 인터페이스는 턴 기반(turn-based)입니다. 사용자가 입력을 끝내야만 모델이 반응하고, 모델이 응답을 생성하는 동안에는 새로운 입력을 받지 못합니다. 이 구조는 다음과 같은 한계를 만듭니다.
- 사용자가 중간에 생각을 고치거나 추가 설명을 하고 싶어도 개입할 수 없음
- 모델이 작업을 어떻게 이해하고 있는지 즉각적으로 파악하기 어려움
- 실제 업무처럼 사람이 계속 개입하는 협업 상황에서는 체감 속도가 느림
현실의 지식 노동은 처음부터 완벽한 요구사항을 던지고 기다리는 방식이 아닙니다. 대부분은 사람이 중간에 уточ화하고 피드백을 주는 과정에서 결과물이 좋아집니다. 하지만 턴 기반 모델은 이런 협업 흐름을 단일 스레드처럼 단순화해 버립니다.
Interaction Model의 목표: 지능과 상호작용성의 동시 확장
이 문제의식에서 출발해 Thinking Machines Lab은 외부 하네스(harness)가 아닌, 모델 자체가 상호작용을 처리하는 Interaction Model 연구 프리뷰를 공개했습니다. 핵심 목표는 명확합니다.
- AI의 지능만 키우는 것이 아니라
- 상호작용성(interactivity) 역시 모델 크기와 함께 자연스럽게 확장되게 만드는 것
이를 위해 모델은 오디오·비디오·텍스트를 지속적으로 입력받고, 동시에 생각하고, 응답하고, 행동합니다. 사람이 AI에 맞추는 것이 아니라, AI가 사람의 방식에 맞춰 협업하도록 설계된 접근입니다.
모델 내부 상호작용이 여는 새로운 협업 방식
Interaction Model은 상호작용을 “흉내” 내지 않습니다. 다음 기능들이 모델 내부 능력으로 구현됩니다.
자연스러운 대화 관리
모델은 사용자가 말을 이어갈지, 넘길지, 스스로 고치는지 같은 미묘한 신호를 암묵적으로 추적합니다. 별도의 대화 관리 컴포넌트 없이도 흐름을 유지합니다.
끼어들기와 동시 발화
사용자가 말을 끝낼 때만 기다리지 않습니다. 문맥상 필요하면 중간에 개입해 오류를 바로잡거나, 실시간 번역처럼 동시에 말하는 상황도 처리할 수 있습니다.
시간 인식
모델은 경과 시간을 직접 인식합니다. “4초마다 숨 들이쉬고 내쉬기 안내”처럼 타이밍이 중요한 과제를 다룰 수 있습니다.
대화 중 도구 사용
사용자와 대화하면서 동시에 검색, 웹 브라우징, UI 생성 같은 작업을 수행하고, 결과가 준비되는 즉시 대화 흐름에 자연스럽게 통합합니다. 프롬프트를 던지는 느낌보다 옆에서 함께 일하는 협업자에 가깝습니다.
핵심 설계: 200ms 마이크로턴과 이중 모델 구조
시간 정렬 마이크로턴
Interaction Model은 입력과 출력을 200ms 단위의 마이크로턴으로 나눠 연속 스트림으로 처리합니다. 이 방식 덕분에 침묵, 겹침, 끼어들기 같은 정보가 모두 문맥에 남습니다. 인공적인 턴 경계는 사라집니다.
Interaction Model + Background Model
시스템은 두 모델이 문맥을 공유하는 구조입니다.
- Interaction Model: 실시간 대화, 즉각 반응, 사용자 앞에 항상 존재
- Background Model: 장기 추론, 도구 사용, 복잡한 계획 수행
깊은 추론이 필요하면 Interaction Model이 Background Model에 위임합니다. 그 사이에도 사용자는 대화를 계속할 수 있고, 결과는 준비되는 대로 자연스럽게 합류합니다.
하네스 대신 모델 내부 기능을 택한 이유
많은 기존 시스템은 실시간처럼 보이게 만들기 위해 음성 활동 감지(VAD) 같은 하네스를 덧붙입니다. 하지만 이는 지능이 낮은 외부 컴포넌트가 상호작용을 제한하는 결과를 낳습니다.
이 접근이 비판받는 이유는 The Bitter Lesson에서 지적된 것과 같습니다. 수작업 규칙과 복잡한 시스템은, 일반 능력을 스케일하는 접근에 결국 밀린다는 교훈입니다. Interaction Model은 상호작용성 자체를 모델 내부로 가져와, 모델이 커질수록 협업 능력도 함께 좋아지도록 설계했습니다.
기술적 특징 요약
- 인코더 없는 조기 융합: 오디오·비디오를 최소 전처리로 바로 모델에 투입
- 스트리밍 세션 기반 추론 최적화: 잦은 200ms 청크 처리에서도 지연 최소화
- Trainer–Sampler 정렬: 훈련 안정성과 디버깅을 위한 비트 단위 정렬
- 안전성 설계: 실시간 음성 거절, 장기 대화 견고성까지 고려한 정렬 전략
벤치마크로 본 성능과 의미
연구 프리뷰로 공개된 **TML-Interaction-Small**은 지능과 상호작용성을 함께 평가받았습니다.
- FD-bench에서 낮은 턴테이킹 지연과 높은 평균 점수
- 실시간 끼어들기, 동시 발화, 시간 인식 과제에서 기존 모델 대비 우수
- 일부 비디오 정확도와 대형 모델 대비 지능 지표는 아직 개선 여지 존재
중요한 점은, 기존 벤치마크가 포착하지 못하던 **‘언제 말해야 하는가’**라는 상호작용 차원이 본격적으로 측정되기 시작했다는 점입니다.
AI를 “도구”에서 “협업자”로 바꾸는 전환점
Interaction Model은 단순히 응답을 빠르게 만드는 기술이 아닙니다. 사람이 계속 개입하는 현실적인 협업 환경을 AI 설계의 중심에 둔 접근입니다. 상호작용성이 지능과 함께 스케일될 수 있다면, AI는 더 이상 기다려야 하는 도구가 아니라, 맥락을 공유하며 함께 생각하는 동료에 가까워질 수 있습니다.
이 방향성은 향후 인간-AI 협업의 기준을 바꾸는 중요한 전환점이 될 가능성을 보여줍니다.
https://thinkingmachines.ai/blog/interaction-models/
Interaction Models: A Scalable Approach to Human-AI Collaboration
Interaction models move beyond turn-based AI interfaces by handling multimodal, real-time collaboration natively across audio, video, and text.
thinkingmachines.ai

'인공지능' 카테고리의 다른 글
| ANUS CLI: 자율적으로 진화하는 AI 에이전트 개념과 활용 방법 정리 (0) | 2026.05.15 |
|---|---|
| 오픈소스 기반 고효율 고객 서비스 AI 어시스턴트 Simba 기술 정리 (0) | 2026.05.15 |
| AI 기반 데이터 시각화 도구 Data Formulator 개념과 0.7 알파 버전 주요 기능 정리 (0) | 2026.05.13 |
| ARIS(Code) 자동화 연구 워크플로우 개념과 기술적 특징 정리 (0) | 2026.05.13 |
| 단일 바이너리로 완성하는 올인원 파일 서버, goshs 기능과 활용 정리 (0) | 2026.05.13 |