
AI는 왜 ‘계속 배우는 구조’가 필요해졌을까
최근 딥마인드 연구진은 “2026년은 지속학습의 해가 될 것”이라고 언급했습니다. 이 발언은 단순한 전망이 아니라, 현재 AI 연구의 흐름을 반영한 중요한 신호로 해석할 수 있습니다. 실제로 구글 리서치(Google Research)는 2023년 11월, 기존 딥러닝의 구조적 전제를 근본부터 다시 바라보는 **중첩 학습(Nested Learning, NL)**이라는 새로운 학습 패러다임을 제안했습니다.
이 연구가 주목받는 이유는 명확합니다. 지금까지의 AI는 대규모 데이터를 학습한 뒤 고정된 상태로 사용되는 경우가 많았지만, 현실 세계는 끊임없이 변하고 데이터 역시 계속해서 갱신됩니다. 이러한 환경에서 AI가 실전에서도 유의미한 성능을 유지하려면, 학습이 끝나지 않는 구조, 즉 지속적으로 배우고 적응하는 시스템이 필요합니다.
이 글에서는 구글이 제시한 중첩 학습이 어떤 개념인지, 기존 딥러닝과 어떤 점에서 다르며, 왜 이것이 지속학습 AI로 가는 중요한 전환점인지 차근차근 정리해보겠습니다.
기존 딥러닝 구조에 대한 문제 제기
레이어를 쌓는다는 관점의 한계
전통적인 딥러닝은 입력층부터 출력층까지 여러 개의 레이어를 쌓아 올리는 구조로 설명되어 왔습니다. 이 구조에서는 하나의 손실 함수가 정의되고, 하나의 최적화 알고리즘이 전체 모델 파라미터를 동시에 업데이트합니다. 이 방식은 직관적이고 설명하기 쉬우며, 지난 수년간 놀라운 성과를 만들어냈습니다.
하지만 구글 연구진은 이러한 관점이 딥러닝의 실제 동작 방식을 충분히 설명하지 못한다고 봅니다. 연구진은 레이어 기반 설명을 **“환상(Illusion)”**이라고 표현하며, 모델 내부에서는 훨씬 더 복잡한 학습 역학이 일어나고 있다고 지적합니다.
실제 모델 내부에서 일어나는 일
실제로 대규모 모델을 학습시키면, 모든 파라미터가 동일한 속도로 학습되지 않습니다. 어떤 부분은 빠르게 변화하고, 어떤 부분은 매우 느리게 안정화됩니다. 즉, 모델 내부에는 이미 서로 다른 학습 속도와 역할을 가진 구성 요소들이 공존하고 있습니다.
중첩 학습은 바로 이 지점에서 출발합니다.
중첩 학습(Nested Learning)의 핵심 개념
하나의 모델, 여러 개의 최적화 문제
중첩 학습은 머신러닝 모델을 단일한 최적화 문제로 보지 않습니다. 대신, 모델을 다음과 같이 정의합니다.
- 서로 다른 목적을 가진
- 서로 다른 시간 척도(Time Scale)로 작동하는
- 다수의 최적화 문제가 내포된 시스템
즉, 하나의 모델 안에 여러 개의 학습 과정이 중첩되어 있다는 관점입니다.
문맥(Context)과 업데이트 빈도(Update Frequency)
중첩 학습 관점에서 모델의 각 구성 요소는 자신만의 문맥을 가지고 있습니다. 어떤 모듈은 입력 데이터의 단기적 패턴에 반응하고, 어떤 모듈은 장기적인 구조나 규칙을 유지합니다. 이로 인해 업데이트 빈도 역시 달라집니다.
이는 인간의 뇌가 다양한 주파수의 뇌파를 통해 정보를 처리하는 방식과 유사합니다. 빠른 주파수는 즉각적인 반응을 담당하고, 느린 주파수는 장기적인 기억과 판단을 담당합니다. 중첩 학습은 이와 같은 다중 시간 스케일 학습을 딥러닝 구조 안에서 설명합니다.
옵티마이저에 대한 새로운 해석
모멘텀은 기억이다
중첩 학습 연구에서 중요한 통찰 중 하나는, Adam이나 SGD 모멘텀과 같은 옵티마이저를 단순한 계산 규칙으로 보지 않는다는 점입니다.
연구진은 모멘텀을 다음과 같이 해석합니다.
- 과거의 기울기 정보를 누적하고
- 이를 압축된 형태로 저장하며
- 이후의 업데이트에 재사용하는 시스템
즉, 옵티마이저는 손실 지형(Loss Landscape)에 대한 경험을 저장하는 연상 기억(Associative Memory) 역할을 수행합니다. 이는 학습 과정 자체가 하나의 기억 시스템으로 작동하고 있음을 의미합니다.
자기 수정(Self-Modifying) 학습 모듈과 M3 옵티마이저
이러한 해석을 기반으로 연구진은, 학습 규칙이 고정된 것이 아니라 스스로 수정될 수 있는 자기 수정 학습 모듈을 제안합니다. 또한, 서로 다른 시간 척도의 모멘텀을 결합한 **M3(Multi-scale Momentum Muon)**와 같은 새로운 옵티마이저를 제시했습니다.
이는 AI가 더 이상 “주어진 규칙에 따라 학습하는 존재”가 아니라, 어떻게 학습할지까지 학습하는 단계로 진입하고 있음을 보여줍니다.
연속체 기억 시스템(CMS)과 파국적 망각 문제
기존 기억 구조의 구조적 한계
기존의 순환 신경망이나 LSTM 계열 모델은 단기 기억과 장기 기억을 비교적 명확히 구분합니다. 이 방식은 특정 문제에서는 효과적이지만, 지속적으로 새로운 작업을 학습할 경우 기존 지식을 잃어버리는 문제가 발생합니다. 이를 **파국적 망각(Catastrophic Forgetting)**이라고 부릅니다.
CMS: 기억을 스펙트럼으로 관리하다
구글 연구진은 이 문제를 해결하기 위해 **연속체 기억 시스템(Continuum Memory System, CMS)**을 도입했습니다. CMS는 기억을 단기와 장기로 나누지 않고, 주파수 스펙트럼 전체로 관리합니다.
- 고주파 영역의 뉴런은 빠르게 변화하며 새로운 정보를 흡수
- 저주파 영역의 뉴런은 천천히 변화하며 핵심 지식을 장기 보존
이 구조를 통해 모델은 새로운 정보를 학습하면서도 기존의 중요한 지식을 유지할 수 있습니다. 이는 지속적 학습에서 가장 큰 장애물 중 하나를 구조적으로 해결하는 접근입니다.
사전 학습에 대한 관점의 전환과 HOPE 모델
사전 학습은 긴 인컨텍스트 러닝이다
연구진은 사전 학습(Pre-training)에 대해서도 기존과 다른 관점을 제시합니다. 이들은 사전 학습을 별도의 단계로 보지 않고, **아주 긴 문맥을 가진 인컨텍스트 러닝(In-context Learning)**으로 해석합니다.
이는 모델이 특정 시점에서 학습을 끝내는 것이 아니라, 문맥의 길이와 기억 구조에 따라 계속해서 학습 상태를 유지할 수 있다는 의미입니다.
HOPE 모델의 성능 결과
이 철학을 구현한 모델이 HOPE 모델입니다. 실험 결과, HOPE 모델은:
- 지속적 학습 과제에서 안정적인 성능을 유지했고
- 1,000만 토큰 길이의 장문 이해(BABILong) 테스트에서
- 기존 트랜스포머 및 최신 RNN 계열 모델(Titans, Mamba 등)을 뛰어넘는 성능을 기록했습니다.
이는 장기 문맥 이해와 지속적 학습이 구조적으로 연결될 수 있음을 실험적으로 보여준 사례입니다.
중첩 학습이 여는 지속학습 AI의 방향성
중첩 학습은 단순히 새로운 모델 하나를 제안하는 연구가 아닙니다. 이는 딥러닝을 바라보는 사고방식 자체를 전환하는 시도입니다.
이 연구가 시사하는 핵심은 다음과 같습니다.
- 딥러닝 모델은 하나의 학습 문제가 아니라 중첩된 학습 시스템이다
- 옵티마이저는 계산 도구가 아니라 기억 메커니즘이다
- 기억은 고정된 구조가 아니라 연속적인 스펙트럼이다
- AI는 훈련이 끝나면 멈추는 존재가 아니라 계속 진화하는 시스템이다
앞으로 이러한 관점이 확산된다면, AI는 변화하는 환경 속에서도 스스로 적응하며 학습을 이어가는 방향으로 발전할 가능성이 큽니다. 중첩 학습은 그 출발점에서, 지속학습 AI로 가는 중요한 이정표라 할 수 있습니다.

'인공지능' 카테고리의 다른 글
| 2026년, AI와 플랫폼 엔지니어링의 융합 - 개발자 생산성을 결정짓는 새로운 기준, 당신은 준비되어 있나요? (0) | 2026.01.05 |
|---|---|
| 바이브코딩(Vibe Coding)이란 무엇인가? - 인간 개발자와 AI 코딩 에이전트의 협업 구조를 재정의하다 (0) | 2026.01.05 |
| Claude Code 창시자 Boris Cherny의 실전 활용 전략 정리 (0) | 2026.01.05 |
| LLM 시대, “어떤 API를 호출해야 할까?”라는 질문이 더 이상 의미 없는 이유 (0) | 2026.01.05 |
| 로보틱스와 피지컬 AI를 위한 오픈소스 데이터 플랫폼, Mosaico (0) | 2026.01.05 |