본문 바로가기

인공지능

구글의 ‘중첩 학습(Nested Learning)’ 패러다임

반응형
728x170

LLM의 기억 한계를 넘어설 새로운 학습 아키텍처의 가능성

대규모 언어 모델은 놀라운 성과를 보여주고 있지만, 뚜렷한 한계도 존재합니다. 대표적인 문제가 바로 ‘기억’입니다. LLM은 훈련이 끝난 순간 사실상 정적 상태가 되며, 새로운 지식을 스스로 학습하거나 업데이트할 수 없습니다. 컨텍스트 창 안에서만 임시로 정보를 다룰 뿐, 창을 벗어나면 모든 정보는 사라집니다.
구글 연구진은 이러한 구조적 한계를 해결하기 위해 ‘중첩 학습(Nested Learning, NL)’이라는 새로운 학습 패러다임을 제시했습니다. 그리고 이를 증명하기 위해 Hope라는 모델을 개발했습니다. 본 글에서는 이 새로운 접근 방식의 핵심 개념과 구조, 기존 트랜스포머 대비 차별성, 성능, 그리고 산업적 의미까지 전체적으로 살펴봅니다.

반응형

1. 왜 LLM은 여전히 ‘기억’을 못 하는가?

LLM의 가장 큰 문제는 학습 후 지식의 고정입니다.
기존 딥러닝은 방대한 데이터를 통해 표현을 학습하지만, 새로운 데이터 일반화, 작업의 지속 학습, 예측 과정에서의 실시간 지식 업데이트 등은 여전히 어려운 과제입니다.

특히 트랜스포머 기반 모델은 아래와 같은 구조적 한계를 가집니다.

  • 학습이 끝나면 모델 가중치는 고정된다
  • 새로운 정보는 인컨텍스트 학습에만 의존한다
  • 컨텍스트 창을 벗어난 정보는 완전히 잃는다
  • 상호작용으로부터 장기적 지식을 저장하는 ‘온라인 통합(online consolidation)’ 메커니즘이 없다

즉, LLM은 마치 단기 기억만 남아 있고 장기 기억을 형성하지 못하는 사람과 비슷합니다.

이 한계를 정면으로 해결하고자 등장한 것이 바로 중첩 학습 패러다임입니다.


2. 중첩 학습(Nested Learning)의 핵심 개념

구글이 제시한 중첩 학습(NL)은 기존 딥러닝 훈련 방식을 근본적으로 재해석합니다.

2-1. ‘모델+훈련’이라는 단일 구조를 해체한 접근

기존 관점에서는 모델 아키텍처와 이를 학습시키는 최적화 알고리즘을 별도의 요소로 취급했습니다. 하지만 NL은 이를 서로 다른 속도로 동시에 최적화되는 여러 학습 문제의 계층 구조로 재설계합니다.

즉, 모델이 하나의 속도로만 학습하는 것이 아니라,
빠른 학습, 느린 학습, 더 느린 학습…
이렇게 층층이 겹쳐 있는 구조로 발전합니다.

2-2. 핵심은 ‘연관 기억(Associative Memory)’ 형태의 계층적 학습

NL은 훈련을 ‘연관 기억을 확장하는 과정’으로 재정의합니다.

  • 모델은 입력과 오류 신호 간의 연관성을 학습한다
  • 어텐션은 사실상 토큰 간 연관성을 저장하는 일종의 기억 모듈로 재해석된다
  • 각 연관 기억 모듈은 서로 다른 업데이트 빈도를 가진다
  • 업데이트 속도 차이를 통해 기억의 다양한 시간 척도를 구현한다

결과적으로 모델 내부에는
즉각 기억 → 단기 기억 → 중기 기억 → 장기 기억
이런 계층적 기억 구조가 생겨나게 됩니다.


3. Hope 모델: NL 패러다임의 첫 실증 모델

3-1. Titans 기반의 확장형 구조

구글의 Hope 모델은 NL을 구현하기 위해 기존 Titans 아키텍처를 확장한 모델입니다.

  • Titans는 트랜스포머의 기억 한계를 보완하기 위해 설계된 구조
  • 단기와 장기 기억 두 가지 레벨만 존재
  • Hope는 이를 여러 단계로 확장

이를 위해 Hope는 CMS(Continuum Memory System)라는 핵심 메모리 시스템을 도입합니다.

3-2. Continuum Memory System(CMS)의 특징

CMS는 여러 개의 메모리 뱅크를 가진 구조로 작동합니다.

  • 빠르게 업데이트되는 뱅크: 즉각적·단기 정보 처리
  • 느리게 업데이트되는 뱅크: 더 오랜 시간 축의 추상 정보 저장
  • 더 확장된 뱅크: 지속적이며 축적되는 지식 형태의 기억

각 메모리 뱅크는 서로 다른 속도로 학습하며, 이로 인해 모델은 사실상 무한한 학습 레벨을 가지는 구조가 됩니다.

이는 기존 트랜스포머의
"어텐션 + 피드포워드"
두 구조만 상호작용하는 방식과 근본적으로 다릅니다.


4. LLM의 기억 한계를 중첩 학습이 어떻게 해결하는가

4-1. 인컨텍스트 학습 한계 해결

지금까지 LLM이 적응형 학습을 할 수 있는 유일한 방식은 인컨텍스트 학습이었습니다.
그러나 이것은 단기 작업 메모리일 뿐, 장기 기억으로 이어지지 않습니다.

NL과 CMS는 이러한 문제를 다음과 같이 해소합니다.

  • 중요한 정보는 빠른 메모리 뱅크에 즉시 저장
  • 반복적으로 입력될 경우 더 느린 뱅크(장기 기억)에 통합
  • 모델이 스스로 기억을 유지하면서 학습하게 됨

즉, 모델이 상호작용 자체를 통해 지속적으로 학습 가능한 구조가 됩니다.


5. Hope 모델의 성능: 트랜스포머 대비 우월한 이유

Hope 모델은 여러 작업에서 트랜스포머 대비 향상된 성능을 보였습니다.

5-1. 낮은 Perplexity와 높은 정확도

언어 모델링 및 상식 추론 작업에서 트랜스포머보다:

  • perplexity가 낮음
  • 정확도는 더 높음

이는 모델이 더 자연스럽게 문맥을 유지하고 다음 단어를 예측할 수 있음을 의미합니다.

5-2. 장문 맥락 처리 성능

‘건초더미 속 바늘 찾기(Needle-In-A-Haystack)’ 문제에서도 뛰어난 성능을 확인했습니다.

  • 수십 페이지 길이 텍스트에서 특정 정보를 찾아야 하는 작업
  • CMS가 다양한 시간 척도의 기억 구조를 제공하기 때문에 장문 맥락을 더 안정적으로 처리

이것은 기존 트랜스포머가 갖지 못한 중요한 능력입니다.


6. 산업 내 유사 연구와 NL의 위치

중첩 학습과 유사한 시도를 하고 있는 연구들도 있습니다.

6-1. Sapient Intelligence의 HRM

  • 계층적 구조 기반의 추론 모델
  • 추론 능력을 향상시키는 방향으로 설계

6-2. 삼성의 TRM

  • HRM을 개선한 구조
  • 더 적은 비용으로 더 높은 성능

그러나 NL은 단순히 추론 구조를 개선하는 수준이 아니라,
모델의 학습 체계를 완전히 다른 관점에서 재설계했다는 점에서 차이가 있습니다.


7. 중첩 학습의 도전 과제와 현실적 과제

NL이 매력적인 것은 분명하지만, 현 시점에서 도전 과제도 명확합니다.

  • 현재 AI 하드웨어 및 소프트웨어 스택은 트랜스포머 중심
  • 대규모 NL 모델을 학습하려면 새로운 프레임워크·하드웨어 최적화 필요
  • 모델의 학습 레벨이 많아질 경우 자원 요구 증가 가능

따라서 NL이 실제 대규모 LLM에 즉시 적용되기에는 여전히 기술적 허들이 존재합니다.


지속 학습 AI 시대를 여는 가능성

중첩 학습과 Hope 모델은 LLM의 가장 핵심적인 한계인 “기억 부재” 문제를 해결할 수 있는 중요한 방향성을 제공합니다.

  • 지속적으로 학습하는 AI
  • 상호작용을 통해 지식이 누적되는 AI
  • 환경 변화에 적응하는 AI

이러한 능력은 실제 엔터프라이즈 환경에서 필수적입니다.
데이터도, 사용자도, 업무 흐름도 계속 변화하기 때문입니다.

아직 해결해야 할 기술적 과제가 적지 않지만,
NL 패러다임은 LLM이 새로운 단계로 도약할 수 있는 중요한 전환점이 될 가능성이 높습니다.
앞으로 NL이 실험적 개념에서 산업적 현실로 발전할지 주목할 필요가 있습니다.

300x250

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

 

Introducing Nested Learning: A new ML paradigm for continual learning

We introduce Nested Learning, a new approach to machine learning that views models as a set of smaller, nested optimization problems, each with its own internal workflow, in order to mitigate or even completely avoid the issue of “catastrophic forgetting

research.google

728x90
반응형
그리드형