본문 바로가기

인공지능

NVIDIA Gated DeltaNet-2: 선형 어텐션에서 Erase와 Write를 분리한 새로운 델타 규칙

728x90
반응형
728x170

이 글은 선형 어텐션(linear attention) 구조에서 오래된 문제로 지적돼 온 압축된 메모리를 어떻게 안전하게 수정할 것인가라는 질문에 대해, NVIDIA가 공개한 Gated DeltaNet-2가 어떤 해법을 제시하는지 정리한 기술 블로그입니다.
델타 규칙 기반 선형 어텐션의 배경부터, 기존 모델의 한계, Gated DeltaNet-2의 핵심 아이디어, 수식적 구조, 학습 방식, 성능 결과, 그리고 실제 사용 방법까지 입력된 정보를 바탕으로 차분하게 설명합니다.

반응형

선형 어텐션과 델타 규칙의 배경

기존 소프트맥스 어텐션은 KV 캐시가 시퀀스 길이에 비례해 증가합니다. 이로 인해 긴 문맥을 다룰수록 메모리와 계산 비용이 급격히 커집니다.

선형 어텐션은 이 문제를 해결하기 위해, 고정 크기의 순환 상태(recurrent state) 안에 과거 정보를 압축합니다. 이 방식은

  • 시퀀스 혼합은 선형 시간
  • 디코딩은 상수 메모리
    라는 장점을 제공합니다.

하지만 핵심 난제는 단순한 “망각(forgetting)”이 아닙니다.
이미 압축된 메모리를 어떻게 수정(edit)하느냐가 더 어려운 문제입니다. 이 지점에서 델타 규칙(delta rule)이 등장합니다.


기존 델타 규칙 모델의 한계: 스칼라 게이트 문제

델타 규칙 기반 선형 어텐션은 상태 행렬 (S_t)를 유지하며, 새로운 토큰이 들어올 때마다 일부를 지우고 일부를 씁니다.

  • DeltaNet: 현재 키에 연결된 값을 빼고 새 값을 더하는 방식
  • Mamba-2: 전역적 망각을 위한 스칼라 decay (\alpha_t) 도입
  • Gated DeltaNet: overwrite와 decay를 결합했지만 여전히 헤드당 하나의 스칼라 게이트
  • KDA (Kimi Delta Attention): decay는 채널 단위로 확장했지만, erase와 write는 여전히 하나의 스칼라 (\beta_t)에 묶여 있음

문제는 이 스칼라 (\beta_t)가

  • 키 쪽에서 얼마나 지울지
  • 값 쪽에서 얼마나 쓸지
    라는 서로 다른 축의 결정을 동시에 담당한다는 점입니다. 이는 델타 규칙의 본질이라기보다 모델링 제약에 가깝습니다.

Gated DeltaNet-2의 핵심 아이디어: 두 개의 게이트

Gated DeltaNet-2는 이 제약을 깨기 위해 Gated Delta Rule-2를 제안합니다.

1. Erase Gate와 Write Gate의 분리

  • Erase gate (b_t \in [0,1]^{d_k})
    • 키 축(key axis)에서 어떤 채널을 지울지 결정
  • Write gate (w_t \in [0,1]^{d_v})
    • 값 축(value axis)에서 어떤 채널을 새로 쓸지 결정

두 게이트 모두 토큰 표현으로부터 시그모이드 투영으로 생성되며, 채널 단위로 동작합니다.
기존 KDA에서 도입된 채널 단위 decay (\alpha_t) 는 그대로 유지됩니다.


Gated Delta Rule-2 수식 구조

Gated DeltaNet-2의 상태 업데이트는 다음과 같이 정의됩니다.

여기서 중요한 포인트는 다음과 같습니다.

  • decay (D_t = \mathrm{Diag}(\alpha_t)) 이후에 active edit 수행
  • erase는 읽기 방향(read direction) 을 채널별로 선택
  • write는 쓰기 대상(value) 을 채널별로 선택

특히,

  • (b_t)와 (w_t)가 하나의 스칼라로 붕괴되면 KDA를 정확히 복원
  • 여기에 decay까지 스칼라가 되면 Gated DeltaNet을 복원

즉, Gated DeltaNet-2는 기존 모델들을 부분공간(subspace) 으로 포함하는 일반화된 형태입니다.


학습 방식: Chunkwise WY와 Gate-aware Backward

이 업데이트 규칙은 KDA와 동일한 chunkwise WY 형태로 변환할 수 있어 병렬 학습이 가능합니다.

  • chunk size: 64
  • Triton 기반 fused kernel 사용
  • channel-wise decay는 rank-one erase 행렬의 비대칭 요소에 흡수

Backward 단계에서는

  • erase 쪽과 write 쪽이 서로 다른 대각 게이트를 가지므로
  • 기존 KDA의 스칼라 shortcut을 사용할 수 없음

논문에서는 이를 위해 gate-aware vector-Jacobian product를 명시적으로 유도했고, Hopper GPU 환경에 맞춘 커널 제약도 설명합니다.


블록 설계와 하이브리드 구조

Gated DeltaNet-2는 Transformer 스타일 블록의 순환 토큰 믹서로 사용됩니다.

  • Query/Key 경로:
    선형 투영 → 짧은 causal convolution → SiLU → L2 정규화
  • Value 경로:
    선형 투영 → 짧은 convolution → SiLU
  • decay, erase, write 게이트는 각각 독립적인 선형 브랜치에서 생성

출력은 RMSNorm과 SiLU 기반 출력 게이트를 거쳐 다시 투영됩니다.

Hybrid 모델

하이브리드 구조에서는 Sliding-Window Attention(SWA) 를 추가합니다.

  • Gated DeltaNet-2: 긴 히스토리 압축
  • SWA: 정확한 로컬 상호작용 처리
  • 전체 시퀀스는 여전히 선형 스케일링 유지

1.3B 파라미터 실험 결과 요약

모든 모델은 동일 조건에서 비교되었습니다.

  • 파라미터 수: 1.3B
  • 학습 데이터: 100B FineWeb-Edu 토큰
  • recurrent state 크기: 레이어당 262,144 floats

주요 성능 결과

  • 언어 모델링 + 상식 추론 평균: Gated DeltaNet-2 최고 성능
  • 하이브리드 설정에서도 동일한 우위
  • RULER 장문 문맥 검색에서 큰 향상
    • S-NIAH-3 @2K: 63.2 → 89.8
    • MK-NIAH-1 @4K: 28.0 → 37.8

상태 크기가 동일하다는 점에서, 성능 향상은 메모리 양이 아니라 업데이트 규칙 자체의 개선에서 비롯된 것으로 해석됩니다.


사용 방법 예시: 코드 실행 흐름

공식 구현은 PyTorch와 Triton 커널을 기반으로 제공됩니다.

저장소 받기

git clone https://github.com/NVlabs/GatedDeltaNet-2.git
cd GatedDeltaNet-2

docker build -t gdn2 .
docker run --gpus all -it --ipc=host -v $PWD:/workspace gdn2

학습 실행

python ../pretrain.py \
  --train_data_dir ${TRAIN_DATA} \
  --val_data_dir ${VALIDATION_DATA} \
  --output_root ${SAVE_DIR} \
  --exp_name ${NAME} \
  --model_name ${MODEL} \
  --train_config ${CONFIG}

기본 설정은 1.3B 파라미터와 4K 시퀀스 길이를 기준으로 구성돼 있습니다.


728x90

Gated DeltaNet-2는 선형 어텐션에서 오랫동안 묶여 있던 가정을 명확히 분리했습니다.
지우는 결정과 쓰는 결정을 다른 채널 게이트로 나눈 것은 단순한 구조 변경이 아니라, 압축 메모리를 다루는 방식 자체를 확장한 접근입니다.

https://www.marktechpost.com/2026/05/24/nvidia-ai-releases-gated-deltanet-2-a-linear-attention-layer-that-decouples-erase-and-write-in-the-delta-rule/?fbclid=IwY2xjawSBKbVleHRuA2FlbQIxMQBzcnRjBmFwcF9pZBAyMjIwMzkxNzg4MjAwODkyAAEe3qSTes2Zd5WhNcebo7_Q0l2SQ7D7dNJGXu7gC2wPm5uUsHnDb2RbyYTK79I_aem_3eopOLNgrRToTuLk2eCYzQ

 

NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

NVIDIA releases Gated DeltaNet-2: linear attention with channel-wise erase and write gates, outperforming KDA and Mamba-3 at 1.3B.

www.marktechpost.com

 

728x90
반응형
그리드형