본문 바로가기

인공지능

딥시크 mHC(Manifold-Constrained Hyper-Connections) 논문 정리: 초연결 신경망을 안정적으로 확장하는 방법

728x90
반응형
728x170

 

최근 비교적 조용하던 딥시크(DeepSeek)가 **mHC(Manifold-Constrained Hyper-Connections)**라는 핵심 아키텍처 기술을 발표하며 다시 주목을 받고 있습니다.
이번 논문은 지난 10여 년간 트랜스포머와 대규모 언어 모델을 지탱해온 **잔차 연결(Residual Connection)**의 한계를 짚고, 더 깊고 복잡한 신경망을 불안정성 없이 확장하는 방법을 제시합니다.

이 글에서는 mHC가 등장하게 된 배경, 기존 Hyper-Connections(HC)의 문제점, mHC의 핵심 아이디어와 수학적 제약, 그리고 실험 결과가 의미하는 바를 중심으로 정리해보겠습니다.

반응형

잔차 연결에서 Hyper-Connections로, 그리고 한계

기존 트랜스포머는 잔차 연결을 통해 바로 이전 층의 출력만 현재 층에 더해줍니다. 이 방식은 학습 안정성에 큰 기여를 했지만, 모델이 깊어질수록 하위 층의 정보가 충분히 활용되지 못한다는 한계가 있었습니다.

이를 개선하기 위해 제안된 것이 **Hyper-Connections(HC)**입니다.
HC는 residual stream의 폭을 확장해 여러 이전 층의 정보를 동시에 활용할 수 있도록 설계되었습니다. 그 결과 성능은 향상되었지만, 다음과 같은 문제가 발생했습니다.


기존 HC의 핵심 문제점

1. 수치적 불안정성

HC에서는 잔차 연결을 담당하는 행렬 (H^{res})가 제약 없이 학습됩니다.
이 행렬이 여러 층에 걸쳐 곱해지면서, 신호가 폭발하거나 소멸하는 문제가 발생합니다. 실제로 27B 모델 실험에서 HC는 학습 도중 손실이 급격히 증가하고, 그래디언트 norm이 불안정해지는 현상이 관찰되었습니다.

2. 시스템 오버헤드

HC는 계산량 자체는 크지 않지만, 확장된 residual stream 때문에 메모리 접근 비용이 크게 증가합니다.
중간 활성화를 저장해야 하는 역전파 과정, 파이프라인 병렬화에서의 통신 비용까지 겹치며 대규모 학습에서 처리량 저하가 발생합니다.

요약하면, HC는 “더 많이 연결했지만, 그만큼 불안정하고 무거워진” 구조였습니다.


mHC의 핵심 아이디어: 매니폴드 제약

딥시크는 이 문제를 해결하기 위해 **Manifold-Constrained Hyper-Connections(mHC)**를 제안합니다. 핵심은 단순합니다.

“연결을 제한하지 말고, 연결이 존재할 수 있는 수학적 공간을 제한하자.”


mHC의 핵심 기술 구성

1. Doubly Stochastic Matrix 제약

mHC는 잔차 연결 행렬 (H^{res})를 doubly stochastic matrix의 매니폴드로 제한합니다.
이는 모든 원소가 0 이상이며, 각 행과 열의 합이 1인 행렬입니다.

이 제약이 주는 효과는 명확합니다.

  • Norm 보존: 행렬의 spectral norm이 1 이하로 제한되어 신호 폭발을 방지
  • 깊이 전반의 안정성: 여러 층에 걸쳐 곱해져도 동일한 성질 유지
  • 직관적 해석: 정보가 순열 행렬들의 조합처럼 점진적으로 섞이며 전달됨

결과적으로, 잔차 연결의 identity mapping 성질이 복원됩니다.


2. Sinkhorn-Knopp 기반 매니폴드 투영

학습 중 생성된 잔차 행렬은 바로 doubly stochastic 조건을 만족하지 않습니다.
이를 위해 mHC는 Sinkhorn-Knopp 알고리즘을 사용해 행과 열의 합이 1이 되도록 반복 정규화합니다.

이 과정은 학습 중 자동으로 수행되며, 논문에서는 약 20회 반복으로 충분한 수렴을 보였습니다.


3. 신호 상쇄를 막는 비음수 제약

입력 전·후에 적용되는 (H^{pre}), (H^{post})에는 Sigmoid 함수를 적용해 비음수 제약을 둡니다.
이를 통해 서로 다른 경로의 신호가 상쇄되는 문제를 방지합니다.


성능뿐 아니라 인프라도 함께 설계

mHC는 이론적인 안정성뿐 아니라 실제 대규모 학습 환경을 고려한 설계를 함께 제시합니다.

  • Kernel Fusion으로 연산 레이턴시 최소화
  • Recomputing 전략으로 GPU 메모리 사용량 절감
  • DualPipe 통신 오버랩으로 파이프라인 병렬 처리 효율 개선

이러한 최적화 덕분에, mHC는 대규모 모델에서도 추가 오버헤드 6.7% 수준으로 안정적인 학습이 가능했습니다.


실험 결과가 말해주는 것

  • 27B 모델에서 HC 대비 학습 불안정성 완화
  • 최종 손실 감소 및 BBH, DROP, GSM8K 등 하류 태스크에서 일관된 성능 향상
  • Amax Gain Magnitude가 HC의 3000 수준에서 mHC는 약 1.6으로 감소
  • 모델 크기와 학습 토큰 수가 증가해도 성능 이점 유지

이는 mHC가 단순히 “잘 작동하는 트릭”이 아니라, 확장 가능한 아키텍처 설계 원칙임을 보여줍니다.


더 크게가 아니라, 더 안정적으로

딥시크의 mHC 논문은 이렇게 요약할 수 있습니다.

  • 잔차 연결의 장점은 유지
  • 초연결 구조의 불안정성은 수학적 제약으로 해결
  • 인프라 수준까지 고려한 현실적인 설계

즉, “모델을 더 크게 만드는 것”이 아니라,
**“모델이 커져도 무너지지 않게 만드는 방법”**에 대한 답변입니다.

대규모 언어 모델과 파운데이션 모델이 계속 확장되는 상황에서, mHC는 다음 세대 아키텍처 설계의 중요한 단서를 제공하는 연구로 보입니다.

300x250

https://arxiv.org/abs/2512.24880?fbclid=IwY2xjawPEEKBleHRuA2FlbQIxMABicmlkETEzVmdjYTVvc0FJbWJ6cUpyc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHuurffEZDmwsr7NCcCRv2FmCKn8ouEzNEgVIESFPr-V15mO4WwFpGri5hrf0_aem_XTJTy6FqsjKdRpQkbwxYuQ

 

mHC: Manifold-Constrained Hyper-Connections

Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial per

arxiv.org

728x90
반응형
그리드형