본문 바로가기

인공지능

대규모 언어 모델 학습에서 하이퍼파라미터 튜닝 비용을 줄이는 방법 - Complete(d)P가 제안하는 확장된 하이퍼파라미터 전이 전략

728x90
반응형
728x170

대규모 언어 모델을 학습해 본 경험이 있다면, 모델 구조를 설계하는 것보다 하이퍼파라미터를 맞추는 과정이 훨씬 더 어렵고 비용이 많이 든다는 점에 공감할 것입니다.
모델이 커질수록 학습률, 배치 크기, weight decay 같은 값들을 다시 조정해야 하고, 작은 모델에서 잘 동작하던 설정이 큰 모델에서는 성능 저하나 학습 불안정으로 이어지는 경우도 흔합니다.

이번 글에서는 이러한 문제를 해결하기 위해 제안된 **Complete(d)P(Parameterisation)**라는 연구를 다룹니다.
이 연구는 작은 모델에서 찾은 최적의 하이퍼파라미터를 대규모 모델로 안정적으로 전이시키는 것을 목표로 하며, 기존 연구가 다루지 못했던 배치 크기와 학습 토큰 수까지 포함한 전이 방법을 제시합니다.

특히, 이 논문은 단순한 이론 제안에 그치지 않고, 실제 대규모 언어 모델 학습에서 훈련 속도를 유의미하게 개선했음을 실험으로 입증합니다.

반응형

왜 대규모 모델에서는 하이퍼파라미터 튜닝이 더 어려운가

하이퍼파라미터는 모델 학습의 방향과 속도를 결정하는 핵심 요소입니다.
하지만 모델이 커질수록 다음과 같은 문제가 발생합니다.

먼저, 모델의 너비와 깊이가 증가하면 내부에서 계산되는 값들의 크기와 분포가 달라집니다.
이로 인해 같은 학습률을 사용하더라도 업데이트가 지나치게 커지거나, 반대로 너무 작아질 수 있습니다.

또한, 배치 크기를 키우면 학습 과정에서 발생하는 노이즈 특성이 바뀝니다.
작은 배치에서는 업데이트가 불안정하지만 다양한 방향을 탐색하는 반면, 큰 배치에서는 더 안정적이지만 과도하게 단조로워질 수 있습니다.

마지막으로, 학습에 사용하는 전체 토큰 수가 늘어나면, 초반에 적절했던 학습률이 후반부에는 오히려 과한 업데이트를 유발할 수 있습니다.

기존의 하이퍼파라미터 전이 기법들은 주로 모델 구조의 크기 변화만을 고려했으며, 이러한 학습 환경의 변화까지는 충분히 반영하지 못했습니다.


Complete(d)P란 무엇인가

Complete(d)P는 기존의 CompleteP 파라미터화 기법을 확장한 방법입니다.
이 접근법의 핵심 목표는 다음과 같습니다.

작은 모델에서 비용을 들여 찾은 하이퍼파라미터 설정을
더 큰 모델에서도 다시 튜닝하지 않고 그대로 사용할 수 있도록 만드는 것

이를 위해 Complete(d)P는 하이퍼파라미터가 영향을 받는 모든 주요 스케일링 축을 함께 고려합니다.

  • 모델의 너비
  • 모델의 깊이
  • 배치 크기
  • 학습에 사용되는 전체 토큰 수

이 네 가지 요소가 함께 바뀌더라도, 학습 동작이 본질적으로 동일하게 유지되도록 설계된 것이 Complete(d)P의 핵심 철학입니다.


기존 파라미터화 기법의 한계와 개선 방향

기존의 CompleteP는 모델의 너비와 깊이가 달라져도 하이퍼파라미터를 전이할 수 있다는 점에서 중요한 기여를 했습니다.
하지만 실제 최신 Transformer 구조를 적용하는 과정에서 몇 가지 한계가 드러났습니다.

Query-Key Normalization 문제

최근 Transformer 구조에서는 Query와 Key를 정규화하는 레이어가 사용됩니다.
이 레이어는 여러 헤드가 가중치를 공유하는 특성을 가지고 있기 때문에, 단순한 너비 스케일링 규칙으로는 동작을 정확히 유지하기 어렵습니다.

Complete(d)P는 이러한 특성을 고려해, 모델이 커져도 각 헤드가 받는 영향이 동일하도록 스케일링 방식을 확장했습니다.


AdamW 관련 스케일링 오류 수정

기존 CompleteP에서는 AdamW 옵티마이저에서 사용하는 일부 보정 값이 모델 크기 증가에 따라 정확히 맞춰지지 않는 문제가 있었습니다.
이 논문은 이러한 문제를 짚어내고, 모델이 매우 커지더라도 그래디언트의 크기와 업데이트 방향이 일관되게 유지되도록 수정했습니다.


불필요한 스케일 요소 제거

기존 구조에서 사용되던 일부 명시적인 스케일 파라미터는, 실제로는 학습률이나 초기화 방식으로 흡수할 수 있었습니다.
Complete(d)P는 이를 정리하여 모델 구조를 더 단순하고 해석 가능하게 만듭니다.


배치 크기 변화에 따른 하이퍼파라미터 전이

배치 크기는 대규모 학습에서 반드시 조정되는 요소입니다.
하지만 배치 크기를 키우면 단순히 학습률만 조정해서는 동일한 학습 동작을 유지하기 어렵습니다.

이 논문은 학습 과정을 확률적인 시스템으로 바라보는 관점에서 접근합니다.

배치 크기가 커질수록 학습 과정의 무작위성이 줄어들고, 업데이트가 더 결정론적으로 변합니다.
이 변화까지 고려하지 않으면, 같은 하이퍼파라미터라도 전혀 다른 학습 궤적을 그리게 됩니다.

Complete(d)P는 이러한 관점에서:

  • 배치 크기가 커질수록 학습률과 weight decay를 함께 조정해야 하며
  • 이 조정은 임의적인 경험칙이 아니라, 학습 동작을 동일하게 유지하기 위한 필연적인 결과임을 설명합니다

이 접근은 AdamW 옵티마이저의 동작을 이론적으로 해석한 첫 사례 중 하나라는 점에서도 의미가 있습니다.


학습 토큰 수(Token Horizon)에 대한 전이

학습에 사용하는 데이터가 많아질수록, 모델은 더 오랜 시간 학습하게 됩니다.
이때 초기 설정 그대로 학습률을 유지하면, 후반부에서 과도한 업데이트가 발생할 수 있습니다.

논문은 실험을 통해, 학습 토큰 수가 증가할수록 적절한 학습률은 점진적으로 낮아져야 한다는 점을 관찰합니다.

이를 단순한 경험칙이 아니라, 학습 과정의 신호와 노이즈의 균형을 유지하는 문제로 해석하고,
배치 크기 조정을 통해 이를 자연스럽게 해결하는 방식을 제안합니다.


모듈별 하이퍼파라미터 최적화의 중요성

대부분의 학습 설정에서는 하나의 학습률과 하나의 weight decay를 전체 모델에 적용합니다.
하지만 실제 Transformer 내부를 보면, 각 모듈은 역할과 특성이 다릅니다.

  • Attention 가중치
  • MLP 가중치
  • 깊이에 따라 달라지는 레이어

이 논문은 모든 모듈에 동일한 하이퍼파라미터를 적용하는 것이 비효율적일 수 있음을 지적합니다.

문제는 탐색 공간이 너무 크다는 점입니다.
모듈별로 하이퍼파라미터를 다르게 주면, 탐색해야 할 경우의 수가 급격히 증가하고, 작은 실수로 학습이 붕괴될 가능성도 커집니다.


구조화된 탐색 전략과 전이

이를 해결하기 위해 논문은 하이퍼파라미터를 무작정 늘리지 않고,
의미 있는 기준에 따라 분해합니다.

  • 모듈 유형에 따른 차이
  • 레이어 깊이에 따른 차이
  • 배치 크기와 학습 토큰 수에 따른 조정
  • 모델 크기에 따른 조정

이렇게 구조화된 방식으로 탐색한 결과,
작은 모델에서 얻은 모듈별 최적 설정이 대규모 모델에서도 그대로 효과를 유지함을 확인했습니다.

실제로 실험에서는 작은 모델에서 학습 속도가 크게 개선되었고,
이 이점이 수백 배 큰 모델로 전이된 후에도 유지되었습니다.


이 연구가 전달하는 핵심 메시지는 분명합니다.

대규모 언어 모델 학습에서 가장 큰 낭비는
같은 하이퍼파라미터를 규모만 바꿔가며 반복해서 다시 튜닝하는 과정이라는 점입니다.

Complete(d)P는 하이퍼파라미터를 모델 크기, 배치 크기, 학습 기간 변화에도 흔들리지 않는 형태로 정리함으로써,
작은 실험의 가치를 대규모 학습까지 확장할 수 있는 길을 제시합니다.

앞으로의 대규모 모델 학습에서는
더 큰 모델을 만드는 것보다,
하이퍼파라미터를 어떻게 전이 가능하게 설계하느냐가 경쟁력이 될 가능성이 큽니다.

그 관점에서 Complete(d)P는 매우 현실적이고 실무적인 방향성을 제시하는 연구라고 볼 수 있습니다.

300x250

https://www.arxiv.org/abs/2512.22382?fbclid=IwY2xjawPGAqFleHRuA2FlbQIxMABicmlkETFnQW13V1BIRzVDVHBBYTRsc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHoqFs03OFzSA2kYCUC-vu2J-1osGDWO_KYYtz6CNiJc2jEIgOpU2-lr7wElz_aem_bZ2UC2wwGAoLJbzLKpuvgA

 

Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration

Hyperparameter tuning can dramatically impact training stability and final performance of large-scale models. Recent works on neural network parameterisations, such as $μ$P, have enabled transfer of optimal global hyperparameters across model sizes. These

arxiv.org

728x90
반응형
그리드형