본문 바로가기

인공지능

2024 LLM 훈련 패러다임: AI 모델의 진화

728x90
반응형

최근 몇 년간 대규모 언어 모델(LLM)의 훈련 방법론은 획기적인 발전을 이루었습니다. 초기에는 주로 사전 훈련(pre-training)에 집중하던 모델 개발이 이제는 사전 훈련과 후속 훈련(post-training)을 통합하는 방향으로 진화하고 있습니다. 이러한 변화는 AI 모델의 성능을 극대화하고, 다양한 응용 분야에 더 적합한 모델을 만드는 데 중요한 역할을 하고 있습니다. 이 글에서는 최근 발표된 주요 LLM 모델들을 통해 최신 훈련 방법론의 트렌드를 자세히 살펴보겠습니다.

1. 사전 훈련: 새로운 접근 방식의 등장

1.1 사전 훈련의 기본 개념

사전 훈련은 LLM이 대량의 데이터를 통해 기본 언어 패턴을 학습하는 단계입니다. 이 단계에서는 모델이 다양한 텍스트 데이터를 처리하며 언어의 구조와 의미를 이해하는 능력을 키웁니다. 전통적으로, 사전 훈련은 하나의 대규모 데이터셋을 사용하여 단일 단계로 이루어졌지만, 최근에는 여러 단계로 나누어진 복합적인 사전 훈련 방법이 등장하고 있습니다.

1.2 Qwen 2 모델의 사례

Alibaba의 Qwen 2 모델은 이러한 다단계 사전 훈련 접근법의 좋은 예입니다. Qwen 2는 다국어 처리 능력을 강화하기 위해 151,642개의 방대한 어휘 집합을 사용합니다. 이는 이전 모델들이 사용한 어휘 집합보다 훨씬 큰 규모로, 다국어 데이터를 효과적으로 처리하는 데 유리합니다. Qwen 2는 초기 사전 훈련 이후, 추가적인 '롱-컨텍스트(long-context)' 훈련을 통해 모델의 문맥 이해 능력을 크게 확장했습니다. 이 과정에서 최대 32,768개의 토큰을 처리할 수 있도록 문맥 길이를 늘렸습니다.

1.3 Apple AFM 모델의 3단계 사전 훈련

Apple의 AFM(Apple Foundation Models) 모델은 사전 훈련 과정에서 3단계를 거칩니다. 첫 번째 단계에서는 일반적인 사전 훈련을 통해 기본적인 언어 패턴을 학습합니다. 두 번째 단계에서는 웹 크롤링을 통해 수집된 저품질 데이터를 줄이고, 수학과 코드 데이터를 증가시키는 방식으로 데이터를 재조정합니다. 마지막 세 번째 단계에서는 긴 문맥 데이터를 추가하여 모델이 긴 텍스트 내에서 문맥을 이해하는 능력을 강화합니다. 이러한 단계적 접근은 모델이 더 복잡한 텍스트 구조를 이해하고 처리하는 데 도움을 줍니다.

1.4 Google Gemma 2의 효율적 사전 훈련

Google의 Gemma 2 모델은 효율성을 중시한 사전 훈련 방법을 채택하고 있습니다. 이 모델은 2억 5천 6백만 개의 토큰을 사용하여 점진적으로 문맥 길이를 늘리는 방법을 사용했습니다. Gemma 2는 모델의 크기를 키우지 않고도 성능을 향상시키기 위해, 슬라이딩 윈도우 어텐션과 같은 메모리 절약 기법을 사용했습니다. 또한, Gemma 2는 애플의 AFM 모델처럼 지식 증류(knowledge distillation) 기법을 활용하여, 작은 모델들이 더 큰 모델에서 학습한 지식을 효과적으로 전수받을 수 있도록 했습니다.

반응형

2. 후속 훈련: 모델 최적화의 핵심 단계

후속 훈련은 사전 훈련된 모델을 특정 작업에 맞게 최적화하는 과정으로, 최근에는 다양한 기법이 도입되고 있습니다. 후속 훈련의 목표는 모델이 보다 인간 친화적이고, 실용적인 응용 분야에서 높은 성능을 발휘하도록 조정하는 것입니다.

2.1 Qwen 2의 후속 훈련

Qwen 2 모델의 후속 훈련은 주로 SFT(Supervised Fine-Tuning)와 DPO(Direct Preference Optimization)로 구성됩니다. SFT는 모델이 특정 작업에 대해 더 정확한 응답을 생성하도록 조정하는 단계이며, DPO는 모델을 사용자의 선호도에 맞게 조정하는 기법입니다. DPO는 특히 RLHF(강화학습과 인간 피드백)를 대체하는 간단하면서도 효과적인 방법으로 주목받고 있습니다. 이 과정에서 Qwen 2는 기존의 데이터셋뿐만 아니라, 인공지능이 생성한 추가적인 데이터도 활용하여 훈련되었습니다.

2.2 Apple AFM의 후속 훈련

Apple의 AFM 모델은 후속 훈련에서 더욱 복잡한 알고리즘을 도입했습니다. 대표적으로 iTeC(Teacher Committee 기반의 Rejection Sampling)과 Mirror Descent Policy Optimization이 있습니다. iTeC는 여러 개의 모델이 생성한 응답 중 최적의 응답을 선택하는 방식으로, 다양한 튜닝 알고리즘을 결합하여 보다 정교한 모델을 개발합니다. Mirror Descent는 기존의 PPO(Proximal Policy Optimization)를 대체하여 더 효과적으로 모델을 최적화할 수 있는 방법으로, 특히 소규모 모델에서 높은 성능을 보입니다.

2.3 Meta Llama 3.1의 후속 훈련

Meta의 Llama 3.1 모델은 후속 훈련에서 DPO와 리젝션 샘플링을 결합한 접근법을 사용했습니다. 이 방법은 SFT와 DPO 단계를 반복적으로 적용하며, 인간이 생성한 데이터와 인공지능이 생성한 데이터를 모두 사용해 모델을 최적화합니다. Meta는 또한 모델 평균화 기법을 사용해, 최신 모델과 이전 모델의 파라미터를 결합하여 성능을 안정화했습니다.

728x90

3. 결론: 다양한 방법론의 융합

최신 LLM 모델들은 각기 다른 사전 훈련과 후속 훈련 방법론을 채택하고 있지만, 몇 가지 공통된 트렌드도 확인할 수 있습니다. 다단계 사전 훈련과 사용자 선호도에 맞춘 후속 훈련은 대부분의 최신 모델에서 채택하고 있는 방법입니다. 그러나 각 모델이 사용하는 구체적인 기법들은 여전히 다릅니다.

728x90
반응형