본문 바로가기

잡학다식/IT 컬럼

데이터를 더 넣었더니 성능이 떨어졌다?

728x90
반응형

 

대형언어모델에서 나타난 ‘과잉 훈련 재앙(Catastrophic Overtraining)’의 경고


AI 모델 성능, 정말 데이터가 많을수록 좋을까?

AI 개발자라면 한 번쯤 이런 말을 들어봤을 겁니다.
“모델은 데이터를 많이 먹을수록 똑똑해진다.”

이게 그동안 믿어온 상식이었습니다.
대형언어모델(LLM)을 더 크게 만들고, 더 많은 데이터를 넣고, 더 긴 시간 동안 학습시키면 더 좋은 결과가 나올 거라고 생각했죠.

하지만 최근 세계 유수 대학들의 공동 연구팀이 이 상식에 의문을 던졌습니다.
너무 많은 사전 학습이 오히려 모델 성능을 떨어뜨릴 수 있다는 걸 실제 실험을 통해 증명해 낸 겁니다.

이 현상을 그들은 ‘과잉 훈련 재앙(Catastrophic Overtraining)’ 이라고 불렀습니다.
이 글에서는 이 개념이 무엇인지, 왜 이런 현상이 나타나는지, 실제 사례와 함께 자세히 풀어드립니다.

반응형

📌 ‘과잉 훈련 재앙(Catastrophic Overtraining)’이란 무엇인가?

과잉 훈련 재앙은 간단히 말해, 사전 학습 데이터가 지나치게 많아져 모델이 오히려 성능을 잃는 현상입니다.
일반적으로 LLM은 두 단계로 학습합니다.

  1. 사전 학습(Pre-training): 방대한 데이터를 이용해 일반적인 언어 능력을 학습
  2. 사후 학습(Post-training): 특정 작업에 맞춰 모델을 미세조정

문제는 사전 학습 데이터가 너무 많아지면, 사후 학습 단계에서 모델을 원하는 작업에 맞게 튜닝하는 효과가 떨어진다는 것입니다.
즉, 너무 많이 배운 탓에 오히려 원하는 방향으로 가르치기가 어려워지는 것이죠.


📊 기존의 ‘스케일링 법칙’과 그 한계

AI 업계에서는 오랫동안 스케일링 법칙(Scaling Laws) 이라는 믿음이 있었습니다.
“모델 크기와 데이터량이 늘어날수록 성능도 좋아진다.”는 이 법칙은 지금까지의 LLM 개발을 이끌어온 핵심 원칙이었습니다.

하지만 이번 연구는 이 법칙이 무조건 성립하지 않는다는 결정적인 사례를 제시했습니다.
모델이 일정 수준을 넘어서면, 오히려 과잉 학습으로 인해 성능이 낮아질 수 있다는 것입니다.


🧪 실험 사례: OLMo-1B 모델에서 나타난 현상

연구진은 AI2에서 공개한 오픈소스 모델 OLMo-1B를 대상으로 실험을 진행했습니다.
두 개의 모델을 비교했죠.

  • A 모델: 2.3조 토큰으로 사전 학습
  • B 모델: 3조 토큰으로 사전 학습

그리고 동일하게 ‘지시 튜닝(instruction tuning)’을 적용했습니다.
결과는 놀라웠습니다.

💥 3조 토큰을 학습한 모델이 여러 벤치마크에서 오히려 성능이 2~3% 낮게 나왔습니다.

이건 단순한 오차가 아니라, 과잉 학습이 미세조정의 효과를 떨어뜨렸다는 명확한 신호였습니다.


⚠️ 왜 과잉 훈련이 문제를 일으킬까?

연구진은 여러 이유를 제시했습니다.

1. 민감도 증가

사전 학습이 지나치게 많으면, 모델의 매개변수(parameter)가 작은 변화에도 민감하게 반응하게 됩니다.
즉, 지시 튜닝이나 추가 학습을 하려고 하면 모델이 불안정하게 흔들릴 수 있다는 의미죠.

2. 기존 능력의 ‘망각’

너무 많이 배운 모델은 새로운 정보를 주면 기존에 잘하던 능력을 잊어버리는 현상이 발생합니다.
이건 인간도 마찬가지입니다. 너무 많이 배운 정보가 오히려 기존 지식을 덮어버리는 것과 비슷하죠.

3. 사후 학습 효과 감소

사전 학습이 임계점을 넘어서면, 어떤 방식으로든 사후 튜닝의 효과가 극단적으로 떨어지게 됩니다.
심지어 학습이 아닌 ‘손실’이 될 수도 있다는 경고도 나왔습니다.


🔎 얼마나 학습하면 위험할까? — 임계점 발견

실험 결과, OLMo-1B 모델에서는 약 2.5조 토큰이 임계점이었습니다.
이 수치를 넘는 순간, 미세조정 효과가 급격히 떨어졌죠.

하지만 이 임계점은 모델마다 다를 수 있기 때문에 일반화하긴 어렵습니다.
그래서 연구진도 정확히 어떤 요인이 임계점에 영향을 주는지에 대한 추가 연구가 필요하다고 밝혔습니다.
예를 들어,

  • 학습 목표
  • 데이터 분포
  • 최적화 방식

이런 요소들이 어떻게 작용하는지가 앞으로의 핵심 연구 과제가 될 것입니다.


🔁 대안은 무엇일까? 새로운 학습 전략의 필요성

이번 연구는 단지 “문제가 있다”는 것에 그치지 않았습니다.
앞으로 어떤 방향으로 모델을 학습시켜야 하는가에 대한 화두도 던졌습니다.

더 이상 "많이 넣자"는 전략은 한계에 도달했습니다.
이제는 모델의 적응력과 안정성을 중심에 둔 학습 전략이 필요합니다.

최근에는 아래와 같은 보완 방식이 주목받고 있습니다.

  • 강화 학습(RLHF, Reinforcement Learning with Human Feedback)
  • 추론 최적화(Reasoning Optimization)
  • 멀티모달 학습 방식

즉, 양보다 ‘질’, 단순 확장보다 ‘효율적 설계’가 중요한 시기에 접어든 겁니다.


728x90

🧭 무한 확장은 끝났다. 이제는 ‘정교한 설계’의 시대

이번 ‘과잉 훈련 재앙’ 연구는 단순한 실험 결과가 아닙니다.
LLM 개발자들에게 **“지금 하고 있는 방식이 과연 최선인가?”**라는 본질적인 질문을 던지는 계기입니다.

기존에는 더 많은 데이터, 더 큰 모델, 더 긴 학습이 무조건 정답처럼 여겨졌습니다.
하지만 이제는 적절한 선에서 멈추고, 얼마나 효과적으로 조율하느냐가 핵심이 됐습니다.

앞으로 AI 개발은 단순히 자원을 쏟아붓는 게 아닌,
한계와 균형을 이해하고 정교하게 설계하는 방향으로 바뀌게 될 것입니다.

데이터는 많을수록 좋다고요?
이제는 아닙니다.

https://venturebeat.com/ai/researchers-warn-of-catastrophic-overtraining-in-large-language-models/

 

Researchers warn of ‘catastrophic overtraining’ in LLMs

The researchers compared two versions of OLMo-1b: one pre-trained on 2.3 trillion tokens and another on 3 trillion tokens.

venturebeat.com

728x90
반응형