본문 바로가기

인공지능

웹 텍스트를 고품질 학습 데이터로 변환하는 방법: Hugging Face FinePhrase 합성 데이터 생성 전략

728x90
반응형
728x170

대규모 언어 모델(LLM)의 성능은 결국 어떤 데이터를 얼마나 잘 학습하느냐에 크게 좌우됩니다. 초기에는 Wikipedia나 웹 데이터와 같은 대규모 텍스트를 그대로 활용하는 방식이 일반적이었지만, 최근에는 단순한 데이터 규모보다 데이터 품질과 구조화 방식이 더 중요한 요소로 떠오르고 있습니다.

특히 최근 LLM 연구에서는 **Synthetic Data(합성 데이터)**가 중요한 역할을 하고 있습니다. 실제 웹 문서를 기반으로 언어 모델이 새로운 형태의 데이터를 생성하여 학습 데이터의 품질을 높이는 방식입니다.

Hugging Face 연구팀은 이러한 접근을 체계적으로 분석하기 위해 90개의 실험과 1조 개 이상의 토큰을 생성하는 대규모 연구를 수행했습니다. 그 결과로 486B 토큰 규모의 합성 데이터셋인 FinePhrase를 공개했습니다.

이 글에서는 해당 연구 내용을 기반으로 다음과 같은 내용을 정리합니다.

  • 합성 데이터가 LLM 학습에서 중요한 이유
  • 웹 데이터를 재구성(Rephrasing)하는 핵심 방법
  • 어떤 프롬프트와 모델이 가장 효과적인지
  • 합성 데이터와 기존 데이터의 최적 조합 전략
  • 대규모 합성 데이터 생성 인프라 구조

이를 통해 LLM 학습 데이터 설계의 최신 흐름과 실제 적용 전략을 이해할 수 있습니다.

반응형

LLM 학습 데이터의 변화: 규모에서 품질 중심으로

대규모 언어 모델의 학습 데이터 전략은 시간이 지나면서 크게 변화했습니다.

1. 초기 단계: 제한된 데이터셋

초기 언어 모델은 비교적 작은 데이터셋을 기반으로 학습되었습니다.

대표적인 예

  • Wikipedia
  • Books corpus

하지만 모델이 커지면서 더 많은 데이터가 필요해졌습니다.


2. 대규모 웹 데이터 활용

이후 연구자들은 웹 크롤링 데이터를 활용해 학습 데이터를 대폭 확대했습니다.

대표적인 데이터셋

  • C4
  • The Pile
  • FineWeb
  • DCLM

특히 **DCLM(DataComp-LM)**은 Common Crawl 기반으로 구축된 대규모 데이터셋으로, 2.6T 토큰을 사용해 7B 모델이 64% MMLU 성능을 달성했습니다.

하지만 이 단계에서 중요한 문제가 등장합니다.

웹 데이터는 양은 많지만 품질이 일정하지 않다는 점입니다.


3. 데이터 품질 중심 접근

웹 데이터를 그대로 사용하는 대신 다음과 같은 방식이 도입되었습니다.

  • 데이터 필터링
  • 중복 제거
  • 교육적 데이터 분류
  • 모델 기반 품질 평가

예를 들어 FineWeb-Edu는 LLM을 활용해 교육적 가치가 높은 텍스트만 선별합니다.

하지만 이 방법도 한계가 있습니다.

좋은 데이터를 필터링하면 전체 데이터 규모가 줄어듭니다.


4. 최신 전략: Synthetic Data

이 문제를 해결하기 위해 등장한 방법이 바로 Synthetic Data 생성입니다.

핵심 아이디어는 다음과 같습니다.

기존 데이터
→ LLM으로 재구성
→ 더 구조화된 새로운 데이터 생성

이 방식은 기존 데이터를 단순히 필터링하는 것이 아니라 업사이클링(upcycling) 하는 방식입니다.

최근 LLM들은 이미 대량의 합성 데이터를 사용하고 있습니다.

  • NVIDIA Nemotron: 약 2조 토큰 재작성
  • GLM-4.5: 500B reasoning tokens
  • 여러 최신 LLM: 수천억~수조 토큰 합성 데이터 사용

Rephrasing: 웹 데이터를 재구성하는 핵심 기술

합성 데이터 생성에서 가장 중요한 개념은 Rephrasing입니다.

Rephrasing이란

Rephrasing은 기존 문서를 언어 모델을 이용해 의미는 유지하면서 다른 형태로 변환하는 작업입니다.

예를 들면 다음과 같습니다.

원본 문서

웹 크롤링 데이터 설명

변환 가능 형태

  • 튜토리얼
  • FAQ
  • 설명 문서
  • 지식 목록
  • 위키 스타일 문서
  • Q&A 형태

즉 동일한 정보를 다른 학습 형태로 구조화하는 것입니다.


Rephrasing의 3가지 핵심 요소

연구에서는 합성 데이터 생성 전략을 세 가지 축으로 분석했습니다.

1. Rephrasing 전략

어떤 방식으로 데이터를 변환할 것인가

  • FAQ
  • Tutorial
  • Table
  • Math format
  • Discussion
  • Article

2. 생성 모델

어떤 LLM을 사용해 데이터를 생성할 것인가

실험 모델

  • Gemma
  • Llama
  • Qwen
  • Granite
  • Falcon
  • SmolLM

3. 소스 데이터 품질

어떤 데이터에서 합성 데이터를 생성할 것인가

  • FineWeb-Edu HQ
  • DCLM
  • Cosmopedia
  • Low-quality web data

실험 설계: 90개의 대규모 실험

연구팀은 다음 규모로 실험을 진행했습니다.

실험 규모

  • 실험 수: 90개
  • 생성 토큰: 1조 이상
  • GPU 사용: 12.7 GPU years
  • 입력 데이터: 약 20B tokens

평가는 다음 벤치마크로 수행되었습니다.

평가 영역

  • General Knowledge
  • Reading Comprehension
  • Reasoning
  • Natural Language Understanding
  • Math
  • Table Understanding

대표 벤치마크

  • MMLU
  • SQuAD
  • GSM8K
  • ARC
  • HellaSwag
  • TriviaQA
  • WikiTableQuestions

기존 합성 데이터와 성능 비교

대표적인 데이터셋 비교 결과는 다음과 같습니다.

상위 성능 데이터셋

  1. DCLM
  2. Nemotron-HQ-Synth
  3. REWIRE

이 세 데이터셋이 다른 데이터셋보다 명확하게 높은 성능을 보였습니다.


효과적인 프롬프트 구조

연구팀은 기존 프롬프트뿐 아니라 9개의 새로운 프롬프트 형식을 설계했습니다.

새로운 프롬프트

  • Article
  • Commentary
  • Discussion
  • Explanation
  • FAQ
  • Math
  • Narrative
  • Table
  • Tutorial

실험 결과 다음 프롬프트가 가장 높은 성능을 보였습니다.

성능 우수 프롬프트

  • Math
  • Table
  • FAQ
  • Tutorial

이들의 공통점은 단순한 패러프레이징이 아니라 교육적 구조를 갖는다는 것입니다.

FAQ

Q: 합성 데이터란 무엇인가?
A: 언어 모델이 생성한 학습 데이터입니다.

Tutorial

1단계
2단계
3단계

이러한 구조가 학습 효율을 높이는 것으로 나타났습니다.


모델 크기의 영향

흥미로운 결과는 모델 크기가 크게 중요하지 않다는 점입니다.

실험 결과

  • 270M → 성능 낮음
  • 1B 이상 → 성능 차이 거의 없음

1B 모델이면 충분합니다.

이는 합성 데이터 생성 비용을 크게 줄일 수 있습니다.


가장 성능이 좋았던 모델

여러 모델을 비교한 결과 다음 모델이 가장 좋은 성능을 보였습니다.

SmolLM2

이 모델은 모든 프롬프트에서 가장 높은 평균 성능을 기록했습니다.

특히 다음 영역에서 강했습니다.

  • QA tasks
  • Reading comprehension

합성 데이터만으로 학습 가능한가?

많은 사람들이 궁금해하는 질문입니다.

결론은 명확합니다.

합성 데이터만으로는 부족합니다.

실험 결과

Synthetic only
< Original dataset
< Synthetic + Original mix

기존 데이터와 혼합하는 방식이 가장 좋은 성능을 보였습니다.


최적의 데이터 조합

혼합 데이터 전략에서 중요한 요소는 Mix-in dataset입니다.

가장 좋은 결과를 보인 데이터셋

DCLM

특징

  • commonsense reasoning 성능 안정적
  • 합성 데이터의 약점을 보완

다만

저품질 데이터를 사용하는 경우

FineWeb-Edu-HQ가 더 좋은 결과를 보였습니다.


합성 데이터 생성 인프라

연구팀은 대규모 합성 데이터 생성을 위해 다음 구조를 사용했습니다.

핵심 기술

  • vLLM inference
  • tensor parallelism
  • speculative decoding
  • SLURM 분산 처리

시스템 특징

  • 100개 병렬 작업
  • 자동 체크포인트
  • 품질 평가 자동화

이 시스템으로 수십억 토큰 단위 데이터를 지속적으로 생성할 수 있습니다.


연구 결과로 만들어진 데이터셋: FinePhrase

이 연구의 최종 결과는 FinePhrase 데이터셋입니다.

주요 특징

  • 규모: 486B tokens
  • 다양한 프롬프트 구조
  • 교육적 형태 데이터
  • 합성 데이터 + 원본 데이터 전략

FinePhrase는 기존 합성 데이터셋보다 일관되게 높은 성능을 보였습니다.


정리: 합성 데이터 생성의 핵심 전략

이번 연구에서 얻은 중요한 결론을 정리하면 다음과 같습니다.

1. 단순 패러프레이징보다 구조화된 데이터가 중요

효과적인 포맷

  • FAQ
  • Tutorial
  • Table
  • Math

2. 모델 크기는 크게 중요하지 않음

1B 규모 모델이면 충분합니다.


3. 합성 데이터만으로는 부족

반드시 기존 데이터와 혼합해야 합니다.


4. Mix-in 데이터가 매우 중요

특히 DCLM 데이터셋이 안정적인 성능을 제공합니다.


728x90

LLM 성능 경쟁이 치열해지면서 단순히 모델 구조나 파라미터 수만으로는 차별화가 어려워지고 있습니다. 최근 연구 흐름은 점점 **데이터 중심 AI(Data-Centric AI)**로 이동하고 있습니다.

이번 Hugging Face 연구는 다음 사실을 보여줍니다.

  • 합성 데이터는 LLM 학습의 핵심 요소가 되고 있다.
  • 데이터 생성 전략이 모델 성능을 크게 좌우한다.
  • 작은 모델로도 대규모 합성 데이터 생성이 가능하다.

앞으로 LLM 개발에서 중요한 경쟁력은 단순한 모델 규모가 아니라 데이터 생성 파이프라인과 데이터 품질 관리 능력이 될 가능성이 높습니다.

FinePhrase와 같은 연구는 향후 차세대 LLM 데이터 구축 전략의 중요한 기준이 될 것으로 기대됩니다.

300x250

https://huggingface.co/spaces/HuggingFaceFW/finephrase#does-the-mix-in-dataset-matter

 

The Synthetic Data Playbook: Generating Trillions of the Finest Tokens - a Hugging Face Space by HuggingFaceFW

This web page turns benchmark results into an interactive bookshelf, where each book represents a model’s synthetic‑data run. No upload is needed – just open the page and hover over the books to se...

huggingface.co

728x90
반응형
그리드형