
대규모 언어 모델(LLM)의 성능은 결국 어떤 데이터를 얼마나 잘 학습하느냐에 크게 좌우됩니다. 초기에는 Wikipedia나 웹 데이터와 같은 대규모 텍스트를 그대로 활용하는 방식이 일반적이었지만, 최근에는 단순한 데이터 규모보다 데이터 품질과 구조화 방식이 더 중요한 요소로 떠오르고 있습니다.
특히 최근 LLM 연구에서는 **Synthetic Data(합성 데이터)**가 중요한 역할을 하고 있습니다. 실제 웹 문서를 기반으로 언어 모델이 새로운 형태의 데이터를 생성하여 학습 데이터의 품질을 높이는 방식입니다.
Hugging Face 연구팀은 이러한 접근을 체계적으로 분석하기 위해 90개의 실험과 1조 개 이상의 토큰을 생성하는 대규모 연구를 수행했습니다. 그 결과로 486B 토큰 규모의 합성 데이터셋인 FinePhrase를 공개했습니다.
이 글에서는 해당 연구 내용을 기반으로 다음과 같은 내용을 정리합니다.
- 합성 데이터가 LLM 학습에서 중요한 이유
- 웹 데이터를 재구성(Rephrasing)하는 핵심 방법
- 어떤 프롬프트와 모델이 가장 효과적인지
- 합성 데이터와 기존 데이터의 최적 조합 전략
- 대규모 합성 데이터 생성 인프라 구조
이를 통해 LLM 학습 데이터 설계의 최신 흐름과 실제 적용 전략을 이해할 수 있습니다.
LLM 학습 데이터의 변화: 규모에서 품질 중심으로
대규모 언어 모델의 학습 데이터 전략은 시간이 지나면서 크게 변화했습니다.
1. 초기 단계: 제한된 데이터셋
초기 언어 모델은 비교적 작은 데이터셋을 기반으로 학습되었습니다.
대표적인 예
- Wikipedia
- Books corpus
하지만 모델이 커지면서 더 많은 데이터가 필요해졌습니다.
2. 대규모 웹 데이터 활용
이후 연구자들은 웹 크롤링 데이터를 활용해 학습 데이터를 대폭 확대했습니다.
대표적인 데이터셋
- C4
- The Pile
- FineWeb
- DCLM
특히 **DCLM(DataComp-LM)**은 Common Crawl 기반으로 구축된 대규모 데이터셋으로, 2.6T 토큰을 사용해 7B 모델이 64% MMLU 성능을 달성했습니다.
하지만 이 단계에서 중요한 문제가 등장합니다.
웹 데이터는 양은 많지만 품질이 일정하지 않다는 점입니다.
3. 데이터 품질 중심 접근
웹 데이터를 그대로 사용하는 대신 다음과 같은 방식이 도입되었습니다.
- 데이터 필터링
- 중복 제거
- 교육적 데이터 분류
- 모델 기반 품질 평가
예를 들어 FineWeb-Edu는 LLM을 활용해 교육적 가치가 높은 텍스트만 선별합니다.
하지만 이 방법도 한계가 있습니다.
좋은 데이터를 필터링하면 전체 데이터 규모가 줄어듭니다.
4. 최신 전략: Synthetic Data
이 문제를 해결하기 위해 등장한 방법이 바로 Synthetic Data 생성입니다.
핵심 아이디어는 다음과 같습니다.
기존 데이터
→ LLM으로 재구성
→ 더 구조화된 새로운 데이터 생성
이 방식은 기존 데이터를 단순히 필터링하는 것이 아니라 업사이클링(upcycling) 하는 방식입니다.
최근 LLM들은 이미 대량의 합성 데이터를 사용하고 있습니다.
예
- NVIDIA Nemotron: 약 2조 토큰 재작성
- GLM-4.5: 500B reasoning tokens
- 여러 최신 LLM: 수천억~수조 토큰 합성 데이터 사용
Rephrasing: 웹 데이터를 재구성하는 핵심 기술
합성 데이터 생성에서 가장 중요한 개념은 Rephrasing입니다.
Rephrasing이란
Rephrasing은 기존 문서를 언어 모델을 이용해 의미는 유지하면서 다른 형태로 변환하는 작업입니다.
예를 들면 다음과 같습니다.
원본 문서
웹 크롤링 데이터 설명
변환 가능 형태
- 튜토리얼
- FAQ
- 설명 문서
- 지식 목록
- 위키 스타일 문서
- Q&A 형태
즉 동일한 정보를 다른 학습 형태로 구조화하는 것입니다.
Rephrasing의 3가지 핵심 요소
연구에서는 합성 데이터 생성 전략을 세 가지 축으로 분석했습니다.
1. Rephrasing 전략
어떤 방식으로 데이터를 변환할 것인가
예
- FAQ
- Tutorial
- Table
- Math format
- Discussion
- Article
2. 생성 모델
어떤 LLM을 사용해 데이터를 생성할 것인가
실험 모델
- Gemma
- Llama
- Qwen
- Granite
- Falcon
- SmolLM
3. 소스 데이터 품질
어떤 데이터에서 합성 데이터를 생성할 것인가
예
- FineWeb-Edu HQ
- DCLM
- Cosmopedia
- Low-quality web data
실험 설계: 90개의 대규모 실험
연구팀은 다음 규모로 실험을 진행했습니다.
실험 규모
- 실험 수: 90개
- 생성 토큰: 1조 이상
- GPU 사용: 12.7 GPU years
- 입력 데이터: 약 20B tokens
평가는 다음 벤치마크로 수행되었습니다.
평가 영역
- General Knowledge
- Reading Comprehension
- Reasoning
- Natural Language Understanding
- Math
- Table Understanding
대표 벤치마크
- MMLU
- SQuAD
- GSM8K
- ARC
- HellaSwag
- TriviaQA
- WikiTableQuestions
기존 합성 데이터와 성능 비교
대표적인 데이터셋 비교 결과는 다음과 같습니다.
상위 성능 데이터셋
- DCLM
- Nemotron-HQ-Synth
- REWIRE
이 세 데이터셋이 다른 데이터셋보다 명확하게 높은 성능을 보였습니다.
효과적인 프롬프트 구조
연구팀은 기존 프롬프트뿐 아니라 9개의 새로운 프롬프트 형식을 설계했습니다.
새로운 프롬프트
- Article
- Commentary
- Discussion
- Explanation
- FAQ
- Math
- Narrative
- Table
- Tutorial
실험 결과 다음 프롬프트가 가장 높은 성능을 보였습니다.
성능 우수 프롬프트
- Math
- Table
- FAQ
- Tutorial
이들의 공통점은 단순한 패러프레이징이 아니라 교육적 구조를 갖는다는 것입니다.
예
FAQ
Q: 합성 데이터란 무엇인가?
A: 언어 모델이 생성한 학습 데이터입니다.
Tutorial
1단계
2단계
3단계
이러한 구조가 학습 효율을 높이는 것으로 나타났습니다.
모델 크기의 영향
흥미로운 결과는 모델 크기가 크게 중요하지 않다는 점입니다.
실험 결과
- 270M → 성능 낮음
- 1B 이상 → 성능 차이 거의 없음
즉
1B 모델이면 충분합니다.
이는 합성 데이터 생성 비용을 크게 줄일 수 있습니다.
가장 성능이 좋았던 모델
여러 모델을 비교한 결과 다음 모델이 가장 좋은 성능을 보였습니다.
SmolLM2
이 모델은 모든 프롬프트에서 가장 높은 평균 성능을 기록했습니다.
특히 다음 영역에서 강했습니다.
- QA tasks
- Reading comprehension
합성 데이터만으로 학습 가능한가?
많은 사람들이 궁금해하는 질문입니다.
결론은 명확합니다.
합성 데이터만으로는 부족합니다.
실험 결과
Synthetic only
< Original dataset
< Synthetic + Original mix
즉
기존 데이터와 혼합하는 방식이 가장 좋은 성능을 보였습니다.
최적의 데이터 조합
혼합 데이터 전략에서 중요한 요소는 Mix-in dataset입니다.
가장 좋은 결과를 보인 데이터셋
DCLM
특징
- commonsense reasoning 성능 안정적
- 합성 데이터의 약점을 보완
다만
저품질 데이터를 사용하는 경우
FineWeb-Edu-HQ가 더 좋은 결과를 보였습니다.
합성 데이터 생성 인프라
연구팀은 대규모 합성 데이터 생성을 위해 다음 구조를 사용했습니다.
핵심 기술
- vLLM inference
- tensor parallelism
- speculative decoding
- SLURM 분산 처리
시스템 특징
- 100개 병렬 작업
- 자동 체크포인트
- 품질 평가 자동화
이 시스템으로 수십억 토큰 단위 데이터를 지속적으로 생성할 수 있습니다.
연구 결과로 만들어진 데이터셋: FinePhrase
이 연구의 최종 결과는 FinePhrase 데이터셋입니다.
주요 특징
- 규모: 486B tokens
- 다양한 프롬프트 구조
- 교육적 형태 데이터
- 합성 데이터 + 원본 데이터 전략
FinePhrase는 기존 합성 데이터셋보다 일관되게 높은 성능을 보였습니다.
정리: 합성 데이터 생성의 핵심 전략
이번 연구에서 얻은 중요한 결론을 정리하면 다음과 같습니다.
1. 단순 패러프레이징보다 구조화된 데이터가 중요
효과적인 포맷
- FAQ
- Tutorial
- Table
- Math
2. 모델 크기는 크게 중요하지 않음
1B 규모 모델이면 충분합니다.
3. 합성 데이터만으로는 부족
반드시 기존 데이터와 혼합해야 합니다.
4. Mix-in 데이터가 매우 중요
특히 DCLM 데이터셋이 안정적인 성능을 제공합니다.
LLM 성능 경쟁이 치열해지면서 단순히 모델 구조나 파라미터 수만으로는 차별화가 어려워지고 있습니다. 최근 연구 흐름은 점점 **데이터 중심 AI(Data-Centric AI)**로 이동하고 있습니다.
이번 Hugging Face 연구는 다음 사실을 보여줍니다.
- 합성 데이터는 LLM 학습의 핵심 요소가 되고 있다.
- 데이터 생성 전략이 모델 성능을 크게 좌우한다.
- 작은 모델로도 대규모 합성 데이터 생성이 가능하다.
앞으로 LLM 개발에서 중요한 경쟁력은 단순한 모델 규모가 아니라 데이터 생성 파이프라인과 데이터 품질 관리 능력이 될 가능성이 높습니다.
FinePhrase와 같은 연구는 향후 차세대 LLM 데이터 구축 전략의 중요한 기준이 될 것으로 기대됩니다.
https://huggingface.co/spaces/HuggingFaceFW/finephrase#does-the-mix-in-dataset-matter
The Synthetic Data Playbook: Generating Trillions of the Finest Tokens - a Hugging Face Space by HuggingFaceFW
This web page turns benchmark results into an interactive bookshelf, where each book represents a model’s synthetic‑data run. No upload is needed – just open the page and hover over the books to se...
huggingface.co

'인공지능' 카테고리의 다른 글
| AI 에이전트를 위한 Product Manager Skills: 제품 관리 업무를 자동화하는 46가지 실전 프레임워크 (0) | 2026.03.09 |
|---|---|
| AI가 노동 시장에 미치는 영향: 새로운 측정 방식과 초기 분석 결과 (0) | 2026.03.09 |
| Qwen3.5 모델 파인튜닝 가이드: Unsloth 기반 학습 환경과 활용 방법 (0) | 2026.03.09 |
| Autoresearch: AI 에이전트가 스스로 LLM 연구를 수행하는 자동 연구 프레임워크 (0) | 2026.03.08 |
| GPT-5.4 기반 에이전트 구축을 위한 프롬프트 설계 가이드 (0) | 2026.03.08 |