728x90

728x170

대규모 언어 모델(LLM)의 성능은 결국 어떤 데이터를 얼마나 잘 학습하느냐에 크게 좌우됩니다. 초기에는 Wikipedia나 웹 데이터와 같은 대규모 텍스트를 그대로 활용하는 방식이 일반적이었지만, 최근에는 단순한 데이터 규모보다 데이터 품질과 구조화 방식이 더 중요한 요소로 떠오르고 있습니다.

특히 최근 LLM 연구에서는 **Synthetic Data(합성 데이터)**가 중요한 역할을 하고 있습니다. 실제 웹 문서를 기반으로 언어 모델이 새로운 형태의 데이터를 생성하여 학습 데이터의 품질을 높이는 방식입니다.

Hugging Face 연구팀은 이러한 접근을 체계적으로 분석하기 위해 90개의 실험과 1조 개 이상의 토큰을 생성하는 대규모 연구를 수행했습니다. 그 결과로 486B 토큰 규모의 합성 데이터셋인 FinePhrase를 공개했습니다.

이 글에서는 해당 연구 내용을 기반으로 다음과 같은 내용을 정리합니다.

합성 데이터가 LLM 학습에서 중요한 이유
웹 데이터를 재구성(Rephrasing)하는 핵심 방법
어떤 프롬프트와 모델이 가장 효과적인지
합성 데이터와 기존 데이터의 최적 조합 전략
대규모 합성 데이터 생성 인프라 구조

이를 통해 LLM 학습 데이터 설계의 최신 흐름과 실제 적용 전략을 이해할 수 있습니다.

LLM 학습 데이터의 변화: 규모에서 품질 중심으로

대규모 언어 모델의 학습 데이터 전략은 시간이 지나면서 크게 변화했습니다.

1. 초기 단계: 제한된 데이터셋

초기 언어 모델은 비교적 작은 데이터셋을 기반으로 학습되었습니다.

대표적인 예

Wikipedia
Books corpus

하지만 모델이 커지면서 더 많은 데이터가 필요해졌습니다.

2. 대규모 웹 데이터 활용

이후 연구자들은 웹 크롤링 데이터를 활용해 학습 데이터를 대폭 확대했습니다.

대표적인 데이터셋

C4
The Pile
FineWeb
DCLM

특히 **DCLM(DataComp-LM)**은 Common Crawl 기반으로 구축된 대규모 데이터셋으로, 2.6T 토큰을 사용해 7B 모델이 64% MMLU 성능을 달성했습니다.

하지만 이 단계에서 중요한 문제가 등장합니다.

웹 데이터는 양은 많지만 품질이 일정하지 않다는 점입니다.

3. 데이터 품질 중심 접근

웹 데이터를 그대로 사용하는 대신 다음과 같은 방식이 도입되었습니다.

데이터 필터링
중복 제거
교육적 데이터 분류
모델 기반 품질 평가

예를 들어 FineWeb-Edu는 LLM을 활용해 교육적 가치가 높은 텍스트만 선별합니다.

하지만 이 방법도 한계가 있습니다.

좋은 데이터를 필터링하면 전체 데이터 규모가 줄어듭니다.

4. 최신 전략: Synthetic Data

이 문제를 해결하기 위해 등장한 방법이 바로 Synthetic Data 생성입니다.

핵심 아이디어는 다음과 같습니다.

기존 데이터
→ LLM으로 재구성
→ 더 구조화된 새로운 데이터 생성

이 방식은 기존 데이터를 단순히 필터링하는 것이 아니라 업사이클링(upcycling) 하는 방식입니다.

최근 LLM들은 이미 대량의 합성 데이터를 사용하고 있습니다.

예

NVIDIA Nemotron: 약 2조 토큰 재작성
GLM-4.5: 500B reasoning tokens
여러 최신 LLM: 수천억~수조 토큰 합성 데이터 사용

Rephrasing: 웹 데이터를 재구성하는 핵심 기술

합성 데이터 생성에서 가장 중요한 개념은 Rephrasing입니다.

Rephrasing이란

Rephrasing은 기존 문서를 언어 모델을 이용해 의미는 유지하면서 다른 형태로 변환하는 작업입니다.

예를 들면 다음과 같습니다.

원본 문서

웹 크롤링 데이터 설명

변환 가능 형태

튜토리얼
FAQ
설명 문서
지식 목록
위키 스타일 문서
Q&A 형태

즉 동일한 정보를 다른 학습 형태로 구조화하는 것입니다.

Rephrasing의 3가지 핵심 요소

연구에서는 합성 데이터 생성 전략을 세 가지 축으로 분석했습니다.

1. Rephrasing 전략

어떤 방식으로 데이터를 변환할 것인가

예

FAQ
Tutorial
Table
Math format
Discussion
Article

2. 생성 모델

어떤 LLM을 사용해 데이터를 생성할 것인가

실험 모델

Gemma
Llama
Qwen
Granite
Falcon
SmolLM

3. 소스 데이터 품질

어떤 데이터에서 합성 데이터를 생성할 것인가

예

FineWeb-Edu HQ
DCLM
Cosmopedia
Low-quality web data

실험 설계: 90개의 대규모 실험

연구팀은 다음 규모로 실험을 진행했습니다.

실험 규모

실험 수: 90개
생성 토큰: 1조 이상
GPU 사용: 12.7 GPU years
입력 데이터: 약 20B tokens

평가는 다음 벤치마크로 수행되었습니다.

평가 영역

General Knowledge
Reading Comprehension
Reasoning
Natural Language Understanding
Math
Table Understanding

대표 벤치마크

MMLU
SQuAD
GSM8K
ARC
HellaSwag
TriviaQA
WikiTableQuestions

기존 합성 데이터와 성능 비교

대표적인 데이터셋 비교 결과는 다음과 같습니다.

상위 성능 데이터셋

DCLM
Nemotron-HQ-Synth
REWIRE

이 세 데이터셋이 다른 데이터셋보다 명확하게 높은 성능을 보였습니다.

효과적인 프롬프트 구조

연구팀은 기존 프롬프트뿐 아니라 9개의 새로운 프롬프트 형식을 설계했습니다.

새로운 프롬프트

Article
Commentary
Discussion
Explanation
FAQ
Math
Narrative
Table
Tutorial

실험 결과 다음 프롬프트가 가장 높은 성능을 보였습니다.

성능 우수 프롬프트

Math
Table
FAQ
Tutorial

이들의 공통점은 단순한 패러프레이징이 아니라 교육적 구조를 갖는다는 것입니다.

예

FAQ

Q: 합성 데이터란 무엇인가?
A: 언어 모델이 생성한 학습 데이터입니다.

Tutorial

1단계
2단계
3단계

이러한 구조가 학습 효율을 높이는 것으로 나타났습니다.

모델 크기의 영향

흥미로운 결과는 모델 크기가 크게 중요하지 않다는 점입니다.

실험 결과

270M → 성능 낮음
1B 이상 → 성능 차이 거의 없음

즉

1B 모델이면 충분합니다.

이는 합성 데이터 생성 비용을 크게 줄일 수 있습니다.

가장 성능이 좋았던 모델

여러 모델을 비교한 결과 다음 모델이 가장 좋은 성능을 보였습니다.

SmolLM2

이 모델은 모든 프롬프트에서 가장 높은 평균 성능을 기록했습니다.

특히 다음 영역에서 강했습니다.

QA tasks
Reading comprehension

합성 데이터만으로 학습 가능한가?

많은 사람들이 궁금해하는 질문입니다.

결론은 명확합니다.

합성 데이터만으로는 부족합니다.

실험 결과

Synthetic only
< Original dataset
< Synthetic + Original mix

즉

기존 데이터와 혼합하는 방식이 가장 좋은 성능을 보였습니다.

최적의 데이터 조합

혼합 데이터 전략에서 중요한 요소는 Mix-in dataset입니다.

가장 좋은 결과를 보인 데이터셋

DCLM

특징

commonsense reasoning 성능 안정적
합성 데이터의 약점을 보완

다만

저품질 데이터를 사용하는 경우

FineWeb-Edu-HQ가 더 좋은 결과를 보였습니다.

합성 데이터 생성 인프라

연구팀은 대규모 합성 데이터 생성을 위해 다음 구조를 사용했습니다.

핵심 기술

vLLM inference
tensor parallelism
speculative decoding
SLURM 분산 처리

시스템 특징

100개 병렬 작업
자동 체크포인트
품질 평가 자동화

이 시스템으로 수십억 토큰 단위 데이터를 지속적으로 생성할 수 있습니다.

연구 결과로 만들어진 데이터셋: FinePhrase

이 연구의 최종 결과는 FinePhrase 데이터셋입니다.

주요 특징

규모: 486B tokens
다양한 프롬프트 구조
교육적 형태 데이터
합성 데이터 + 원본 데이터 전략

FinePhrase는 기존 합성 데이터셋보다 일관되게 높은 성능을 보였습니다.

정리: 합성 데이터 생성의 핵심 전략

이번 연구에서 얻은 중요한 결론을 정리하면 다음과 같습니다.

1. 단순 패러프레이징보다 구조화된 데이터가 중요

효과적인 포맷

FAQ
Tutorial
Table
Math

2. 모델 크기는 크게 중요하지 않음

1B 규모 모델이면 충분합니다.

3. 합성 데이터만으로는 부족

반드시 기존 데이터와 혼합해야 합니다.

4. Mix-in 데이터가 매우 중요

특히 DCLM 데이터셋이 안정적인 성능을 제공합니다.

728x90

LLM 성능 경쟁이 치열해지면서 단순히 모델 구조나 파라미터 수만으로는 차별화가 어려워지고 있습니다. 최근 연구 흐름은 점점 **데이터 중심 AI(Data-Centric AI)**로 이동하고 있습니다.

이번 Hugging Face 연구는 다음 사실을 보여줍니다.

합성 데이터는 LLM 학습의 핵심 요소가 되고 있다.
데이터 생성 전략이 모델 성능을 크게 좌우한다.
작은 모델로도 대규모 합성 데이터 생성이 가능하다.

앞으로 LLM 개발에서 중요한 경쟁력은 단순한 모델 규모가 아니라 데이터 생성 파이프라인과 데이터 품질 관리 능력이 될 가능성이 높습니다.

FinePhrase와 같은 연구는 향후 차세대 LLM 데이터 구축 전략의 중요한 기준이 될 것으로 기대됩니다.

300x250

https://huggingface.co/spaces/HuggingFaceFW/finephrase#does-the-mix-in-dataset-matter

The Synthetic Data Playbook: Generating Trillions of the Finest Tokens - a Hugging Face Space by HuggingFaceFW

This web page turns benchmark results into an interactive bookshelf, where each book represents a model’s synthetic‑data run. No upload is needed – just open the page and hover over the books to se...

huggingface.co

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

AI 에이전트를 위한 Product Manager Skills: 제품 관리 업무를 자동화하는 46가지 실전 프레임워크 (0)	2026.03.09
AI가 노동 시장에 미치는 영향: 새로운 측정 방식과 초기 분석 결과 (0)	2026.03.09
Qwen3.5 모델 파인튜닝 가이드: Unsloth 기반 학습 환경과 활용 방법 (0)	2026.03.09
Autoresearch: AI 에이전트가 스스로 LLM 연구를 수행하는 자동 연구 프레임워크 (0)	2026.03.08
GPT-5.4 기반 에이전트 구축을 위한 프롬프트 설계 가이드 (0)	2026.03.08

평범한 직장인이 사는 세상

웹 텍스트를 고품질 학습 데이터로 변환하는 방법: Hugging Face FinePhrase 합성 데이터 생성 전략

LLM 학습 데이터의 변화: 규모에서 품질 중심으로

1. 초기 단계: 제한된 데이터셋

2. 대규모 웹 데이터 활용

3. 데이터 품질 중심 접근

4. 최신 전략: Synthetic Data

Rephrasing: 웹 데이터를 재구성하는 핵심 기술

Rephrasing이란

Rephrasing의 3가지 핵심 요소

1. Rephrasing 전략

2. 생성 모델

3. 소스 데이터 품질

실험 설계: 90개의 대규모 실험

기존 합성 데이터와 성능 비교

효과적인 프롬프트 구조

모델 크기의 영향

가장 성능이 좋았던 모델

합성 데이터만으로 학습 가능한가?

최적의 데이터 조합

합성 데이터 생성 인프라

연구 결과로 만들어진 데이터셋: FinePhrase

정리: 합성 데이터 생성의 핵심 전략

1. 단순 패러프레이징보다 구조화된 데이터가 중요

2. 모델 크기는 크게 중요하지 않음

3. 합성 데이터만으로는 부족

4. Mix-in 데이터가 매우 중요

'인공지능' 카테고리의 다른 글

티스토리툴바

웹 텍스트를 고품질 학습 데이터로 변환하는 방법: Hugging Face FinePhrase 합성 데이터 생성 전략

LLM 학습 데이터의 변화: 규모에서 품질 중심으로

1. 초기 단계: 제한된 데이터셋

2. 대규모 웹 데이터 활용

3. 데이터 품질 중심 접근

4. 최신 전략: Synthetic Data

Rephrasing: 웹 데이터를 재구성하는 핵심 기술

Rephrasing이란

Rephrasing의 3가지 핵심 요소

1. Rephrasing 전략

2. 생성 모델

3. 소스 데이터 품질

실험 설계: 90개의 대규모 실험

기존 합성 데이터와 성능 비교

효과적인 프롬프트 구조

모델 크기의 영향

가장 성능이 좋았던 모델

합성 데이터만으로 학습 가능한가?

최적의 데이터 조합

합성 데이터 생성 인프라

연구 결과로 만들어진 데이터셋: FinePhrase

정리: 합성 데이터 생성의 핵심 전략

1. 단순 패러프레이징보다 구조화된 데이터가 중요

2. 모델 크기는 크게 중요하지 않음

3. 합성 데이터만으로는 부족

4. Mix-in 데이터가 매우 중요

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바