본문 바로가기

인공지능

GraphGen: 지식 그래프 기반 합성 데이터 생성으로 LLM 파인튜닝 성능을 높이는 프레임워크

728x90
반응형
728x170

이 글은 대규모 언어 모델(LLM)의 지도 미세조정(Supervised Fine-Tuning, SFT) 성능을 향상시키기 위해 등장한 GraphGen 프레임워크를 소개합니다. GraphGen은 지식 그래프를 기반으로 고품질의 합성 데이터를 생성하는 오픈소스 프로젝트로, 기존 데이터 한계를 보완하고 LLM의 지식 공백을 정교하게 채우는 데 목적이 있습니다. 본문에서는 GraphGen의 개념과 배경, 주요 특징, 성능 결과, 그리고 실제 사용 방법까지 단계적으로 정리합니다.

반응형

GraphGen이 등장한 배경과 문제의식

LLM 성능을 높이기 위해서는 대량의 고품질 학습 데이터가 필요합니다. 그러나 실제 데이터는 비용이 높고, 특정 도메인이나 희귀한 지식(long-tail knowledge)을 충분히 포함하지 못하는 한계가 있습니다.
GraphGen은 이러한 문제를 해결하기 위해 지식 그래프(Knowledge Graph) 를 활용해 데이터 생성을 구조화하고, 모델이 취약한 지식 영역을 집중적으로 보완하는 방식으로 설계되었습니다.


GraphGen 개념 정리

GraphGen은 지식 그래프 기반 합성 데이터 생성 프레임워크입니다.
입력된 텍스트로부터 세밀한 지식 그래프를 구성하고, 이를 바탕으로 질문-답변(QA) 데이터를 자동 생성해 LLM 파인튜닝에 활용합니다.

핵심 흐름은 다음과 같습니다.

  1. 원본 텍스트에서 지식 그래프 생성
  2. LLM의 지식 공백을 식별
  3. 가치가 높은 지식 중심으로 QA 데이터 생성
  4. 생성된 데이터를 활용해 LLM 파인튜닝

핵심 동작 방식과 기술적 특징

1. 지식 그래프 기반 데이터 생성

GraphGen은 단순 문장 변형이 아니라, 텍스트를 노드와 관계로 구성된 지식 그래프로 변환합니다. 이를 통해 개념 간 관계를 명확히 파악하고, 보다 구조적인 QA 생성을 수행합니다.

2. Expected Calibration Error(ECE)를 활용한 지식 공백 탐지

LLM이 잘 모르는 영역을 찾기 위해 Expected Calibration Error 지표를 활용합니다. 이를 통해 단순 반복 지식이 아닌, 실제로 모델 성능 향상에 기여하는 데이터 생성에 집중합니다.

3. 멀티홉 이웃 샘플링

지식 그래프 내에서 여러 단계를 거치는 관계를 추출해, 단순 사실 질문이 아닌 복합적 추론이 필요한 QA 데이터를 생성합니다. 이는 모델의 추론 능력 강화에 직접적인 영향을 줍니다.

4. 스타일 제어 기반 데이터 다양화

동일한 지식이라도 질문 방식과 응답 스타일을 다양화해 데이터 편향을 줄이고, 실사용 환경에 더 가까운 학습 데이터를 제공합니다.


성능 결과로 본 GraphGen 효과

GraphGen으로 생성된 데이터가 전체 SFT 데이터의 50% 이상을 차지한 실험에서 다음과 같은 성능 향상이 보고되었습니다.

  • SeedBench(식물 도메인): 51.5 → 65.9
  • GPQA-Diamond(지식): 33.3 → 40.0
  • AIME24(수학): 16.7 → 20.6
  • AIME25(수학): 7.2 → 22.7

이는 GraphGen이 특히 지식·수학·장문 추론 영역에서 효과적임을 보여줍니다.


지원 기능과 확장성

GraphGen은 다양한 환경에서 유연하게 사용할 수 있도록 폭넓은 지원을 제공합니다.

  • 다양한 LLM 백엔드 지원
    • OpenAI API, HuggingFace, Ollama, vLLM, SGLang 등
  • 입력 포맷
    • txt, json, jsonl, pdf
  • 데이터 유형
    • QA, Chain-of-Thought(CoT), VQA(Visual Question Answering)
  • 그래프 및 저장소 백엔드
    • KuzuDB, NetworkX, RocksDB

또한 Ray 기반 파이프라인으로 대규모 분산 실행과 자원 관리 효율도 개선되었습니다.


시스템 아키텍처 개요

GraphGen은 파이프라인 기반 구조로 설계되어 각 단계가 독립적으로 구성됩니다.
입력 데이터 처리, 지식 그래프 생성, QA 합성, 결과 저장까지 명확히 분리되어 있어 커스터마이징과 확장이 용이합니다.


728x90

GraphGen은 지식 그래프를 활용해 LLM이 실제로 부족한 지식을 정확히 보완하는 합성 데이터 생성 프레임워크입니다. 단순한 데이터 증강이 아니라, 모델 성능 향상에 직접 기여하는 데이터를 생성한다는 점이 가장 큰 강점입니다.

향후 GraphGen은 도메인 특화 LLM, 추론 중심 모델, 멀티모달 학습까지 폭넓게 활용될 수 있는 기반 기술로 기대됩니다. 데이터 품질이 곧 모델 성능으로 이어지는 환경에서, GraphGen은 합성 데이터 생성의 실질적인 대안으로 자리 잡을 가능성이 큽니다.

300x250

https://github.com/InternScience/GraphGen

 

GitHub - InternScience/GraphGen: GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Genera

GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation - InternScience/GraphGen

github.com

728x90
반응형
그리드형