Fine-tuning과 In-context Learning 중 어떤 것이 더 뛰어날까? 최신 연구가 알려주는 LLM 커스터마이징 전략
대형 언어 모델(LLM)을 어떻게 우리 회사 데이터에 맞게 커스터마이징할 수 있을까요? 많은 기업들이 이 질문 앞에서 멈춰 섭니다. Fine-tuning이 효과적일지, 아니면 In-context Learning(ICL)이 더 나을지. 각 방식의 장단점은 분명하지만, 실제로 어떤 전략이 더 일반화 성능을 발휘할 수 있는지에 대한 명확한 기준은 부족했습니다.
이번 블로그에서는 Google DeepMind와 Stanford University가 공동으로 수행한 연구를 기반으로, Fine-tuning과 ICL의 실제 성능 비교 결과와, 두 방식의 장점을 모두 살린 새로운 전략인 Augmented Fine-tuning에 대해 정리합니다. 실무에 적용할 수 있는 구체적인 시사점까지 함께 다루니, 지금 고민 중인 기술 선택에 분명한 길잡이가 될 수 있을 것입니다.
1. Fine-tuning과 In-context Learning: 무엇이 다를까?
Fine-tuning은 이미 사전 학습된 LLM에 새로운 데이터셋을 추가로 학습시켜 내부 파라미터를 조정하는 방식입니다. 즉, 모델 자체를 바꾸는 구조입니다. 반면 In-context Learning은 모델의 파라미터를 변경하지 않고, 입력 프롬프트에 예시를 함께 넣어주는 방식입니다. 모델은 이 예시를 바탕으로 새로운 입력을 유추해냅니다.
이처럼 두 방식은 목적은 같지만 접근 방식이 전혀 다릅니다. Fine-tuning은 학습 시간과 리소스를 더 많이 요구하지만 실행 시 빠릅니다. ICL은 학습이 필요 없지만 매번 실행할 때마다 많은 입력 컨텍스트가 필요하므로 추론 비용이 높습니다.
2. 일반화 성능 비교: 실제 실험 결과는?
DeepMind와 Stanford의 연구진은 두 방식을 공정하게 비교하기 위해 복잡한 구조를 가진 인공 데이터셋을 만들었습니다. 모든 명사, 형용사, 동사를 가상의 단어로 대체해 사전 학습 데이터와 겹치지 않도록 하였습니다.
모델은 다음과 같은 테스트에 참여했습니다:
- 관계 뒤집기 테스트: 예를 들어 “femp는 glon보다 더 위험하다”는 학습 데이터를 바탕으로, “glon은 femp보다 덜 위험하다”라는 문장을 유추할 수 있는지 확인합니다.
- 단순 삼단논법 테스트: “모든 glon은 yomp이다”, “모든 troff는 glon이다”라는 문장을 보고 “모든 troff는 yomp이다”라는 결론을 도출할 수 있는지 평가합니다.
- 복합 의미 구조 테스트: 허구적 계층 구조를 바탕으로 더 정교한 추론 능력을 테스트합니다.
이 실험에서 Fine-tuning 모델보다 ICL 모델이 더 나은 일반화 성능을 보였습니다. 특히 관계 뒤집기나 삼단논법처럼 논리적 추론이 필요한 상황에서 더욱 두드러졌습니다. 이는 ICL이 특정 지식을 외우기보다 유추하는 능력에 강하다는 것을 보여줍니다.
3. 두 방식의 장점을 합치다: Augmented Fine-tuning
연구진은 여기서 멈추지 않았습니다. ICL이 보여준 뛰어난 유추 능력을 Fine-tuning에 적용할 수 있다면 어떨까요?
이 아이디어에서 출발한 것이 바로 Augmented Fine-tuning입니다. 이 방식은 LLM이 ICL을 통해 생성한 다양한 추론 결과를 데이터로 활용해 다시 Fine-tuning하는 방식입니다. 두 가지 전략이 사용됩니다:
- 로컬 전략: 문장 단위로 추론된 문장을 재생성하거나 뒤집은 문장을 만들고 이를 학습 데이터에 추가합니다.
- 글로벌 전략: 전체 데이터셋을 기반으로 특정 문장과 연결된 논리적 추론을 도출하고 이를 새로운 학습 샘플로 생성합니다.
이렇게 생성된 데이터셋으로 Fine-tuning을 진행하자, 기존 Fine-tuning이나 ICL 단독보다도 더 뛰어난 일반화 성능을 보여주었습니다. 단, 이 방식은 데이터를 생성하는 단계가 추가되므로 비용이 더 들 수 있습니다. 하지만 반복적으로 모델을 활용할 환경이라면, ICL을 매번 사용하는 것보다 장기적으로는 효율적입니다.
4. 실무에서는 어떤 선택이 최적일까?
결국 중요한 것은 우리 상황에 어떤 방식이 맞느냐는 것입니다. 각 방식의 장단점을 요약해보면 다음과 같습니다:
방식 | 장점 | 단점 |
Fine-tuning | 실행 비용이 낮음, 빠른 응답 가능 | 데이터 적을 경우 과적합, 일반화 성능 낮을 수 있음 |
In-context Learning | 일반화 성능 우수, 학습 불필요 | 실행 시 입력 길이 증가, 추론 비용 높음 |
Augmented Fine-tuning | 일반화 성능 + 실행 효율성 | 사전 데이터 생성 비용 발생 |
예를 들어, 사내 문서에서 “XYZ는 사내 데이터 분석 도구이다”라는 문장이 있다면, Fine-tuning만으로는 “사내 데이터 분석 도구에는 무엇이 있는가?”라는 질문에 잘 답하지 못할 수 있습니다. 하지만 ICL 혹은 Augmented Fine-tuning을 활용하면 이와 같은 유추형 질문에도 효과적으로 대응할 수 있습니다.
이 연구는 LLM을 커스터마이징하는 데 있어 단순히 파라미터를 조정하는 것 이상의 전략이 필요하다는 것을 보여줍니다.
- ICL은 유연한 일반화 능력을 가지고 있지만 추론 비용이 높습니다.
- Fine-tuning은 효율적이지만 유추 능력이 부족할 수 있습니다.
- 두 방식을 결합한 Augmented Fine-tuning은 가장 균형 잡힌 성능을 제공합니다.
기업에서는 사용 빈도, 인프라 비용, 질문 유형에 따라 적절한 방식을 선택해야 합니다. 특히 자체 문서 기반 질의응답 시스템이나 내부 도구 추천과 같은 복합적 응용 분야에서는 Augmented Fine-tuning이 좋은 선택지가 될 수 있습니다.
앞으로는 단순한 Fine-tuning만으로는 LLM을 충분히 활용하기 어렵다는 점을 고려해야 할 시점입니다. 이번 연구가 LLM 활용 전략에 있어 중요한 기준점이 되기를 바랍니다.
Fine-tuning vs. in-context learning: New research guides better LLM customization for real-world tasks
By combining fine-tuning and in-context learning, you get LLMs that can learn tasks that would be too difficult or expensive for either method
venturebeat.com