llm alignment (1) 썸네일형 리스트형 DPO로 더 간편한 LLM 튜닝 – UNSLOTH를 활용한 구현 가이드 DPO (Direct Preference Optimization)란 무엇인가?DPO(Direct Preference Optimization)는 LLM(대규모 언어 모델)을 보다 간단하고 비용 효율적인 방식으로 사람의 선호에 맞게 조정할 수 있는 최신 튜닝 기법입니다. 전통적으로 사용되는 **RLHF(강화 학습을 통한 사람 피드백)**는 강력하지만 리워드 모델을 학습하고 이를 통해 강화 학습을 수행해야 하므로 리소스가 많이 필요하고 구현이 복잡합니다. 이에 비해 DPO는 리워드 모델 없이도 직접 모델을 최적화할 수 있는 방법을 제시합니다.DPO는 Binary Cross Entropy Loss를 활용해 선호 응답과 비선호 응답의 확률을 비교하며, 선호 응답의 확률을 높이고 비선호 응답의 확률을 낮추는 방식으.. 이전 1 다음