open-qwen2vl (1) 썸네일형 리스트형 Open-Qwen2VL: 공개형 멀티모달 대형 언어 모델(MLLM) 사전 훈련 전략 Open-Qwen2VL은 학술 연구를 위한 완전 공개형 멀티모달 대형 언어 모델(MLLM)을 효율적으로 사전 훈련하는 방법론을 제시합니다. 본 연구에서는 기존 MLLM 훈련의 핵심 난제(고품질 데이터 필터링, 멀티모달 데이터 구성, 시퀀스 패킹 기법, 분산 훈련 인프라)를 해결하기 위해 2B(20억) 파라미터 규모의 모델을 2,900만 개의 이미지-텍스트 쌍으로 훈련하였으며, 단 220 A100-40G GPU 시간으로 최적의 성능을 달성하였습니다.핵심 방법론1. 데이터 효율성 최적화적응형 이미지 해상도 조정: 학습 초기에 저해상도를 사용하고 점진적으로 해상도를 증가시켜 훈련 비용을 절감멀티모달 시퀀스 패킹 기법 적용: 가변 길이의 이미지-텍스트 샘플을 4096 토큰 컨텍스트 길이에 최적화하여 배치, GP.. 이전 1 다음