
최근 AI 업계에서는 시각과 언어를 동시에 이해하는 VLM(Vision-Language Model)이 핵심 기술로 떠오르고 있다. 이미지 분석·문서 이해·영상 인식까지 한 번에 처리하는 멀티모달 모델들의 경쟁이 치열해지는 가운데, 바이두가 새로운 오픈 소스 VLM을 공개하며 큰 주목을 받고 있다.
이번 글에서는 바이두가 발표한 ERNIE-4.5-VL-28B-A3B-Thinking 모델이 무엇이며, 왜 업계가 관심을 보이는지, 그리고 실제 산업 분야에서 어떤 의미를 갖는지 명확하게 정리한다.
ERNIE-4.5-VL-28B-A3B-Thinking 모델 소개
바이두는 이번 모델을 허깅페이스를 통해 오픈 소스로 공개했다. 특히 눈길을 끄는 점은 구글의 Gemini 2.5 Pro와 오픈AI의 GPT-5 High보다 여러 벤치마크에서 우수한 성능을 보였다고 주장한 부분이다.
단순히 이미지와 텍스트를 결합해 처리하는 기존 VLM 방식이 아니라, 이미지 기반 추론이라는 새로운 접근을 통해 복잡한 도면 분석과 긴 시각적 추론이 가능하다는 점이 차별점으로 꼽힌다.
핵심 특징 1: 이미지 추론(Thinking with Images)
이번 모델의 가장 큰 혁신은 이미지 내부를 자유롭게 확대·축소하며 추론하는 기능이다.
사람이 복잡한 도면이나 회로도를 볼 때, 특정 영역을 확대해 세부 구조를 파악한 뒤 다시 전체를 보며 흐름을 이해하는 과정과 유사하다.
이 모델은 다음과 같은 방식으로 작동한다.
- 이미지의 특정 부분을 자동으로 확대
- 세부 요소를 분석
- 다시 전체 문맥으로 돌아가 종합적 판단
- 장기적 추론 가능
즉, 단순한 이미지 캡션 생성 수준을 넘어서, 고해상도 도면, 장비 설계도, PCB 같은 정밀 시각 데이터를 분석할 수 있는 수준의 능력을 갖췄다는 의미다.
핵심 특징 2: 강화된 시각적 그라운딩(Visual Grounding)
시각적 그라운딩은 이미지 속 객체를 정확한 위치와 함께 식별하는 기능이다.
ERNIE-4.5-VL-28B-A3B-Thinking은 이 부분에서 크게 향상되었으며, 이를 통해 아래와 같은 산업적 활용이 가능해진다.
- 로봇이 특정 부품의 위치를 인식
- 창고 자동화 시스템이 제품을 정확히 식별
- 제조 설비가 불량 요소를 실시간으로 찾아냄
정확한 객체 인식 및 위치 파악 능력은 실제 제조·물류·자동화 현장에서 매우 중요한 기능이기 때문에, 기술적 가치가 높다.
핵심 특징 3: 멀티모달 이해 능력 강화
바이두는 이번 모델이 문서, 차트, 이미지, 영상 등 다양한 형태를 종합적으로 이해하는 데 최적화되어 있다고 밝혔다.
또한 수학·과학(STEM) 문제 해결 능력, 시각적 인과 추론, 영상 이벤트 인식에서도 큰 개선이 있었다.
특히 영상 이해 성능이 강화되어, 영상 속 사건을 시간 구간별로 나누어 정확히 파악할 수 있다는 점이 주목된다.
이는 감시 시스템, 공정 모니터링, 스포츠 분석 등 실제 서비스에 즉시 적용 가능한 기능이다.
핵심 특징 4: 280억 파라미터 MoE 모델의 효율성
모델의 전체 파라미터는 280억 개이지만, 실제 계산에는 30억 개만 활성화되는 MoE(Mixture of Experts) 구조를 채택했다.
장점은 다음과 같다.
- 동일한 성능에서 연산량 감소
- 메모리 사용 절감
- 효율적 추론이 가능해 단일 GPU에서도 실행 가능
이는 대규모 인프라를 갖추지 못한 중소기업이나 스타트업에게 매우 중요한 지점이다.
단일 GPU에서도 구동되는 고효율 모델
바이두는 이 모델이 고성능 GPU 한 장만으로도 충분히 구동된다고 설명했다.
즉, 클라우드 서버나 대형 GPU 클러스터 없이도 연구와 실험이 가능하다는 뜻이다.
이는 기업이 AI 기술을 도입할 때 부담을 크게 줄여주며, 오픈 소스라는 점과 함께 접근성을 더욱 높인다.
오픈 소스 모델로서의 자유로운 활용성
ERNIE-4.5-VL-28B-A3B-Thinking은 상업적 제약 없이 사용 가능하다.
또한 자유롭게 수정, 배포, 상용화할 수 있기 때문에 다음과 같은 분야에서 즉시 활용될 수 있다.
- 자체 VLM 시스템 구축
- 산업용 비전 검사 솔루션 개발
- RAG + VLM 기반의 프라이빗 AI 구축
- 영상 분석 플랫폼 개발
대기업뿐 아니라 중소기업·연구기관·개인 개발자에게도 매력적인 조건이다.
왜 이번 모델이 중요한가
바이두의 ERNIE-4.5-VL-28B-A3B-Thinking은 단순히 또 하나의 VLM 모델이 아니다.
다음과 같은 점에서 기존 VLM 경쟁의 흐름을 바꿀 가능성이 있다.
- 이미지 추론 기능을 통해 복잡한 도면 분석까지 수행
- 시각적 그라운딩 능력 강화로 실제 산업 현장 적용 가능
- 멀티모달 이해 전반에서 성능 개선
- 대규모 모델임에도 단일 GPU에서 구동되는 효율성
- 상업적 제약 없는 오픈 소스 공개
특히 제조, 물류, 건설, 로보틱스처럼 시각 기반 데이터가 중요한 산업에서는 이 모델이 가져올 변화가 크다.
앞으로 멀티모달 모델 경쟁은 단순 성능 비교를 넘어, 실제 산업 환경에서 얼마나 정밀하고 효율적으로 작동하는가라는 방향으로 더욱 고도화될 것으로 보인다.
https://huggingface.co/baidu/ERNIE-4.5-VL-424B-A47B-Base-PT
baidu/ERNIE-4.5-VL-424B-A47B-Base-PT · Hugging Face
ERNIE-4.5-VL-424B-A47B-Base Note: "-Paddle" models use PaddlePaddle weights, while "-PT" models use Transformer-style PyTorch weights. ERNIE 4.5 Highlights The advanced capabilities of the ERNIE 4.5 models, particularly the MoE-based A47B and A3B series, a
huggingface.co

'인공지능' 카테고리의 다른 글
| AGI를 향한 구글의 진일보: 스스로 추론하고 행동하는 AI 에이전트, '시마 2' 전격 공개 (0) | 2025.11.14 |
|---|---|
| GPT-5.1, 무엇이 달라졌을까? 더 자연스럽고 더 똑똑해진 ChatGPT의 진화 (0) | 2025.11.14 |
| 개발자를 위한 GPT-5.1 출시: 더 빠르고 똑똑해진 차세대 모델 완전 정리 (0) | 2025.11.14 |
| 아이디어를 ‘그림처럼’ 구체화하다: 구글의 실험적 AI 도구, Mixboard (0) | 2025.11.13 |
| AI가 만드는 나만의 학습 로드맵: Getinclub AI 코스 생성기 (0) | 2025.11.13 |