
이 글에서는 DeepSeek가 2026년 1월 공개한 DeepSeek-OCR 2 모델에 대해 정리합니다. 기존 OCR 및 비전 LLM이 가진 한계를 어떻게 개선했는지, 핵심 기술인 DeepEncoder V2의 개념과 배경, 모델의 주요 특징과 성능, 그리고 실제로 로컬 환경에서 실행하고 미세 조정하는 방법까지 입력된 정보를 기반으로 설명합니다. 문서 인식과 이미지 기반 텍스트 처리에 관심 있는 개발자와 기술 담당자가 전체적인 흐름을 이해할 수 있도록 구성했습니다.
DeepSeek-OCR 2 개요
DeepSeek-OCR 2는 3B 파라미터 규모의 오픈소스 OCR 및 문서 이해 모델입니다. 단순히 이미지에서 텍스트를 추출하는 수준을 넘어, 문서 구조와 시각적 맥락을 함께 이해하는 데 초점을 둔 것이 특징입니다.
Apache-2.0 라이선스로 공개되어 상업적 활용과 커스터마이징이 가능하며, 복잡한 레이아웃을 가진 문서 환경에서 높은 정확도를 목표로 설계되었습니다.
기존 OCR 및 비전 LLM의 한계
기존 비전 LLM과 OCR 모델은 이미지를 **고정된 그리드 방식(좌상단에서 우하단)**으로 스캔하는 구조를 주로 사용해 왔습니다. 이 방식은 단순 문서에는 효과적이지만 다음과 같은 한계가 있습니다.
- 다단(열) 구조 문서에서 읽기 순서가 어긋남
- 레이블과 값의 관계를 정확히 연결하기 어려움
- 표(Table)를 일관성 있게 해석하지 못함
- 텍스트와 구조 정보가 혼합된 문서에서 오류 증가
이러한 문제는 실제 업무 문서, 보고서, 계약서, 스캔 문서 환경에서 OCR 활용도를 제한해 왔습니다.
핵심 기술: DeepEncoder V2
DeepSeek-OCR 2의 핵심은 DeepEncoder V2입니다.
이 인코더는 이미지를 처리할 때 다음과 같은 접근 방식을 취합니다.
- 먼저 이미지 전체에 대한 **전반적인 이해(글로벌 컨텍스트)**를 구축
- 이후 사람이 문서를 읽는 것과 유사하게
- 어디를 먼저 볼지
- 다음으로 어느 영역에 주의를 기울일지
를 학습된 논리적 순서로 판단
이 방식은 기존의 기계적인 스캔 방식과 달리, 인간의 읽기 흐름을 모델에 반영했다는 점에서 차별화됩니다.
DeepSeek-OCR 2의 주요 특징과 강점
1. 복잡한 레이아웃에서의 OCR 성능 향상
DeepEncoder V2를 통해 다음과 같은 작업 정확도가 향상되었습니다.
- 열 구조를 따라 자연스럽게 텍스트 추적
- 레이블과 값의 정확한 연결
- 표를 행과 열 단위로 일관성 있게 인식
- 텍스트와 구조가 섞인 문서 처리 안정성 개선

2. 벤치마크 성능
공식 벤치마크 기준으로 DeepSeek-OCR 2는 다음 성과를 보였습니다.
- OmniDocBench v1.5 기준, Gemini 3 Pro를 능가
- 기존 DeepSeek-OCR 대비 4% 이상 성능 향상
이는 단순 OCR 정확도뿐 아니라 문서 이해 전반에서의 개선을 의미합니다.
3. 오픈소스와 확장성
- Apache-2.0 라이선스 제공
- 로컬 실행 및 커스터마이징 가능
- Unsloth를 통한 미세 조정(Fine-tuning) 지원
DeepSeek-OCR 2 실행 환경과 권장 설정
권장 추론 설정
DeepSeek에서 제안하는 기본 설정은 다음과 같습니다.
- Temperature: 0.0
- max_tokens: 8192
- ngram_size: 30
- window_size: 90
또한 동적 해상도를 지원해 다양한 이미지 크기에서도 안정적인 추론이 가능합니다.
프롬프트 활용 예시
DeepSeek-OCR 2는 프롬프트를 통해 다양한 OCR 및 문서 이해 작업을 수행할 수 있습니다.
- 문서를 마크다운으로 변환
- <image> <|grounding|>Convert the document to markdown.
- 일반 OCR 수행
- <image> Free OCR.
- 이미지 상세 설명
- <image> Describe this image in detail.
이러한 방식으로 단순 텍스트 추출을 넘어 문서 구조 기반 결과를 얻을 수 있습니다.
실행 방법 예시
vLLM 기반 실행
vLLM 환경에서 DeepSeek-OCR 2를 실행하면 배치 이미지 처리와 고성능 추론이 가능합니다. 모델 로드 후 이미지와 프롬프트를 함께 전달해 OCR 결과를 생성합니다.
Transformers 기반 실행
Hugging Face Transformers를 활용하면 NVIDIA GPU 환경에서 직접 추론할 수 있습니다. Flash Attention을 활용해 성능을 최적화하며, 이미지 파일과 프롬프트를 입력해 결과를 생성합니다.
Unsloth 기반 실행
Unsloth는 DeepSeek-OCR 2 실행과 미세 조정을 간소화합니다.
특히 다음과 같은 장점이 있습니다.
- 1.4배 빠른 학습 속도
- 40% 적은 VRAM 사용
- 더 긴 컨텍스트 길이 지원
Fine-tuning과 성능 개선
Unsloth를 활용한 미세 조정 결과, 특정 언어(페르시아어) 기준으로 다음과 같은 개선이 확인되었습니다.
- OCR2 평균 CER:
- 미세 조정 전: 4.1863
- 미세 조정 후: 0.6018
- 약 86% 오류 감소
이는 도메인 특화 문서나 특정 언어 환경에서 DeepSeek-OCR 2를 더욱 정밀하게 활용할 수 있음을 보여줍니다.
DeepSeek-OCR 2는 단순 OCR 모델을 넘어, 문서를 인간처럼 읽고 이해하려는 방향성을 명확히 보여주는 모델입니다. DeepEncoder V2를 통해 복잡한 레이아웃 문제를 해결했으며, 오픈소스 기반으로 실행과 미세 조정이 가능하다는 점에서 실무 적용 가능성이 높습니다.
앞으로 문서 자동화, 데이터 추출, AI 기반 문서 분석 영역에서 DeepSeek-OCR 2는 높은 활용 가치를 가질 것으로 기대됩니다. 특히 복잡한 문서 구조를 다뤄야 하는 환경이라면, 기존 OCR 대비 분명한 차이를 체감할 수 있는 선택지가 될 것입니다.
deepseek-ai/DeepSeek-OCR-2 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co

'인공지능' 카테고리의 다른 글
| AI가 회사를 직접 운영하는 시대, Twin이 보여주는 자동화 비즈니스의 현실 (0) | 2026.01.29 |
|---|---|
| 촉각을 이해하는 로봇 AI, Microsoft Rho-alpha 모델 기술 분석 (0) | 2026.01.29 |
| QRev: AI 에이전트 기반 오픈소스 세일즈 플랫폼의 개념과 활용 방법 (0) | 2026.01.28 |
| Open Responses 표준이 바꾸는 AI 애플리케이션 개발 방식 - Chat Completion API 이후, 에이전틱 AI를 위한 새로운 기준 (0) | 2026.01.28 |
| Claude 기반 AI 보조 개발을 위한 Full-stack 기술 스킬 모음 정리 (0) | 2026.01.28 |