
OCR의 한계를 넘어선 정교함
PDF나 이미지 문서를 텍스트로 변환하는 과정은 생각보다 쉽지 않다. 단순히 글자를 인식하는 수준이 아니라, 표나 수식, 손글씨, 다단 편집처럼 복잡한 레이아웃까지 정확히 재현해야 진정한 의미의 디지털 변환이 가능하다. 하지만 기존의 OCR 솔루션은 여전히 복잡한 문서 구조를 온전히 인식하지 못하거나, 추출된 결과가 정돈되지 않아 후처리 과정에서 많은 시간을 소비하게 된다.
이러한 문제를 해결하기 위해 등장한 것이 Chandra이다. Chandra는 단순한 텍스트 추출기를 넘어, 문서의 시각적 구조를 그대로 보존하며 데이터를 HTML, Markdown, JSON 형태로 변환할 수 있는 고정밀 OCR 모델이다.
Chandra란 무엇인가
Chandra는 이미지나 PDF 문서를 정밀하게 분석해 문서의 본문 구조, 표, 수식, 손글씨, 이미지, 헤더·푸터 정보까지 함께 인식하는 OCR(Optical Character Recognition) 시스템이다. 기존 OCR의 약점이었던 레이아웃 보존과 복잡한 형식 인식 문제를 해결하는 데 초점을 맞췄다.
이 모델은 문서의 원본 구조를 재현하며, 텍스트뿐 아니라 시각적 요소 간의 관계를 이해한다. 결과적으로 단순 텍스트 추출이 아니라, **‘문서 복원형 OCR’**에 가깝다.
주요 특징
1. 다형식 문서 변환 지원
Chandra는 문서를 세 가지 형식으로 변환할 수 있다.
- Markdown: 블로그나 문서 관리 시스템에서 바로 사용할 수 있는 가벼운 포맷.
- HTML: 원문 레이아웃을 그대로 재현할 수 있는 구조적 포맷.
- JSON: 머신러닝이나 데이터 파이프라인에서 활용하기 좋은 구조적 데이터 포맷.
이 세 가지 형식 덕분에 개발자뿐 아니라 콘텐츠 관리자, 데이터 엔지니어 등 다양한 사용자가 필요에 맞게 활용할 수 있다.
2. 정교한 레이아웃 인식
Chandra는 표, 다단 구성, 수식, 캡션, 체크박스, 이미지와 같은 복잡한 문서 구성 요소를 인식한다. 단순히 텍스트를 추출하는 것이 아니라, 요소 간의 공간적 관계와 서식을 분석해 원본 형태를 최대한 유지한다.
특히 표(Table) 구조와 수학 수식, 손글씨 영역에서도 높은 인식률을 보여준다. 이는 딥러닝 기반의 문서 이해 모델이 문서의 시각적 배치를 함께 학습하기 때문이다.
3. 다국어 및 손글씨 인식
Chandra는 40개 이상의 언어를 지원하며, 인쇄체뿐 아니라 손글씨 인식 성능도 탁월하다. 예를 들어 의사의 처방전, 서명, 수학 과제 등 손으로 작성된 문서에서도 구조화된 결과를 추출할 수 있다.
4. 이미지 및 다이어그램 추출
텍스트 외에도 문서에 포함된 이미지와 다이어그램을 분리하여 저장할 수 있다. 이미지에는 자동으로 캡션 정보가 함께 추출되어, 시각 자료를 활용한 문서 분석이나 데이터 재구성에도 적합하다.
기술 구조와 동작 방식
Chandra는 두 가지 추론 방식을 제공한다.
- 로컬(HuggingFace) 모드: 로컬 환경에서 모델을 직접 실행해 문서를 처리한다. 데이터 보안이 중요한 환경에 적합하다.
- 원격(vLLM) 모드: 서버 기반의 추론 방식을 사용하여 대용량 문서를 빠르게 처리한다. 대규모 배치 작업이나 클라우드 환경에 적합하다.
이러한 유연한 구조 덕분에 개발자는 환경 제약 없이 Chandra를 다양한 시스템에 통합할 수 있다.
또한 문서를 처리할 때 페이지 단위 병렬 처리가 가능해, 긴 문서도 효율적으로 변환할 수 있다. 결과는 각 문서별로 하위 디렉터리에 정리되어 저장되며, 메타데이터 파일을 통해 페이지별 토큰 수, 이미지 추출 여부 등 세부 정보를 함께 제공한다.

성능 및 벤치마크 결과
Chandra는 단순히 “좋다”고 주장하는 수준이 아니다. 공식적으로 공개된 olmocr 벤치마크에서 높은 점수를 기록했다.
| 모델명 | Overall 점수 | 특징 |
| Datalab Chandra v0.1.0 | 83.1 ± 0.9 | 높은 정확도와 구조 인식률 |
| Datalab Marker v1.10.0 | 76.5 ± 1.0 | 일반 문서에 강함 |
| Mistral OCR API | 72.0 ± 1.1 | 속도는 빠르지만 정밀도 낮음 |
| Deepseek OCR | 75.4 ± 1.0 | 수식 인식 개선됨 |
| GPT-4o (Anchored) | 69.9 ± 1.1 | 범용 모델로 OCR에 최적화되지 않음 |
특히 Chandra는 표, 수식, 손글씨, 복잡한 레이아웃 문서 영역에서 높은 점수를 기록했다.
‘Old Scans’, ‘Multi-column’, ‘Tiny Text’ 등 현실적인 어려움을 가진 문서에서도 80점 이상의 인식률을 보였다는 점이 주목할 만하다.
이는 단순한 텍스트 추출보다 문서 구조를 인식하고 복원하는 데 초점을 맞춘 결과로, 정확도와 재현성 모두에서 경쟁 모델보다 우위에 있다.
Chandra가 제시하는 OCR의 미래
OCR 기술은 단순히 문자를 인식하는 단계를 넘어, 문서를 이해하고 재구성하는 지능형 시스템으로 진화하고 있다. Chandra는 그 전환의 중심에 있다.
기존 솔루션이 놓치던 복잡한 문서 레이아웃, 수식, 손글씨까지 인식해 구조화된 데이터로 변환함으로써, 문서 처리 자동화의 가능성을 크게 넓혔다.
특히 다양한 출력 포맷(Markdown, HTML, JSON)을 지원함으로써, AI 문서 분석, RAG(Retrieval-Augmented Generation), 데이터 파이프라인 등 다양한 응용 분야에 활용될 수 있다.
정확성과 유연성을 동시에 확보한 Chandra는 앞으로 연구기관, 데이터 기업, 출판사, 정부기관 등 다양한 영역에서 문서 디지털화의 표준 솔루션으로 자리 잡을 가능성이 크다.
Chandra는 단순히 OCR의 한계를 극복한 기술이 아니라, 문서를 구조화된 정보로 재해석하는 지능형 OCR 플랫폼이다.
정확도, 다형식 변환, 복잡한 문서 인식, 다국어 및 손글씨 지원 등 모든 면에서 강력한 기능을 갖추고 있다.
향후 더 많은 AI 워크플로우와 결합되면서, Chandra는 단순한 도구를 넘어 데이터 디지털화의 중심 인프라로 자리 잡을 것이다.
GitHub - datalab-to/chandra: OCR model that handles complex tables, forms, handwriting with full layout.
OCR model that handles complex tables, forms, handwriting with full layout. - datalab-to/chandra
github.com

'인공지능' 카테고리의 다른 글
| 구글, AI 마케팅 도구 ‘Pomelli’ 공개 - 브랜드의 정체성을 이해하는 새로운 AI 마케팅 파트너 (0) | 2025.11.03 |
|---|---|
| 에이전트를 위한 효과적인 툴 설계: LLM 시대의 새로운 개발 패러다임 (0) | 2025.11.03 |
| Claude Code 완전 활용 가이드: AI IDE의 새로운 패러다임 (0) | 2025.11.03 |
| Anthropic의 논문 「Emergent Introspective Awareness in Large Language Models」(2025) - 대형 언어모델의 ‘내적 자각(Introspective Awareness)’ 연구 분석 (0) | 2025.11.03 |
| MiniMax M2: ‘가벼움’으로 거인들을 넘어선 AI 모델의 반격 (0) | 2025.11.03 |