이미지 한 장이면 끝 – 문서를 구조화된 Markdown으로 변환하는 Nanonets-OCR-s
기존 OCR의 한계를 넘어서
스캔한 계약서나 보고서를 다시 텍스트로 옮길 때 단순한 문자 인식만으로는 부족함을 느꼈던 경험이 있을 겁니다. 수식은 깨지고, 표는 구조가 망가지고, 체크박스나 서명 같은 요소들은 이미지에 묻혀버리죠. 이런 비정형 문서를 구조화하는 작업은 반복적이고 많은 시간과 인력이 필요합니다.
하지만 이제는 Nanonets-OCR-s가 이 문제를 해결합니다. 이 모델은 단순 문자 추출이 아니라 문서 전체를 이해하고, 내용을 의미에 맞게 구조화해주는 고성능 이미지-to-Markdown OCR 모델입니다. 특히 복잡한 문서 구조, 수식, 표, 이미지까지 고려해 LLM 기반 문서 처리에도 바로 사용할 수 있는 결과를 제공합니다.
이 글에서는 Nanonets-OCR-s의 기술적 특장점과 사용 사례, 활용법까지 살펴봅니다. 문서 자동화에 관심 있는 개발자나 기획자라면 꼭 읽어볼 가치가 있습니다.
기존 OCR의 한계, 그리고 Nanonets-OCR-s의 등장
기존 OCR(광학 문자 인식)은 텍스트를 감지하고 디지털화하는 데는 유용했지만, 그 한계는 분명했습니다.
- 문서 내 구조를 인식하지 못함
- 수식, 표, 이미지 등 복합 요소를 텍스트로만 처리
- 의미 단위 분리가 되지 않아 LLM 등의 활용이 어려움
이런 문제들을 해결하고자 등장한 것이 바로 Nanonets-OCR-s입니다. 이 모델은 문서의 시각적 구성 요소뿐만 아니라, 의미 구조까지 함께 파악합니다.
Nanonets-OCR-s란? – 프로젝트 개요와 기술적 배경
Nanonets-OCR-s는 단순한 문자 인식을 넘어 문서를 마크다운(Markdown) 형식으로 구조화하는 모델입니다. 복잡한 문서에서도 다양한 구성 요소를 각각 태깅하고 표현 방식에 맞게 변환해 줍니다.
예를 들어,
- 수식은 LaTeX 형식으로 변환
- 표는 Markdown 또는 HTML 테이블로 출력
- 이미지에는 자동 설명이 붙고
- 서명, 워터마크, 체크박스 등은 별도 태그로 정리
이를 통해 거대언어모델(LLM) 기반 문서 처리에 적합한 입력을 생성할 수 있습니다. 이 모델은 Qwen2.5-VL-3B-Instruct를 기반으로 파인튜닝된 버전입니다.
기능 하나하나 뜯어보기 – Nanonets-OCR-s의 핵심 특징
1. LaTeX 수식 인식
문서 내 수학 공식을 자동 인식하고, 수식 유형에 따라 inline($...$) 또는 display($$...$$) 형식의 LaTeX 문법으로 출력합니다.
2. 이미지 자동 설명
모델은 문서에 포함된 이미지를 분석해 이미지의 성격, 스타일, 내용을 자동으로 설명합니다. <img> 태그 안에 설명을 포함하며, 로고, 차트, 그래프 등도 텍스트 기반 설명으로 변환됩니다.
3. 서명 및 워터마크 분리
- 서명 이미지는 <signature> 태그로 구분 처리됩니다.
- 워터마크 텍스트는 <watermark> 태그에 정리됩니다.
이를 통해 법률 문서나 기업 문서 자동 처리에 큰 효율을 제공합니다.
4. 체크박스 및 라디오 버튼 변환
문서 내 체크박스, 선택 항목은 유니코드 기호로 출력됩니다.
- ☐ (미체크)
- ☑ (체크됨)
- ☒ (거부)
이 기능은 신청서, 설문지, 체크리스트 문서에 특히 유용합니다.
5. 복잡한 표 구조 추출
복잡한 레이아웃의 표도 Markdown 또는 HTML 테이블로 변환해 구조를 유지하면서도 읽기 쉬운 형태로 제공합니다.
어디에 쓸 수 있을까? – 문서 자동화의 활용 사례
Nanonets-OCR-s는 다음과 같은 분야에서 활용도가 높습니다.
- 계약서, 법률 문서의 자동 디지털화
- 연구 보고서의 구조화 및 재가공
- 설문지나 신청서의 응답값 자동 추출
- 이미지 기반 문서의 LLM 입력 전처리
- 복잡한 레이아웃의 PDF 문서 구조 추출
복잡한 문서의 수작업 처리 시간을 줄이고, AI 기반 분석이나 자동화 파이프라인에 바로 활용할 수 있는 포맷을 제공합니다.
vLLM 서버 활용
vLLM 기반 서버에 Nanonets-OCR-s를 등록해 OpenAI 호환 API로 사용할 수 있습니다. API 호출을 통해 이미지 입력을 보내고, 구조화된 텍스트를 받아올 수 있습니다.
docext 패키지로 빠르게 실행
docext라는 패키지를 통해 CLI 또는 웹 앱 형태로 손쉽게 활용할 수 있습니다. 별도 코드 작성 없이 명령어 실행만으로 이미지 → 구조화된 문서 변환이 가능합니다.
문서 인식의 새로운 기준
Nanonets-OCR-s는 단순한 OCR 기술이 아닌, 문서를 '이해'하는 모델입니다. 다양한 구성 요소를 정확히 식별하고, 의미 단위로 구조화해 결과를 마크다운으로 출력합니다.
문서 자동화와 LLM 입력 전처리를 고민하고 있다면, Nanonets-OCR-s는 강력한 선택지가 될 수 있습니다. 특히 법률 문서, 설문지, 연구 리포트처럼 구조가 복잡한 문서를 다룰 때 그 진가를 발휘합니다.
앞으로 OCR 기술은 '무엇을 읽을 수 있는가'에서 '어떻게 구조화할 수 있는가'로 중심이 이동할 것입니다. Nanonets-OCR-s는 그 방향성을 가장 잘 보여주는 사례라 할 수 있습니다.
https://huggingface.co/nanonets/Nanonets-OCR-s
nanonets/Nanonets-OCR-s · Hugging Face
Nanonets-OCR-s is a powerful, state-of-the-art image-to-markdown OCR model that goes far beyond traditional text extraction. It transforms documents into structured markdown with intelligent content recognition and semantic tagging, making it ideal for dow
huggingface.co