스캔 PDF OCR 처리 방법 6가지 (2026 한국어 가이드)

May 21, 2026

스캔 PDF는 종이 문서를 스캐너로 촬영한 이미지 파일로, 텍스트를 선택하거나 검색하려면 OCR(광학 문자 인식) 처리가 필수입니다. 2026년 현재 한국어 스캔 문서 처리에는 Lido, Adobe Acrobat Pro DC, ABBYY FineReader PDF, Naver Clova OCR, Google Drive OCR, Tesseract 등 6가지 도구가 주로 사용되며, 용도와 처리량에 따라 적합한 선택지가 달라집니다.

Native PDF와 스캔 PDF의 기술적 차이

PDF 파일은 내부 구조에 따라 크게 두 가지 유형으로 나뉩니다. Native PDF(디지털 원본 PDF)는 워드프로세서, 스프레드시트, 회계 소프트웨어에서 직접 생성한 파일로 텍스트 레이어가 파일 내부에 포함되어 있습니다. 국세청 홈택스에서 발급받는 전자세금계산서, 더존비즈온이나 이카운트에서 출력한 거래명세서, ERP 시스템에서 생성한 계약서 PDF가 모두 이 유형입니다. 이 파일은 Ctrl+F로 내용을 검색하거나 마우스로 텍스트를 드래그해 복사할 수 있습니다.

반면 스캔 PDF는 종이 문서를 스캐너, 복합기, 스마트폰 카메라로 촬영한 이미지를 PDF 형식으로 저장한 파일입니다. 파일을 열면 겉보기에 일반 PDF와 동일하지만, 내부에는 텍스트 데이터가 존재하지 않고 픽셀로 이루어진 이미지만 있습니다. 텍스트 위에 마우스를 올려도 커서가 텍스트 선택 모드로 바뀌지 않으며, 키워드로 검색해도 결과가 나오지 않습니다. Adobe Acrobat에서 파일을 열 때 "이 PDF에는 검색 가능한 텍스트가 없습니다"라는 안내 문구가 표시되면 스캔 PDF임을 확인할 수 있습니다.

OCR(Optical Character Recognition, 광학 문자 인식)은 이미지 속 글자 형태를 분석해 텍스트 데이터로 변환하는 기술입니다. OCR 처리가 완료된 PDF는 이미지 위에 텍스트 레이어가 추가되어 검색과 복사가 가능해집니다. 인식 정확도는 이미지 해상도, 글자 크기, 폰트 종류, 인쇄 상태에 따라 달라지며, 특히 한국어는 자음과 모음의 조합 방식이 복잡해 OCR 엔진의 언어 모델 품질이 정확도에 큰 영향을 미칩니다.

한국 기업 문서에서 스캔 PDF가 많은 이유

국내 기업 환경에서 스캔 PDF가 여전히 대량으로 유통되는 데는 구조적인 이유가 있습니다. 법인인감이나 대표자 인감이 날인된 계약서는 원본 서명 서류를 팩스나 우편으로 주고받는 관행이 남아 있고, 수신한 팩스나 스캔본을 PDF로 저장하면 모두 스캔 PDF가 됩니다. 임대차계약서, 하도급계약서, 물품공급계약서처럼 인감 날인이 관행인 서류는 거래 완료 후 원본을 스캔해 보관하는 방식이 여전히 일반적입니다.

세금계산서 분야에서도 스캔 PDF가 계속 생성됩니다. 중소기업의 전자세금계산서 의무 발행은 매출 규모에 따라 2011년부터 2014년 사이 단계적으로 시행되었기 때문에, 그 이전 거래 내역을 보관하는 기업은 종이 세금계산서를 스캔해 관리합니다. 연간 공급가액이 일정 기준 미만인 간이과세자는 2026년 현재도 종이 세금계산서를 발행하는 경우가 있어 거래처에서 수기 작성 세금계산서를 팩스로 보내오기도 합니다.

금융 관련 서류도 마찬가지입니다. 국민은행, 신한은행, 우리은행, 하나은행, 농협 등 시중은행 영업점에서 공식 직인이 찍힌 잔액증명서나 거래확인서를 발급받는 경우, 해당 서류를 스캔해 PDF로 보관하거나 거래처에 전달합니다. 카카오뱅크, 토스뱅크처럼 인터넷전문은행에서 발급하는 서류는 Native PDF로 제공되지만, 시중은행 지점 창구 발급 서류는 스캔 처리가 불가피합니다. 또한 상대 거래처가 세무사랑Pro나 자비스, 경리나라 등 구형 소프트웨어를 사용하는 경우 출력물을 스캔해 전달하는 방식이 여전히 사용됩니다.

공공기관 제출 서류도 스캔 PDF의 주요 발생원입니다. 사업자등록번호 10자리가 인쇄된 사업자등록증 사본, 법인등기부등본, 건강보험료 납부확인서 등은 기관에서 원본을 스캔해 제공하거나 제출 전 스캔본을 내부 보관용으로 저장하는 과정에서 스캔 PDF가 생성됩니다. 이 서류들을 회계 시스템에 입력하거나 계약 관리 시스템에 등록하려면 OCR 처리가 필수적입니다.

OCR 정확도를 높이는 스캔 전처리 방법

스캔 PDF의 OCR 결과는 원본 이미지 품질에 직접적으로 영향을 받습니다. 가장 중요한 요소는 DPI(인치당 픽셀 수)입니다. 일반 텍스트 문서에는 300 DPI가 기본 권장값이며, 200 DPI 이하에서는 OCR 오류율이 눈에 띄게 올라갑니다. 특히 10포인트 미만의 소형 글씨가 많은 세금계산서, 거래명세서, 부가가치세 신고서 등은 600 DPI로 스캔하면 정확도를 높일 수 있습니다. 다만 600 DPI 파일은 300 DPI 대비 파일 크기가 약 4배 커지기 때문에 저장 용량과 처리 속도를 함께 고려해야 합니다.

색상 설정에서는 흑백(그레이스케일) 스캔이 OCR에 유리합니다. 컬러 스캔은 배경 무늬나 컬러 노이즈가 OCR 엔진의 글자 인식을 방해할 수 있고, 파일 크기도 그레이스케일 대비 3배에서 5배 이상 커집니다. 원본 색상 보존이 필요한 계약서나 도면 파일은 컬러로 스캔한 뒤 OCR 전처리 단계에서 그레이스케일로 변환하는 방식을 택할 수 있습니다. 노란색이나 분홍색 메모지 같은 유색 종이 문서는 컬러 스캔보다 흑백 스캔이 배경 제거에 더 효과적입니다.

대량 문서를 처리할 때는 ADF(Automatic Document Feeder, 자동문서급지장치)가 장착된 스캐너를 사용하면 생산성이 크게 달라집니다. 후지제록스, 캐논, 엡손 등의 사무용 복합기 ADF는 분당 20매에서 60매를 자동으로 급지하며 스캔합니다. ADF 사용 전 스테이플러 철침을 제거하고 구겨진 용지를 반드시 펴야 용지 걸림 사고를 방지할 수 있습니다. A4 단면 문서가 많다면 양면 스캔 기능을 비활성화하고 단면 모드로 처리하는 것이 속도를 높이는 방법입니다.

모바일 스캔 앱을 사용하는 경우, Microsoft Lens와 Adobe Scan이 자동 문서 감지와 원근 보정 기능을 제공하며 PDF 직접 저장을 지원합니다. 두 앱 모두 무료로 사용할 수 있고, 조명이 충분한 환경에서 스마트폰 카메라로 촬영하면 평판 스캐너 200 DPI에 준하는 품질을 얻을 수 있습니다. 카카오톡 스캔 기능은 간편하지만 해상도가 OCR 전처리용으로 충분하지 않은 경우가 많아 정밀 문서에는 적합하지 않습니다. 스마트폰 스캔은 조명의 반사나 손 떨림으로 기울기가 생길 수 있어, 중요 서류는 평판 스캐너 사용을 권장합니다.

도구 1: Lido - 스캔 PDF 데이터 추출 자동화

Lido(lido.app)는 스캔 PDF를 포함한 다양한 문서에서 구조화된 데이터를 자동으로 추출하는 AI 문서 처리 SaaS입니다. 월 $29(약 39,000원)의 구독 요금으로 사용할 수 있으며, 한국어 문서를 공식 지원합니다. 단순히 이미지에서 텍스트를 인식하는 수준을 넘어서, 세금계산서의 공급가액과 부가가치세 금액, 거래명세서의 품목명과 수량과 단가, 사업자등록번호 10자리 등 비즈니스 맥락에 맞게 필드 단위로 데이터를 분리해 반환합니다.

Lido는 스캔 품질이 다소 낮거나 일부 페이지가 기울어진 경우에도 문서 유형을 자동으로 판별하고 처리합니다. REST API를 제공하기 때문에 더존비즈온, SAP Korea, 영림원소프트랩 같은 기존 ERP 시스템과 연동해 스캔 PDF 수신 즉시 데이터를 자동으로 입력하는 워크플로를 구성할 수 있습니다. 거래처에서 팩스로 수신한 발주서나 세금계산서 사본을 수작업으로 ERP에 옮겨 입력하는 과정을 없애는 용도에 바로 적용할 수 있습니다. 일괄 처리 기능도 지원하기 때문에 월말 정산 시 수십에서 수백 장의 스캔 문서를 한 번에 처리하는 것도 가능합니다.

한국어 OCR 정확도 면에서 Lido는 거래명세서, 세금계산서, 발주서 같은 정형 서식에 대해 사전 학습된 문서 이해 모델을 사용하기 때문에, 범용 OCR 도구 대비 필드 추출 정확도가 높습니다. 300 DPI 이상의 스캔 파일에서 최적의 결과를 얻을 수 있으며, 200 DPI 파일도 처리 가능하지만 8포인트 이하 소형 폰트가 많은 서식에서는 일부 오류가 발생할 수 있습니다. 자비스, 경리나라 같은 경리 소프트웨어와 연동해 입력 자동화를 구현하는 데 적합합니다.

도구 2-3: Adobe Acrobat Pro DC와 ABBYY FineReader PDF

Adobe Acrobat Pro DC는 PDF 편집의 업계 표준 도구로, 스캔 PDF에 OCR 텍스트 레이어를 추가하는 기능을 기본으로 내장하고 있습니다. 한국어를 포함한 다국어 OCR을 지원하며, 스캔 PDF를 열면 자동으로 OCR 처리를 권유하는 알림이 표시됩니다. '모든 도구 > 텍스트 인식' 메뉴에서 단일 파일 또는 폴더 단위 일괄 처리를 선택할 수 있고, Action Wizard 기능을 활용하면 특정 폴더에 저장된 스캔 PDF를 자동으로 순차 처리하는 작업 흐름을 만들 수 있습니다. 월정액 구독은 개인용 기준 약 24,000원부터 시작하며, 기업 볼륨 라이선스는 별도 협의가 필요합니다. 300 DPI 이상 스캔 파일에서 한국어 인식 정확도가 안정적이며, 이미 Adobe 제품군을 사내에서 사용 중인 기업이라면 별도 도구 없이 OCR 처리를 통합할 수 있다는 실용적 장점이 있습니다.

ABBYY FineReader PDF는 OCR 전문 소프트웨어로 190개 이상 언어를 지원하며, 한국어 인식 정확도 면에서 상위 수준으로 평가받습니다. 이 도구의 주요 강점은 낮은 스캔 품질에서도 상대적으로 좋은 결과를 낸다는 점입니다. 200 DPI 또는 그보다 낮은 해상도의 팩스 수신 문서를 처리할 때도 ABBYY의 이미지 전처리 엔진이 자동으로 기울기 보정, 노이즈 제거, 명암 조정을 수행해 인식률을 높입니다. 일괄 처리 성능도 우수해 수천 페이지 분량의 스캔 파일을 야간 무인 처리하는 기업 환경에 적합합니다. 개인용 영구 라이선스는 약 500달러(약 67만원) 수준이며, 월정액 없이 영구 사용이 가능합니다. 기업용 서버 버전은 별도 견적이 필요합니다. OCR 처리 후 이카운트나 위셈 같은 ERP에 수동으로 복사·붙여넣기하는 방식으로 주로 활용합니다.

도구 4-6: Naver Clova OCR, Google Drive OCR, Tesseract

Naver Clova OCR은 한국어 문서 인식에 특화된 API 기반 OCR 서비스입니다. 영수증, 사업자등록증, 명함, 신분증 등 한국 특화 문서 유형별로 별도 모델을 제공하며, 사업자등록번호 10자리나 부가가치세 항목 같은 한국 비즈니스 서식 요소의 인식 정확도가 높습니다. 네이버 클라우드 플랫폼 계정을 통해 API 키를 발급받아 사용하며, 요금은 월 1,000건 무료 이후 1,000건당 약 1,000원에서 3,000원의 종량제 과금이 발생합니다. REST API 방식으로 자체 시스템에 연동할 수 있어, 개발 리소스가 있는 기업이라면 스캔 PDF 수신과 동시에 데이터를 추출하는 파이프라인을 직접 구축할 수 있습니다. 다만 특화 모델이 아닌 범용 문서 OCR에서는 인식 정확도가 달라질 수 있어, 사내 양식처럼 표준화되지 않은 서식에는 별도 검증이 필요합니다.

Google Drive OCR은 구글 드라이브에 PDF를 업로드한 뒤 마우스 오른쪽 클릭 후 '연결 앱 > Google Docs로 열기'를 선택하면 자동으로 OCR이 수행되는 완전 무료 방식입니다. 별도 소프트웨어 설치가 필요 없고 구글 계정만 있으면 즉시 사용 가능합니다. 한국어도 지원하지만 인식 정확도는 Adobe나 ABBYY에 비해 낮으며, 열과 행이 있는 표 서식에서는 구조가 무너지는 경우가 잦습니다. 일괄 처리는 공식적으로 지원되지 않아 Google Apps Script를 활용해 자동화를 구현해야 합니다. 개별 파일을 간헐적으로 처리하거나 정확도보다 속도와 비용이 중요한 상황에서 실용적인 선택지입니다.

Tesseract OCR은 구글이 개발해 오픈소스로 공개한 OCR 엔진으로, 현재는 오픈소스 커뮤니티가 유지 관리하고 있습니다. 라이선스 비용이 없어 완전 무료이며, Python의 pytesseract 라이브러리를 통해 손쉽게 코드와 연동할 수 있습니다. 한국어는 'kor' 언어팩을 설치해 사용합니다. 단, Tesseract는 이미지 전처리를 직접 구현해야 하며, 기울기 보정이나 노이즈 제거 없이 원본 스캔 이미지를 그대로 입력하면 인식 정확도가 크게 떨어집니다. OpenCV를 활용한 전처리 파이프라인을 함께 구성하는 것이 일반적이며, 이런 이유로 개발자 전용 도구에 가깝습니다. 300 DPI 이상의 깔끔한 스캔 파일에서는 비용 대비 충분한 성능을 발휘하기 때문에, 자체 서버에서 대량 문서를 처리하는 스타트업이나 IT 기업의 내부 파이프라인 구축에 적합합니다.

6가지 도구 한눈에 비교

아래 비교표는 스캔 PDF OCR 처리에서 각 도구의 주요 특성을 정리한 것입니다. 한국어 OCR 정확도는 A4 규격 표준 비즈니스 문서 300 DPI 스캔 기준이며, 최저 허용 DPI는 실용적인 인식 가능 최저 해상도를 나타냅니다.

도구	한국어 OCR 정확도	최저 허용 DPI	일괄 처리	월 비용	주요 특징
Lido	매우 높음 (정형 서식)	200 DPI	기본 지원	$29 (약 39,000원)	필드 단위 데이터 추출, API 연동, ERP 통합
Adobe Acrobat Pro DC	높음	200 DPI	Action Wizard 지원	약 24,000원~	업계 표준, PDF 편집 기능 통합
ABBYY FineReader PDF	매우 높음	150 DPI	우수 (대량 처리)	영구 라이선스 약 67만원~	저품질 문서에 강함, 자동 이미지 보정
Naver Clova OCR	높음 (한국 특화 서식)	200 DPI	API 구성 필요	1,000건 무료 후 종량제	사업자등록증·영수증 전용 모델 제공
Google Drive OCR	보통	250 DPI	스크립트 별도 구현	무료	별도 설치 없이 즉시 사용, 단순 문서 적합
Tesseract OCR	보통~높음 (전처리 필수)	300 DPI	커스텀 파이프라인	무료 (오픈소스)	개발자용, 자체 서버 대량 처리 최적화

용도별 도구 선택 가이드

스캔 PDF OCR 도구를 선택할 때는 처리할 문서 유형, 월 처리량, 내부 IT 리소스, 예산을 함께 고려해야 합니다. 각 상황에 맞는 도구를 선택하는 기준은 다음과 같습니다.

세금계산서, 거래명세서, 발주서 같은 정형 비즈니스 서식을 ERP나 회계 시스템에 자동으로 입력해야 하는 경우라면 Lido가 적합합니다. 텍스트를 인식하는 것에 그치지 않고 공급가액, 부가가치세, 사업자등록번호 등 필드별로 구조화된 데이터를 추출해 API로 전달하기 때문에, 자비스나 경리나라 같은 경리 소프트웨어와 연동하는 자동화 구성에 바로 적용할 수 있습니다. 담당자가 수작업으로 스캔 PDF를 보면서 ERP에 입력하는 과정을 줄이는 것이 목표라면 Lido가 가장 직접적인 해결책입니다.

팩스 수신본처럼 품질이 낮은 문서를 다수 처리해야 하고, 텍스트 레이어가 추가된 검색 가능한 PDF 파일이 최종 결과물로 필요하다면 ABBYY FineReader PDF가 최선입니다. 150 DPI에서 200 DPI 수준의 저품질 스캔 파일이 많은 환경에서 ABBYY의 자동 이미지 보정 기능은 경쟁 도구보다 명확한 우위를 보입니다. 초기 라이선스 비용이 발생하지만 월정액 없이 영구 사용이 가능해 장기적으로 총비용이 낮습니다.

이미 Adobe Acrobat Pro DC를 PDF 작업용으로 사용 중인 기업이라면 추가 비용 없이 내장 OCR 기능을 활용하는 것이 합리적입니다. PDF 편집, 주석, 전자서명 기능과 OCR을 하나의 도구로 통합 관리할 수 있다는 실용적인 장점이 있고, 사용법이 이미 익숙한 인터페이스에서 별도 학습 없이 OCR을 처리할 수 있습니다.

내부 개발팀이 있고 대량 문서를 자체 서버에서 처리하려는 경우, Tesseract를 기반으로 파이프라인을 구축하면 클라우드 API 비용 없이 장기적으로 비용 효율적인 운영이 가능합니다. 단, 전처리 모듈 개발에 초기 공수가 필요하기 때문에 개발 리소스가 충분한 조직에 적합합니다. API 연동 방식을 선호하고 한국 특화 문서 인식이 필요하다면 Naver Clova OCR을 함께 검토할 수 있습니다. 처리량이 적고 즉시 무료로 사용해야 하는 상황에서는 Google Drive OCR이 현실적인 출발점입니다.

자주 묻는 질문

스캔 PDF인지 Native PDF인지 어떻게 확인하나요?

PDF 파일을 열고 마우스로 텍스트를 드래그해 선택이 되면 Native PDF입니다. 텍스트가 선택되지 않고 이미지처럼 동작하면 스캔 PDF입니다. Adobe Acrobat에서는 파일을 열 때 "이 PDF에는 검색 가능한 텍스트가 없습니다"라는 알림이 표시되기도 합니다. Ctrl+F로 검색창을 열어 아무 단어를 입력해도 결과가 나오지 않는다면 스캔 PDF입니다. Mac 미리보기 앱에서는 편집 메뉴의 텍스트 선택 모드로 전환 후 텍스트 선택을 시도해 확인할 수 있습니다.

OCR 처리 후에도 글자가 틀리게 인식되는 경우 어떻게 해결하나요?

OCR 오류는 대부분 스캔 품질 부족에서 발생합니다. 원본 문서를 300 DPI 이상으로 다시 스캔하거나, 흑백(그레이스케일) 설정으로 변경해 재시도하는 것이 첫 번째 방법입니다. 기울어진 문서는 스캔 전 평판 스캐너 유리면에 정확히 정렬하고, 복합기 ADF 사용 시 용지 가이드를 문서 크기에 맞게 조절해야 합니다. ABBYY FineReader나 Adobe Acrobat의 경우 OCR 설정에서 언어를 '한국어'로 명시적으로 지정하면 인식률이 개선됩니다. 그래도 오류가 남는다면 해당 페이지만 별도로 고해상도로 재스캔한 뒤 처리하는 것이 효율적입니다.

스캔 PDF의 표나 숫자 데이터를 엑셀로 추출할 수 있나요?

가능합니다. Adobe Acrobat Pro DC와 ABBYY FineReader PDF는 OCR 처리 후 'Excel로 내보내기' 기능을 제공하며, 표 구조를 자동으로 감지해 셀 단위로 변환합니다. 다만 열과 행이 불규칙한 서식이나 합계 행이 병합된 표는 수동 수정이 필요할 수 있습니다. Lido는 거래명세서나 세금계산서의 품목 테이블을 필드 단위로 추출해 JSON 또는 CSV 형식으로 반환하므로, ERP나 회계 시스템과 연동하는 자동화 구성에 바로 활용할 수 있습니다. 단순 표 추출이 목적이라면 Google Drive OCR로 Docs에서 열고 표 데이터를 복사하는 방법으로도 처리 가능합니다.

스캔 PDF를 외부 서비스에 업로드할 때 개인정보 보호는 어떻게 해야 하나요?

Lido, Naver Clova OCR, Google Drive OCR처럼 클라우드 기반 OCR 서비스를 사용하면 문서 이미지가 외부 서버로 전송됩니다. 개인정보보호법과 사내 정보보안 정책상 거래처 사업자등록번호, 금융 정보, 임직원 개인 정보가 포함된 문서를 외부 서비스에 업로드하기 전에 정보보호 담당자나 DPO(개인정보보호책임자)의 검토를 받아야 합니다. 서비스 약관에서 데이터 보존 기간과 처리 방침을 확인하고, 가능하면 데이터 처리 위탁 계약(DPA)을 체결한 서비스를 선택하는 것이 바람직합니다. 민감도가 높은 문서는 온프레미스 설치가 가능한 ABBYY FineReader나 자체 구축 Tesseract 파이프라인을 사용해 데이터가 외부로 전송되지 않도록 처리할 수 있습니다.

무료로 스캔 PDF를 OCR 처리하는 방법이 있나요?

두 가지 방법이 있습니다. 첫째, Google Drive를 이용하는 방법입니다. 구글 계정으로 로그인 후 스캔 PDF를 Google Drive에 업로드하고, 파일을 마우스 오른쪽 클릭한 뒤 '연결 앱 > Google Docs로 열기'를 선택하면 OCR이 자동으로 수행됩니다. 인식된 텍스트는 문서 하단에 이미지와 함께 표시됩니다. 정확도는 전문 도구보다 낮지만 간단한 텍스트 문서에는 충분합니다. 둘째, Tesseract OCR을 로컬 PC에 설치하는 방법입니다. 오픈소스로 완전 무료이며, 한국어 언어팩(kor)을 함께 설치하면 한국어 인식이 가능합니다. 다만 명령행(Command Line) 사용 경험이 필요하며, 별도의 이미지 전처리 없이는 인식 오류가 많이 발생할 수 있어 기술적 준비가 필요합니다.

`문서 자동화로 사업을 키울 준비가 되셨나요? 추가 인력 없이도 가능합니다`

Lido와 함께 반복 업무를 자동화하며 더 빠르게 성장하는 수백 개 팀에 합류하세요.

데모 예약하기