기존 OCR(Tesseract, ABBYY 구버전)은 사전에 지정한 좌표와 규칙으로 텍스트를 추출하는 방식으로, 양식이 조금만 달라져도 즉시 오류가 발생합니다. AI OCR은 문서 전체의 문맥을 파악해 양식 변경과 무관하게 필드 단위 구조화 데이터를 추출하며, 실무 환경 기준 정확도 95% 이상을 달성합니다.
Tesseract는 구글이 오픈소스로 공개한 OCR 엔진으로, 이미지에서 문자를 인식해 텍스트 문자열을 반환합니다. 작동 원리는 단순합니다. 개발자가 "이 좌표 구간에서 공급자 사업자등록번호 10자리를 읽어라"라고 규칙을 코드로 정의하면, 엔진은 해당 픽셀 영역을 분석해 숫자를 추출합니다. ABBYY FineReader 구버전도 구조는 다르지 않습니다. 문서 레이아웃을 미리 템플릿으로 등록하고, 실제 문서가 들어왔을 때 해당 템플릿과 대조해 필드를 추출합니다.
이 방식은 국세청이 표준 양식을 법적으로 규정한 전자세금계산서처럼 레이아웃이 고정된 문서에서는 상당히 잘 작동합니다. 공급자, 공급받는자, 작성일자, 공급가액, 부가가치세 항목의 위치가 모든 출력본에서 동일하기 때문입니다. 그러나 실제 업무에서 기업이 다루는 문서는 전자세금계산서만이 아닙니다. 거래처마다 양식이 다른 견적서, 계약서, 발주서, 납품확인서가 섞여 들어옵니다. 한 거래처의 견적서 양식이 바뀌거나 새 거래처가 추가될 때마다 개발자가 규칙 코드를 수정해야 합니다.
공개 벤치마크와 국내 기업 실무 도입 사례를 종합하면, 양식 다양성이 높은 환경에서 기존 OCR의 실질 정확도는 약 78% 수준에 머뭅니다. 나머지 22%는 검토자가 수작업으로 보정해야 합니다. 스캔 품질이 낮거나 문서가 비스듬히 촬영된 경우 정확도는 60% 이하로 떨어지기도 합니다. 손글씨가 포함된 서류는 사실상 인식이 불가능합니다.
AI OCR은 단순히 "더 나은 문자 인식 엔진"이 아닙니다. 대규모 언어 모델(LLM)과 컴퓨터 비전 기술을 결합해 문서를 사람처럼 이해하는 방식입니다. GPT-4o Vision 같은 멀티모달 모델은 문서 이미지를 입력으로 받아 "이 문서에서 공급자 이름, 사업자등록번호, 합계 금액을 추출하라"는 지시를 자연어로 해석하고 JSON 형태로 반환합니다. 좌표 지정이나 템플릿 등록이 필요 없습니다.
Naver Clova OCR 최신 버전은 한국어 문서에 최적화된 딥러닝 모델을 탑재하고, 표 구조 인식과 키-값 쌍 추출 기능을 기본으로 제공합니다. NHN Cloud OCR은 영수증, 명함, 사업자등록증, 신분증 등 문서 유형별로 특화된 모델을 운영합니다. 카카오엔터프라이즈는 자사 AI 플랫폼을 통해 문서 분류와 정보 추출 기능을 제공하며, 삼성 SDS Brity Works에도 AI 문서 처리 모듈이 포함되어 있습니다.
Lido는 이 흐름 위에서 작동하는 SaaS 형태의 AI 문서 데이터 추출 도구입니다. 사용자가 PDF나 이미지를 업로드하고 추출하고 싶은 필드를 지정하면, LLM이 문서 전체를 분석해 해당 정보를 구조화된 표 형태로 반환합니다. 한국어 문서를 지원하며, 월 39,000원(약 $29) 구독으로 API 연동 없이 바로 사용할 수 있습니다. 더존비즈온 ERP나 영림원소프트랩 같은 국내 ERP 시스템에 데이터를 입력하기 전 단계의 데이터 정제에 도입하는 기업이 늘고 있습니다.
기존 OCR과 AI OCR의 차이는 단순히 정확도 수치 이상입니다. 업무 운영 방식과 초기 투자 구조 전체가 달라집니다. 아래 다섯 가지 항목은 실제 도입 결정에서 가장 자주 비교되는 기준입니다.
첫째, 정확도입니다. 기존 OCR이 다양한 양식 환경에서 약 78%의 실무 정확도를 보이는 반면, AI OCR은 동일한 조건에서 95% 이상을 달성합니다. 이 수치 차이는 단순한 성능 지표가 아닙니다. 정확도 78%라는 것은 처리 건수 1,000건 중 220건을 담당자가 수작업으로 재처리해야 한다는 의미입니다. 정확도가 95%로 올라가면 재처리 건수가 50건으로 줄어들고, 그 시간은 다른 업무에 투입할 수 있습니다.
둘째, 학습 데이터 요구량입니다. 기존 OCR에서 새로운 문서 유형을 처리하려면 해당 유형의 샘플 문서 수만 장을 수집하고 레이블링해야 합니다. AI OCR은 zero-shot 방식으로 작동합니다. 처음 보는 양식이라도 모델이 사전에 학습한 언어 이해 능력을 바탕으로 필드를 식별합니다. 새 거래처의 견적서 양식이 추가되어도 별도의 학습 작업이 필요하지 않습니다.
셋째, 신규 양식 대응 속도입니다. 기존 OCR 환경에서는 거래처가 견적서 양식을 바꾸면 개발자가 규칙 코드를 수정하고 테스트한 후 배포해야 합니다. 빠르면 며칠, 복잡한 경우 수 주가 소요됩니다. AI OCR에서는 별도의 코드 수정 없이 즉시 새 양식을 처리할 수 있습니다.
넷째, 처리 가능한 데이터 유형입니다. 기존 OCR은 본질적으로 텍스트 추출 도구입니다. 문서 내 표 구조나 키-값 관계를 이해하지 못합니다. AI OCR은 텍스트, 표, 키-값 쌍을 함께 처리하고 각각을 구분해 반환합니다. 예를 들어 세금계산서의 품목 내역 표를 행 단위로 파싱하거나, 계약서에서 계약 당사자와 계약 금액의 관계를 이해해 추출하는 것이 가능합니다.
다섯째, 운영 비용 구조입니다. 기존 OCR을 자체 구축하면 서버 인프라 비용과 엔진 유지보수 비용이 지속적으로 발생합니다. AI OCR SaaS는 월정액 구독 모델입니다. Lido 기준으로 월 39,000원부터 시작할 수 있습니다. 초기 구축 비용이 없고 사용량에 따라 플랜을 조정할 수 있어 재무 예측이 쉽습니다.
| 비교 항목 | 기존 OCR (Tesseract·ABBYY 구버전) | AI OCR (Lido·Clova OCR·GPT-4o Vision) |
|---|---|---|
| 추출 방식 | 좌표·규칙 기반 | 문맥 이해·LLM 기반 |
| 실무 정확도 (다양한 양식) | 약 78% | 95% 이상 |
| 신규 양식 대응 | 개발자 코드 수정 필요 (수일~수 주) | 즉시 자동 인식 |
| 학습 데이터 요구 | 수만 장 이상 수집·레이블링 필요 | 불필요 (zero-shot) |
| 처리 데이터 유형 | 텍스트 단순 추출 | 텍스트·표·키-값 쌍 구조화 추출 |
| 손글씨·도장 인식 | 불가 또는 매우 낮은 정확도 | 인식 가능 |
| 초기 구축 비용 | 개발자 1명·약 6개월 인건비 | 없음 |
| 운영 비용 | 서버 인프라·유지보수 지속 발생 | SaaS 구독 (월 39,000원~) |
기존 OCR이 전혀 쓸모없다는 것은 사실이 아닙니다. 특정 조건에서는 기존 방식이 오히려 더 적합할 수 있습니다. 가장 대표적인 경우는 동일한 양식의 문서를 대량으로 처리해야 할 때입니다. 국세청 e세로 시스템에서 출력되는 전자세금계산서는 공급자 사업자등록번호 10자리, 작성일자, 공급가액, 부가가치세 항목이 항상 동일한 위치에 출력됩니다. 이 구조가 변하지 않는 한, 한번 정의한 규칙으로 수십만 건을 안정적으로 처리할 수 있습니다.
비용 민감도가 극단적으로 높은 환경에서도 기존 OCR이 유리할 수 있습니다. Tesseract는 오픈소스이므로 라이선스 비용이 없습니다. 처리 건수가 매우 많고 양식이 완전히 고정되어 있다면, 서버 비용을 최소화한 자체 구축이 장기적으로 더 저렴하게 계산될 수 있습니다. 다만 이 계산에는 개발자 인건비, 초기 구축 기간, 지속적인 유지보수 공수가 반드시 포함되어야 합니다. 이 항목을 빠뜨리면 비용 비교 자체가 성립하지 않습니다.
인터넷 연결이 불가능한 폐쇄망 환경도 기존 OCR이 유효한 경우입니다. 클라우드 기반 AI OCR SaaS는 외부 서버와의 통신이 필수이므로, 금융기관이나 공공기관의 보안 정책상 망 분리가 적용된 환경에서는 사용하기 어렵습니다. 단, 삼성 SDS Brity 같은 일부 국내 AI OCR 솔루션은 온프레미스 배포 옵션을 제공하고 있으므로, 도입 전에 반드시 확인이 필요합니다.
거래처별로 양식이 다른 PDF 문서를 처리해야 하는 구매·매입 담당 팀에서는 AI OCR이 사실상 필수입니다. 50개 거래처가 있으면 견적서 양식도 50가지입니다. 공급사명 위치, 단가 표기 방식, 합계 계산 구조가 모두 다릅니다. 기존 OCR로 이 환경을 커버하려면 50개의 규칙 세트를 정의하고, 거래처가 양식을 바꿀 때마다 해당 규칙을 수정해야 합니다. AI OCR은 이 모든 양식을 동일한 방식으로 처리합니다.
손글씨가 포함된 문서도 AI OCR 없이는 자동화가 어렵습니다. 현장에서 수기로 작성된 검수 확인서, 서명이 포함된 계약서 별첨, 재고 실사 결과지가 해당됩니다. 기존 OCR은 인쇄된 텍스트에 최적화되어 있어 손글씨 인식 정확도가 매우 낮습니다. AI OCR의 한국어 손글씨 인식 정확도는 85~90% 수준으로, 완벽하지는 않지만 실무에서 사람의 검수 부담을 크게 줄일 수 있는 수준입니다.
금융 문서처럼 발급 기관별로 레이아웃이 제각각인 경우도 마찬가지입니다. 국민은행, 신한은행, 우리은행, 하나은행, 농협 등 시중은행에서 발급하는 거래 내역서나 잔액 증명서는 기관마다 양식이 다릅니다. 카카오뱅크, 토스뱅크처럼 디지털 뱅크가 제공하는 PDF 명세서는 기존 은행 명세서와 레이아웃이 전혀 달라 기존 OCR 규칙으로 처리하기 어렵습니다. 이카운트나 경리나라, 자비스 같은 국내 중소기업 회계 솔루션에 데이터를 입력하기 전 단계에서 다양한 원천 문서를 정제해야 하는 경리팀이 AI OCR을 도입하는 이유가 여기에 있습니다.
Tesseract 기반 자체 OCR 시스템을 구축하는 경우의 실제 비용을 구체적으로 살펴보겠습니다. 백엔드 개발자 1명이 파이프라인 설계, Tesseract 통합, 규칙 엔진 개발, 테스트, 배포까지 완료하는 데 통상 6개월이 소요됩니다. 국내 시니어 백엔드 개발자 평균 월 급여를 550만 원으로 계산하면 개발 인건비만 3,300만 원에 달합니다. 여기에 NCP(Naver Cloud Platform)나 AWS 서버 비용, 오픈소스 엔진 유지보수, 양식 변경 대응을 위한 지속적인 개발 공수가 추가됩니다.
반면 Lido SaaS는 초기 구축 비용이 없습니다. 월 39,000원으로 시작해 처리량에 따라 플랜을 조정합니다. 도입 결정부터 실제 문서 처리까지 걸리는 시간은 수 시간입니다. 세무사랑Pro나 자비스 같은 세무 소프트웨어에서 내보낸 PDF를 Lido에 업로드하면, 별도의 API 연동 개발 없이 구조화된 데이터를 바로 얻을 수 있습니다.
손익분기점을 기준으로 보면, 처리해야 하는 문서 유형이 10가지 이하이고 양식이 거의 변하지 않는다면 자체 구축이 3년 이상 기준으로 유리하게 계산될 수 있습니다. 그러나 문서 유형이 다양하고 양식 변경이 잦거나, 전담 개발팀이 없는 조직이라면 SaaS가 총소유비용(TCO) 기준으로 낮습니다. 국내 중소기업 환경에서 Tesseract 자체 구축의 3년 TCO는 SaaS 구독 대비 5~10배 높게 나타나는 경우가 많습니다.
Naver Clova OCR은 국내에서 가장 넓게 사용되는 AI OCR 서비스입니다. 한국어 문서 인식 정확도가 높고, 일반 문서와 템플릿 기반 추출 두 가지 모드를 모두 지원합니다. NCP 기반으로 API 호출 방식으로 기존 시스템과 연동할 수 있습니다. 단, API 연동 개발 공수가 필요하며 비개발자가 직접 사용하기에는 진입 장벽이 있습니다. NHN Cloud OCR은 영수증, 명함, 사업자등록증, 주민등록증 등 특정 문서 유형에 특화된 모델을 운영하며, 문서 유형이 명확하게 정해진 환경에 적합합니다.
카카오엔터프라이즈는 자사 AI 플랫폼을 통해 문서 분류와 정보 추출 기능을 제공하며, 대형 기업 고객을 주요 대상으로 합니다. 삼성 SDS Brity Works의 문서 처리 모듈은 전사적 문서 자동화가 필요한 대기업 환경에 적합하고, 온프레미스 배포 옵션도 지원합니다. 위셈이나 영림원소프트랩처럼 ERP 솔루션에 문서 인식 기능을 내장하는 방향으로 제품을 확장하는 국내 벤더도 늘고 있습니다.
Lido는 위 솔루션들과 포지셔닝이 다릅니다. API 연동이나 IT팀의 지원 없이 업무 담당자가 직접 사용할 수 있는 SaaS 도구입니다. 월 39,000원이라는 가격은 중소기업이나 스타트업 담당자가 법인 카드로 즉시 결제하고 당일 사용을 시작할 수 있는 수준입니다. 한국어 문서를 지원하며, 거래처별 양식이 다른 견적서·납품서·계약서 같은 비정형 PDF에서 원하는 필드를 지정해 추출하는 데 초점이 맞춰져 있습니다. 더존비즈온 ERP나 이카운트에 데이터를 옮기기 전 단계의 정제 작업에서 담당자가 직접 쓰는 도구로 자리잡고 있습니다.
가능합니다. 양식이 고정된 대용량 문서(예: e세로 출력 전자세금계산서)는 기존 OCR로, 양식이 다양하거나 불규칙한 문서는 AI OCR로 처리하는 이중 파이프라인을 채택하는 기업이 있습니다. 다만 두 가지 시스템을 동시에 운영하면 유지보수 복잡도가 증가합니다. 처리 문서 유형이 혼재되어 있는 경우, 장기적으로는 AI OCR로 일원화하는 것이 관리 부담이 낮습니다.
인식은 가능하지만 정확도는 인쇄 문자보다 낮습니다. 깔끔한 필기체 한국어의 경우 최신 AI OCR 모델은 85~90% 수준의 정확도를 보입니다. 영수증 서명, 현장 확인 사인, 수기 메모 등은 인식이 되지만, 결과를 자동화 파이프라인에 바로 연결하기보다는 담당자 확인 단계를 병행하는 것이 안전합니다. 손글씨 비중이 높은 문서라면 AI OCR이 기존 OCR보다 유의미하게 나은 출발점을 제공합니다.
e세로에서 출력된 표준 양식 전자세금계산서는 기존 OCR로도 충분히 처리할 수 있습니다. 공급자 사업자등록번호 10자리, 작성일자, 공급가액, 부가가치세 항목의 위치가 모든 출력본에서 동일하기 때문입니다. 다만 스캔 품질이 일정하지 않거나, 거래처로부터 받은 PDF가 e세로 표준이 아닌 자체 양식인 경우에는 AI OCR이 더 안정적입니다. 세금계산서와 함께 견적서, 계약서를 한 파이프라인으로 처리해야 한다면 AI OCR로 통일하는 것이 효율적입니다.
Lido는 문서에서 데이터를 추출해 구조화된 형태로 반환하는 도구입니다. 더존비즈온, 영림원소프트랩, 이카운트, 경리나라 등 국내 ERP 및 회계 소프트웨어와의 직접 연동 커넥터를 기본으로 제공하지는 않습니다. 그러나 Lido에서 추출한 데이터를 CSV로 내보낸 다음 ERP에 일괄 업로드하거나, API를 통해 자체 연동 스크립트를 작성하는 방식으로 연결할 수 있습니다. 비개발자 담당자라면 CSV 내보내기 후 수작업 붙여넣기보다 훨씬 빠른 처리가 가능합니다.
업로드하는 문서에 이름, 주민등록번호, 계좌번호 등 개인정보가 포함되어 있다면 개인정보보호법상 제3자 처리 위탁 조항을 확인해야 합니다. 서비스 제공사가 개인정보 처리 수탁자로서 적절한 보안 조치를 갖추고 있는지, 개인정보 처리 방침에 위탁 현황이 공개되어 있는지를 검토해야 합니다. 민감한 문서를 다루는 경우에는 온프레미스 배포 옵션을 지원하는 솔루션을 선택하거나, 문서 업로드 전 개인정보를 마스킹하는 전처리 단계를 도입하는 것이 안전합니다.
문서 자동화로 사업을 키울 준비가 되셨나요? 추가 인력 없이도 가능합니다