이미지 텍스트 추출(OCR)은 JPG·PNG 사진이나 스크린샷 속 글자를 편집·복사 가능한 텍스트로 변환하는 기술입니다. 2026년 기준 무료 모바일 앱부터 월 39,000원대 AI 문서 처리 SaaS까지 총 6가지 도구를 한국어 정확도·일괄 처리 가능 여부·가격 기준으로 상세 비교합니다.
국내 기업 실무에서 이미지 속 텍스트를 꺼내야 하는 상황은 생각보다 자주 발생합니다. 거래처가 견적서를 PDF 대신 PNG 파일로 카카오톡 채널에 전송하거나, 현장 담당자가 회의실 화이트보드를 스마트폰으로 촬영해 공유하는 방식은 이미 보편적인 업무 흐름이 되었습니다.
첫째, 카카오톡으로 받은 영수증 스크린샷입니다. 법인카드 정산 업무에서 직원이 카카오페이 결제 화면을 캡처해 메신저로 전송하면, 경리 담당자는 금액·가맹점명·날짜를 일일이 손으로 입력해야 합니다. 월 50건 이상의 영수증을 처리하는 팀이라면 OCR 자동화만으로도 주당 3~4시간을 절약할 수 있습니다.
둘째, 거래처가 PNG로 보낸 견적서입니다. 공급사가 자사 양식을 이미지로 고정해 발송하는 경우, 품목명·단가·수량·부가가치세 항목을 직접 타이핑해 ERP에 입력해야 합니다. 항목 수가 20~30개를 넘으면 오타 발생 가능성이 높아지고, 단가 오류가 발주서로 그대로 이어지는 사고로 이어지기도 합니다.
셋째, 회의 화이트보드 사진입니다. 브레인스토밍 후 촬영한 칠판 이미지에서 텍스트를 추출하면 회의록 작성 시간을 크게 단축할 수 있습니다. 넷째, 명함 사진입니다. 전시회나 네트워킹 행사 이후 수십 장의 명함을 CRM에 입력할 때 OCR은 필수 도구입니다. 다섯째, 교재나 단행본 페이지를 촬영한 이미지에서 특정 조항이나 수치를 발췌해야 하는 법무·교육 담당자에게도 이미지 텍스트 추출은 핵심 기능입니다. 이 다섯 가지 상황은 모두 수동 입력 시간과 오류율이라는 두 가지 문제를 공유합니다.
OCR 엔진에 입력하는 이미지의 파일 형식과 해상도는 인식 정확도에 직접적인 영향을 미칩니다. JPG(JPEG)는 손실 압축 방식을 사용하기 때문에 촬영 또는 저장 과정에서 이미지 품질이 저하됩니다. 특히 텍스트 경계선 주변에 블록 아티팩트(block artifact)가 생기면 OCR 엔진이 문자를 잘못 인식하는 비율이 올라갑니다. 동일한 문서를 JPG 70% 품질로 저장한 것과 PNG로 저장한 것을 비교 테스트했을 때, 한국어 OCR 정확도 차이가 평균 4~7%포인트 발생한 사례가 보고되어 있습니다.
PNG는 무손실 압축을 사용하므로 스크린샷이나 스캔 이미지를 원본 그대로 보존합니다. 화면 캡처는 대부분 PNG로 저장되어 원본 품질이 유지되기 때문에 OCR 처리에 유리합니다. 반면 스마트폰 카메라로 찍은 실물 문서는 JPG가 기본 저장 형식이며, 이때는 해상도 관리가 더욱 중요해집니다.
해상도는 DPI(Dots Per Inch)로 측정합니다. OCR 업계 표준 권장값은 300 DPI 이상입니다. 스마트폰으로 A4 문서를 촬영할 때 일반적으로 150~200 DPI 수준의 이미지가 생성되므로, 가능하면 문서에 밀착해 촬영하거나 Microsoft Lens처럼 원근 보정 기능을 갖춘 스캔 앱을 사용하는 것이 좋습니다. 명함처럼 작은 문서는 더욱 가까이 촬영해야 글자 크기가 OCR 엔진의 최소 인식 픽셀(보통 8px 이상)을 충족합니다. 조명이 균일하지 않거나 그림자가 생긴 사진도 인식률을 떨어뜨리는 주요 원인이므로, 자연광 아래에서 평평하게 펼친 문서를 수직으로 촬영하는 습관이 OCR 전처리 품질을 결정합니다.
Lido(lido.app)는 이미지·PDF·스캔 문서에서 구조화된 데이터를 추출하도록 설계된 AI 문서 처리 SaaS입니다. 단순히 텍스트를 나열하는 것을 넘어, 견적서의 품목 테이블·금액·공급자 정보, 영수증의 날짜·가맹점명·합계금액처럼 비즈니스 맥락에 맞는 필드를 자동으로 분리해 추출합니다. 가격은 월 $29(약 39,000원)이며, 한국어 문서를 공식 지원합니다.
Lido의 핵심 강점은 일괄 처리(batch processing) 능력입니다. 카카오톡 채널에서 다운로드한 영수증 PNG 파일 100장을 한 번에 업로드하면, 각 파일에서 추출한 데이터가 스프레드시트 형태로 정리됩니다. 더존비즈온 iCUBE나 영림원소프트랩 K-system에 입력할 데이터를 CSV로 내보내는 기능도 지원하므로, ERP 연동 작업 흐름에 자연스럽게 편입됩니다. 이카운트나 경리나라 같은 중소기업용 회계 솔루션 사용자도 CSV 가져오기 기능을 통해 추출 결과를 바로 활용할 수 있습니다.
한국어 정확도 측면에서 Lido는 사업자등록번호 10자리, 부가가치세 세율, 전자세금계산서 항목명처럼 한국 비즈니스 문서에 자주 등장하는 패턴을 학습한 모델을 사용합니다. 거래처가 PNG로 보낸 견적서에서 공급자등록번호·공급가액·세액을 자동으로 분리 추출하는 작업이 가능합니다. 모바일 앱은 별도로 제공되지 않으며, 웹 브라우저에서 파일을 업로드하거나 API를 통해 사내 워크플로에 통합하는 방식으로 사용합니다. 월 처리 건수가 많고 추출 데이터를 곧바로 업무 시스템에 넣어야 하는 팀에게 비용 대비 효과가 높은 선택입니다.
Naver Clova OCR은 네이버클라우드가 제공하는 한국어 특화 OCR API 서비스입니다. 한글 인식률이 높은 이유는 네이버가 한국어 인터넷 문서와 인쇄물 데이터를 대규모로 학습시킨 모델을 기반으로 하기 때문입니다. 영수증·명함·신분증·일반 문서 등 문서 유형별로 최적화된 도메인 모델을 선택해 사용할 수 있습니다.
가격 체계는 월 1,000건까지 무료이며, 이후 건당 요금이 부과됩니다. 2026년 기준 일반 문서 OCR은 1,000건 초과 시 건당 약 4~10원 수준으로 알려져 있습니다(네이버클라우드 콘솔에서 최신 요금 확인 권장). 개발팀이 있는 기업이라면 REST API를 통해 사내 시스템에 직접 통합할 수 있으며, 처리 결과를 JSON 형태로 받아 바로 데이터베이스에 저장하는 파이프라인 구성이 가능합니다. 다만 개발 없이 바로 사용하려는 비개발 직군에게는 진입 장벽이 존재합니다.
한국어 정확도는 시장에서 가장 높은 수준으로 평가받습니다. 특히 손글씨가 섞인 문서나 세로 방향 텍스트, 작은 글씨의 법적 고지 문구처럼 까다로운 조건에서도 경쟁 서비스 대비 우수한 결과를 보여줍니다. 삼성 SDS Brity, NHN Cloud OCR, 카카오엔터프라이즈 엔진과 비교했을 때 한국어 인쇄체 문서 인식 벤치마크에서 우위를 보이는 경우가 많습니다. 다만 추출된 텍스트를 구조화된 데이터로 가공하는 작업은 별도로 처리해야 합니다. 견적서의 품목 테이블을 자동으로 행·열 구조로 분리하려면 추가 개발이 필요하며, 이 점에서 Lido처럼 구조화 추출까지 처리해 주는 서비스와 차이가 생깁니다.
Google Lens는 Android 기본 카메라 앱, 구글 포토, 그리고 iOS 구글 앱에 내장된 이미지 텍스트 인식 기능입니다. 카메라를 문서에 가져다 대거나 갤러리에서 이미지를 선택하면 텍스트를 즉시 인식하고 복사할 수 있습니다. 200여 개 언어를 지원하며 한국어 인식도 가능하지만, 한국어 전용 특화 모델을 사용하는 서비스에 비해 복잡한 레이아웃의 한국어 문서에서 정확도가 낮아질 수 있습니다. 완전 무료이며 별도 가입 없이 사용할 수 있습니다.
네이버 스마트렌즈는 네이버 앱(iOS·Android)에 내장된 시각 검색 기능으로, 카메라나 갤러리 이미지에서 텍스트를 인식하고 복사하는 기능을 제공합니다. 한국어 처리에 특화되어 있어 한글 인쇄체 문서에서 Google Lens보다 나은 결과를 보이는 경우가 많습니다. 인식된 텍스트를 바로 네이버 검색으로 연결하거나 클립보드에 복사할 수 있어 명함 한 장이나 식당 메뉴판처럼 단건 처리에 충분합니다.
두 서비스의 공통적인 한계는 일괄 처리 불가와 비구조화 출력입니다. 텍스트를 인식해 클립보드에 복사해 주지만, 인식된 내용을 스프레드시트 셀이나 데이터베이스 필드에 자동으로 채워 넣는 기능은 없습니다. API를 통한 시스템 연동도 지원되지 않아 대량 처리 업무에서는 활용 범위가 제한됩니다. 월 5건 미만의 일회성 텍스트 추출이라면 이 두 도구가 가장 빠른 선택이지만, 그 이상의 반복 업무라면 다른 도구를 검토할 필요가 있습니다.
Microsoft Lens(구 Office Lens)는 마이크로소프트가 제공하는 무료 모바일 스캔 앱입니다. iOS와 Android 모두 지원하며, 화이트보드·문서·명함·사진 모드를 선택해 촬영하면 원근 보정과 밝기 최적화가 자동으로 적용됩니다. 촬영 후 이미지를 Microsoft Word 파일로 변환하면 내장 OCR이 실행되어 편집 가능한 텍스트 문서가 생성됩니다. 회의 화이트보드 사진에서 텍스트를 추출해 Teams 채널에 공유하는 흐름이 자연스럽게 이어지며, OneDrive 자동 저장과도 연동됩니다.
한국어 지원은 가능하나, 손글씨가 많은 화이트보드 사진에서는 인식률이 70% 수준으로 낮아질 수 있습니다. 인쇄된 한국어 문서 처리 정확도는 약 85~90%로 평가됩니다. 기본 앱은 무료이며, Microsoft 365 Business 구독자는 OneDrive 50GB 이상 저장 공간과 팀즈 공유 기능을 추가로 활용할 수 있습니다. 장당 개별 촬영해야 하므로 일괄 처리는 지원하지 않습니다.
Apple Live Text는 iOS 15 이상, macOS Monterey 이상 기기에서 추가 앱 설치 없이 사용 가능한 기본 기능입니다. 카메라 앱에서 문서를 비추면 텍스트가 실시간으로 인식되어 선택하고 복사할 수 있습니다. 사진 앱에 저장된 이미지에서도 텍스트를 길게 눌러 선택하는 방식으로 작동합니다. 한국어는 iOS 16부터 공식 지원됩니다. iPhone 12 이상에서는 Neural Engine을 활용해 온디바이스(on-device) 처리를 수행하므로 인터넷 연결 없이도 사용 가능합니다. 다만 복잡한 레이아웃의 표나 다단 구성 문서에서는 텍스트 추출 순서가 뒤섞이는 경우가 있어, 정확한 순서가 중요한 문서에는 사후 검토가 필요합니다.
카카오톡은 2023년 이후 채팅창에서 수신한 이미지의 텍스트를 인식하고 복사하는 기능을 탑재했습니다. 사용 방법은 간단합니다. 채팅방에서 받은 이미지를 열어 화면 하단의 텍스트 인식 아이콘을 누르면, 이미지 위에 감지된 텍스트가 하이라이트로 표시됩니다. 원하는 부분을 선택해 복사하거나 전체를 한 번에 복사할 수 있습니다. 카카오엔터프라이즈의 OCR 엔진을 기반으로 하며, 일상적인 인쇄 텍스트에서 충분한 수준의 정확도를 보여줍니다.
이 기능의 가장 큰 장점은 앱 전환 없이 카카오톡 내에서 즉시 처리할 수 있다는 점입니다. 카카오톡으로 받은 영수증 스크린샷, 행사 안내문, 명함 사진에서 전화번호·이메일·주소를 바로 복사하는 용도에 적합합니다. 거래처 담당자가 카카오톡 채널로 보내온 단발성 견적 이미지를 즉시 처리해야 할 때, 별도 도구를 열지 않아도 된다는 편의성이 실질적인 시간 절약으로 이어집니다.
그러나 업무 자동화 관점에서는 한계가 명확합니다. 한 번에 하나의 이미지만 처리할 수 있으며, 추출한 텍스트를 파일로 저장하거나 외부 시스템으로 내보내는 기능이 없습니다. 세무사랑Pro나 자비스에 입력할 데이터를 카카오톡 텍스트 추출로 처리한다면, 결국 복사한 내용을 다시 손으로 붙여넣기 해야 합니다. 매월 50건 이상의 이미지를 반복 처리하는 경리·구매·총무 담당자라면, 단건 수동 처리 방식의 누적 시간 비용을 계산한 뒤 자동화 도구 도입을 검토하는 것이 합리적입니다.
아래 표는 2026년 5월 기준으로 6가지 도구를 한국어 정확도·플랫폼·일괄 처리·구조화 추출·가격 항목으로 정리한 것입니다. 각 서비스의 요금 체계와 기능 세부 사항은 변경될 수 있으므로 공식 웹사이트에서 최신 내용을 확인하시기 바랍니다.
| 도구 | 한국어 정확도 | 플랫폼 | 일괄 처리 | 구조화 추출 | 가격 |
|---|---|---|---|---|---|
| Lido | 높음 | 웹·API | 지원 (100건+) | 지원 (테이블·필드 분리) | $29/월 (약 39,000원) |
| Naver Clova OCR | 최상 (한국어 특화) | API·모바일 SDK | API로 가능 | 도메인 모델 선택 지원 | 월 1,000건 무료, 이후 건당 과금 |
| Google Lens / 네이버 스마트렌즈 | 보통 / 양호 (한국어) | 모바일·웹 | 미지원 | 미지원 | 무료 |
| Microsoft Lens | 양호 (인쇄체 85~90%) | 모바일 | 미지원 | Word 변환 지원 | 무료 (M365 연동 별도) |
| Apple Live Text | 양호 (iOS 16+ 한국어) | iOS·macOS | 미지원 | 미지원 | 무료 (Apple 기기 필요) |
| 카카오톡 텍스트 추출 | 양호 | 모바일 (카카오톡 내) | 미지원 | 미지원 | 무료 |
무료 선택지는 크게 네 가지입니다. Google Lens(Android·iOS), 네이버 스마트렌즈(네이버 앱 내장), Microsoft Lens(iOS·Android 무료 앱), Apple Live Text(iOS 16 이상 기본 기능), 카카오톡 텍스트 추출(카카오톡 내)이 있습니다. 모두 단건 처리에 적합하며 일괄 처리나 시스템 연동은 지원하지 않습니다. Naver Clova OCR은 월 1,000건까지 무료 API를 제공하므로 개발팀이 있는 기업이라면 소규모 자동화에 활용할 수 있습니다.
세 가지 조건을 갖추는 것이 중요합니다. 첫째, 조명을 균일하게 유지합니다. 그림자나 빛 반사가 생기지 않는 환경에서 촬영합니다. 둘째, 문서를 평평하게 펼치고 카메라를 수직으로 세워 촬영합니다. 기울어진 각도는 원근 왜곡을 유발하고 OCR 정확도를 낮춥니다. 셋째, 가능하면 Microsoft Lens처럼 원근 보정 기능이 내장된 앱을 사용합니다. 해상도는 300 DPI 이상이 권장되며, A4 문서 기준으로 약 2,480×3,508픽셀 이상의 이미지를 확보하면 대부분의 OCR 엔진에서 안정적인 결과를 얻을 수 있습니다.
카카오톡 내장 텍스트 추출 기능만으로는 엑셀 변환이 불가능합니다. 텍스트 복사까지만 지원하며, 품목·단가·수량·세액을 자동으로 행·열 구조로 분리하는 기능은 없습니다. PNG 견적서를 엑셀 데이터로 변환하려면 Lido처럼 구조화 추출을 지원하는 서비스를 사용하거나, Naver Clova OCR API로 텍스트를 추출한 뒤 별도 파싱 로직을 개발해야 합니다. Lido는 추출 결과를 CSV로 내보낼 수 있어 엑셀에서 바로 열 수 있습니다.
한국어 인쇄체 문서 기준으로는 Naver Clova OCR이 시장에서 가장 높은 인식 정확도를 보입니다. 한국어 데이터를 대규모로 학습한 전용 모델을 사용하며, 영수증·명함·일반 문서 등 도메인별 모델도 제공합니다. 다만 Clova OCR은 API 개발이 필요합니다. 개발 없이 바로 사용 가능한 도구 중에서는 Lido가 한국어 비즈니스 문서(사업자등록번호, 세금계산서 항목 등)에서 높은 정확도와 구조화 추출 기능을 함께 제공합니다.
일괄 처리(batch processing)를 지원하는 도구는 Lido와 Naver Clova OCR 두 가지입니다. Lido는 웹 인터페이스에서 수백 개의 이미지 파일을 한 번에 업로드하고 처리 결과를 스프레드시트나 CSV로 내보낼 수 있어, 개발 없이 대량 처리가 필요한 팀에 적합합니다. Naver Clova OCR은 API 호출 방식으로 대량 처리가 가능하지만 개발팀의 구현이 전제됩니다. 구글 렌즈, 네이버 스마트렌즈, Microsoft Lens, Apple Live Text, 카카오톡 텍스트 추출은 모두 단건 처리만 지원합니다.
문서 자동화로 사업을 키울 준비가 되셨나요? 추가 인력 없이도 가능합니다