Blog

PDF 표 추출 자동화 6가지: 데이터 분석 시간 단축 (2026)

May 21, 2026

2026년 현재 PDF 표 추출을 자동화하는 주요 도구는 Lido, Adobe Acrobat Pro, Tabula, Camelot, Microsoft Excel PDF 가져오기, ABBYY FineReader 6가지입니다. 분기별 재무 보고서나 은행 거래내역서처럼 병합 셀이 많거나 한국어 헤더가 포함된 문서에는 AI 기반 방식이 전통적인 좌표 기반 추출보다 데이터 정확도를 뚜렷하게 높여 줍니다.

PDF 표 추출이 어려운 이유: 병합 셀과 한국어 인식의 구조적 문제

PDF는 원래 화면 출력과 인쇄를 위해 설계된 형식이라 셀 좌표, 행·열 구조, 데이터 관계 같은 정보를 별도로 저장하지 않습니다. 일반 텍스트 파일이나 Excel 통합 문서와 달리 PDF 내부에는 각 글자의 위치 좌표만 기록됩니다. 따라서 추출 도구는 수백, 수천 개의 좌표 데이터를 분석하여 "이 텍스트들이 같은 셀에 속하는가"를 추론해야 합니다.

한국 기업 현장에서 주로 다루는 문서, 즉 분기별 재무 보고서, 거래처 정산 내역, 은행 거래내역서, 증권사 리포트에는 특히 세 가지 난관이 존재합니다. 첫째는 병합 셀입니다. 금융감독원 DART 공시 자료나 회계감사 보고서에는 상위 범주를 나타내기 위해 여러 행 또는 열에 걸쳐 병합된 헤더가 자주 등장합니다. 전통적인 좌표 기반 알고리즘은 병합 셀의 경계를 정확히 찾지 못하여 데이터를 엉뚱한 행에 배치하거나 일부를 통째로 누락합니다. 둘째는 스캔 PDF입니다. 종이 문서를 스캔한 PDF에는 텍스트 레이어가 없기 때문에 OCR 처리를 먼저 거쳐야 하는데, 이 과정에서 한국어 특유의 받침 결합 구조가 오인식되면 금액 데이터가 깨지거나 계정 과목명이 잘못 인식됩니다. 셋째는 비균일 표 구조입니다. 국내 증권사 리포트의 재무 요약표처럼 열 너비가 불규칙하거나 구분선이 없는 표는 알고리즘이 열 경계를 추정하기 어렵습니다.

실무 담당자 입장에서 표 추출 오류 1건당 평균 15분에서 20분의 수작업 검토 및 수정 시간이 발생합니다. 100페이지 감사 자료에 표가 30개 포함되어 있을 때, 추출 정확도가 70%인 도구와 97%인 도구 사이의 차이는 단순한 편의의 문제가 아니라 주당 수 시간의 업무 차이입니다. 도구 선택이 데이터 분석 전체 프로세스의 효율에 직접적인 영향을 미친다는 점을 먼저 이해해야 합니다.

lattice 방식과 stream 방식의 차이: 어떤 PDF에 무엇을 써야 하는가

PDF 표 추출 알고리즘은 크게 lattice 방식과 stream 방식 두 가지로 나뉩니다. 이 둘의 차이를 이해하면 Tabula나 Camelot 같은 도구에서 어떤 설정을 선택해야 하는지, 그리고 왜 일부 도구가 특정 문서에서 실패하는지를 파악할 수 있습니다.

lattice 방식은 PDF 페이지에 실제로 그려진 선(line segment)을 감지하여 표의 격자를 파악합니다. 셀 경계선이 명확하게 그어진 표, 예를 들어 더존비즈온이나 이카운트에서 출력된 거래명세서 또는 전자세금계산서 PDF에 매우 적합합니다. 선이 있으면 알고리즘이 격자를 정확하게 재구성할 수 있으므로 병합 셀도 비교적 잘 처리합니다. 다만 인쇄된 선이 스캔 과정에서 흐릿하게 변했거나 배경 음영으로 경계를 표현한 경우에는 정확도가 급격히 떨어집니다.

stream 방식은 선 정보를 무시하고 텍스트 좌표 간의 공백 패턴을 분석하여 열 경계를 추정합니다. 국민은행, 신한은행, 우리은행 같은 시중 은행의 거래내역서 PDF처럼 선 없이 여백으로만 열을 구분한 문서에 적합합니다. 그러나 열 너비가 불규칙하거나 숫자와 텍스트가 혼재하면 열 경계 추정이 어긋나 데이터가 인접 열로 밀려나는 오류가 발생합니다. 하나은행이나 농협은행 거래내역처럼 적요 텍스트 길이가 제각각인 경우가 대표적입니다.

AI 기반 표 추출은 이 두 방식의 제약을 다른 방법으로 접근합니다. 사전 학습된 문서 이해 모델이 페이지 레이아웃 전체를 시각적으로 분석하여 표의 영역, 행과 열의 구분, 병합 셀의 범위를 동시에 판단합니다. 선의 유무나 공백 패턴에 의존하지 않기 때문에 lattice와 stream 방식 모두 어려움을 겪는 복합 구조 표에서도 일관된 결과를 냅니다. 단, AI 방식도 고해상도 스캔이 아닌 저화질 이미지 PDF에서는 OCR 품질에 따라 성능이 달라집니다.

Lido: AI 기반 문서 추출로 병합 셀과 한국어 표를 한 번에 처리

Lido(lido.app)는 AI 문서 데이터 추출 SaaS로, PDF를 비롯한 다양한 문서에서 구조화된 데이터를 자동으로 추출합니다. 월 29달러(약 39,000원) 플랜부터 시작하며 한국어 문서를 지원합니다. 코드 작성 없이 브라우저에서 바로 사용할 수 있어 개발 인력이 없어도 도입할 수 있습니다.

한국 기업 업무 맥락에서 Lido가 두드러지는 부분은 병합 셀 처리 정확도입니다. 금융감독원 DART에서 내려받은 사업보고서의 재무상태표처럼 상위 분류 항목이 여러 행에 걸쳐 병합된 경우, AI 모델이 셀 병합 구조를 인식하여 데이터를 올바른 행에 배치합니다. 국내 증권사 리포트의 분기 실적 요약표처럼 헤더가 2-3행에 걸쳐 계층 구조로 구성된 표도 처리 가능합니다.

은행 거래내역서 처리에서도 실용적입니다. 국민은행, 하나은행, 카카오뱅크, 토스뱅크 등에서 발급하는 거래내역 PDF는 은행마다 컬럼 구성과 날짜 형식이 다릅니다. Lido에서는 추출 필드를 사용자가 직접 지정할 수 있어 각 은행 양식에 맞는 추출 규칙을 만들어 반복 적용할 수 있습니다. 매월 정기적으로 처리해야 하는 정산 업무라면 동일한 규칙을 저장해 두고 재사용하면 됩니다.

일괄 처리 기능도 실무 효율에 직접적으로 영향을 줍니다. 분기마다 30-50개의 거래처 정산 PDF를 처리해야 하는 경우, 파일을 한 번에 업로드하면 Lido가 각 파일에서 지정된 표 데이터를 추출하여 하나의 스프레드시트로 합칩니다. 이 과정에서 사업자등록번호 10자리, 부가가치세 금액, 공급가액 같은 특정 필드만 선택적으로 추출하는 것도 가능합니다.

스캔 PDF 처리도 지원합니다. 종이로 보관하던 과거 자료를 스캔한 감사 자료나 거래명세서를 처리할 때, 별도의 OCR 소프트웨어를 거칠 필요 없이 Lido에서 직접 업로드하면 됩니다. 다만 스캔 해상도가 200 DPI 미만이거나 문서가 기울어진 경우에는 추출 정확도가 낮아질 수 있으므로, 중요 문서는 300 DPI 이상으로 스캔하여 처리하기를 권장합니다.

Adobe Acrobat Pro: 단일 문서 정밀 작업에 검증된 유료 솔루션

Adobe Acrobat Pro는 PDF 편집 소프트웨어의 대표 제품으로, 표 데이터를 Excel 또는 CSV로 내보내는 기능을 기본으로 제공합니다. 2026년 현재 한국 기준 개인용 플랜은 월 약 32,000원이며 기업용 연간 계약 옵션도 있습니다.

Acrobat Pro의 PDF to Excel 변환 기능은 텍스트 레이어가 있는 디지털 원본 PDF에서 비교적 높은 정확도를 보입니다. 특히 Microsoft Office에서 직접 PDF로 내보낸 재무 보고서나 표준 양식 문서에서는 셀 구조가 잘 유지되는 편입니다. 변환 후 Acrobat 내에서 미리보기로 결과를 확인하고 수정할 수 있어 단일 문서를 꼼꼼히 처리할 때 편리합니다.

그러나 병합 셀 처리는 Acrobat Pro의 약점입니다. 국내 증권사가 발행하는 기업 분석 리포트의 재무제표 요약표처럼 다중 레벨 헤더가 있는 경우, Acrobat은 병합된 셀을 개별 셀로 분리하거나 빈 셀로 처리하여 데이터 재정리 작업이 추가로 필요합니다. 스캔 PDF의 경우 Acrobat의 '텍스트 인식' 기능을 먼저 수행해야 하는데, 한국어 인식 정확도는 영문 대비 다소 낮습니다. 일괄 처리는 Acrobat Pro의 '액션 위저드' 기능으로 자동화할 수 있지만 설정이 복잡하고 파일 수가 많아질수록 처리 시간이 길어집니다.

Tabula와 Camelot: 개발자 환경에서 쓰는 무료 오픈소스 선택지

Tabula는 Java 기반 오픈소스 PDF 표 추출 도구로, 웹 인터페이스와 커맨드라인 인터페이스를 모두 제공합니다. 완전 무료이며 MIT 라이선스로 상업적 이용이 가능합니다. Python의 tabula-py 래퍼 라이브러리를 통해 데이터 파이프라인에 통합하기도 쉽습니다. Camelot은 Python 전용 라이브러리로 lattice와 stream 두 가지 파서를 명시적으로 선택해 사용할 수 있으며, 추출 정확도를 수치(accuracy score)로 반환하는 기능이 있어 품질 모니터링에 유용합니다.

두 도구 모두 텍스트 레이어가 있는 PDF에서만 정상 작동합니다. 스캔 PDF는 지원하지 않으며 처리하려면 먼저 Naver Clova OCR, NHN Cloud OCR, 또는 Tesseract를 통해 텍스트 레이어를 추가해야 합니다. 이 사전 작업 자체가 별도의 개발 공수를 요구하므로 전체 도입 비용을 계산할 때 반드시 포함해야 합니다.

한국어 헤더 인식 측면에서 Tabula와 Camelot은 한국어를 별도로 지원하지는 않지만, 텍스트 레이어가 올바르게 인코딩된 PDF라면 한글 텍스트를 정상적으로 추출합니다. 다만 더존비즈온, 세무사랑Pro, 영림원소프트랩에서 출력된 PDF 중 일부는 특수 인코딩이 적용되어 한글이 깨지거나 추출되지 않는 경우가 있습니다. 이런 경우 pdfplumber나 PyMuPDF 같은 대안 라이브러리를 시도할 수 있습니다.

병합 셀 처리에서는 두 도구 모두 한계가 뚜렷합니다. Camelot의 lattice 파서는 선이 명확한 표에서 일부 병합 셀을 처리하지만, 셀이 3개 이상 병합된 복합 구조에서는 데이터가 분리되거나 빈 행이 생성됩니다. 정기적으로 대량의 표준화된 PDF를 처리해야 하는 개발팀이라면 Camelot으로 기본 추출을 수행하고 후처리 스크립트로 병합 셀을 재조합하는 파이프라인을 구성하는 방식이 현실적입니다.

Microsoft Excel PDF 가져오기와 ABBYY FineReader: 간편 도구와 고정밀 OCR 솔루션

Microsoft Excel 2021 및 Microsoft 365는 '데이터 가져오기' 메뉴에서 PDF 파일을 직접 불러오는 기능을 제공합니다. 이미 설치된 Excel만 있으면 추가 소프트웨어 없이 바로 사용할 수 있어 접근성이 높습니다. 내부적으로 Power Query 엔진을 사용하며 표 경계 인식은 상대적으로 단순한 알고리즘에 기반합니다.

실무에서의 한계는 구조가 복잡해질수록 빠르게 드러납니다. 농협은행이나 우리은행 거래내역처럼 열이 많고 금액 자릿수가 긴 표에서는 열 배치가 어긋나는 오류가 발생하고, 병합 셀은 대부분 무시되거나 첫 번째 셀에만 내용이 들어갑니다. 한국어 PDF에서 한글이 깨지는 현상도 간헐적으로 보고됩니다. 회계 담당자 1-2명이 월 10개 미만의 단순한 표를 처리하는 환경이라면 충분하지만, 그 이상의 규모와 정확도가 필요하다면 전용 도구를 검토해야 합니다.

ABBYY FineReader는 OCR과 문서 변환 분야에서 오랜 역사를 가진 소프트웨어로, 스캔 PDF와 이미지 기반 문서 처리에서 높은 정확도를 보입니다. PDF to Excel 변환 시 한국어를 포함한 다국어 인식을 지원하며 병합 셀 구조도 상당 부분 보존합니다. ABBYY FineReader PDF 16 기준 영구 라이선스는 약 199달러(약 268,000원)이며 연간 구독 옵션도 있습니다.

ABBYY의 강점은 스캔 품질이 낮은 문서에서도 OCR 정확도를 유지하는 이미지 전처리 기능입니다. 기울어진 스캔, 얼룩, 저해상도 이미지에 대한 자동 보정 기능이 있어 오래된 종이 문서를 디지털화하는 작업에 적합합니다. 일괄 처리 기능은 제공되지만 API 연동이나 자동화 파이프라인 구성에는 FineReader Server 같은 상위 제품이 필요하며 비용이 크게 올라갑니다. 삼성 SDS Brity나 카카오엔터프라이즈 OCR처럼 클라우드 기반 솔루션과 달리 ABBYY는 서버 설치형 옵션이 있어 데이터를 외부로 전송하지 않아도 된다는 점이 보안 민감 업종에서는 장점입니다.

6가지 도구 상세 비교표

아래 비교표는 한국 기업 업무 환경에서 자주 접하는 PDF 유형을 기준으로 각 도구의 주요 특성을 정리한 것입니다. '병합 셀'은 2개 이상 행 또는 열 병합 구조 처리 여부, '한국어 헤더'는 한국어 텍스트 정상 추출 여부를 기준으로 평가하였습니다.

도구 추출 방식 병합 셀 처리 한국어 헤더 스캔 PDF 일괄 처리 코드 필요 비용 (참고)
Lido AI 문서 이해 우수 지원 지원 지원 불필요 월 약 39,000원~
Adobe Acrobat Pro 레이아웃 분석 보통 지원 OCR 후 처리 제한적 불필요 월 약 32,000원~
Tabula lattice / stream 제한적 조건부 지원 미지원 CLI 활용 선택 무료
Camelot (Python) lattice / stream 제한적 조건부 지원 미지원 스크립트 필요 무료
Excel PDF 가져오기 Power Query 미흡 간헐적 오류 미지원 제한적 불필요 Microsoft 365 포함
ABBYY FineReader OCR + 레이아웃 양호 지원 우수 지원 불필요 영구 라이선스 약 268,000원

업무 유형별 최적 도구 선택 가이드

도구 선택은 처리해야 하는 문서 유형, 담당자의 기술 수준, 처리량, 허용 비용 네 가지 기준으로 결정하면 됩니다. 모든 도구가 모든 상황에 적합하지는 않으므로, 실제 업무 조건에 맞춰 판단해야 합니다.

분기별 감사 보고서나 금융감독원 공시 PDF처럼 병합 셀이 많고 구조가 복잡한 문서를 비개발자가 처리해야 한다면 Lido가 적합합니다. 코드 없이 브라우저에서 파일을 업로드하고 추출 필드를 지정하면 결과를 Excel로 내려받을 수 있어, 회계팀이나 경영지원팀 담당자가 IT 지원 없이 직접 운용할 수 있습니다. 사업자등록번호 10자리, 부가가치세 세액, 공급가액처럼 반복적으로 추출해야 하는 필드를 템플릿으로 저장해 두면 처리 속도가 더욱 빨라집니다.

월 5-10개 수준의 단순 표가 포함된 표준 계약서나 거래명세서를 처리하는 경우라면 Adobe Acrobat Pro나 Excel PDF 가져오기로 충분합니다. 이미 Adobe 또는 Microsoft 365 라이선스를 보유하고 있다면 추가 비용 없이 바로 사용할 수 있습니다. 다만 결과를 매번 사람이 검토해야 하는 시간을 고려한 실질 비용과 비교하는 것이 좋습니다.

정기적으로 수십 개의 PDF를 처리하는 데이터 파이프라인을 구성해야 하고 개발 인력이 있는 환경이라면, Camelot Python 라이브러리를 기반으로 자동화 스크립트를 작성하는 방법이 장기적으로 비용 효율적입니다. 다만 병합 셀이 많거나 스캔 문서가 포함된다면 전처리와 후처리 스크립트 개발 공수를 반드시 초기 계획에 포함해야 합니다. 예상보다 긴 개발 기간과 유지보수 부담이 발생하는 경우가 많습니다.

스캔 품질이 낮은 오래된 문서를 디지털화하거나 인터넷 연결 없이 로컬 환경에서 처리해야 하는 보안 요건이 있는 환경에서는 ABBYY FineReader가 현실적인 선택입니다. 경리나라, 자비스, 위셈, SAP Korea 같은 ERP나 회계 SaaS를 이미 사용 중인 기업이라면 해당 플랫폼의 PDF 가져오기 기능을 먼저 확인하는 것도 좋습니다. 이미 사용 중인 소프트웨어에서 기본 추출을 수행하고 복잡한 문서에 한해 전용 도구를 보조적으로 활용하면 전환 비용을 최소화하면서 처리 효율을 높일 수 있습니다.

자주 묻는 질문

스캔 PDF에서 표를 추출하려면 어떤 도구를 써야 하나요?

스캔 PDF는 텍스트 레이어가 없어 Tabula나 Camelot처럼 좌표 기반 도구로는 처리할 수 없습니다. Lido는 스캔 PDF를 업로드하면 내부적으로 OCR을 수행한 뒤 표를 추출하므로 별도 소프트웨어 없이 사용할 수 있습니다. ABBYY FineReader도 스캔 품질이 낮은 문서에 대한 이미지 전처리 기능이 있어 높은 정확도를 유지합니다. Adobe Acrobat Pro는 '텍스트 인식' 기능으로 스캔 PDF를 전처리할 수 있지만 한국어 정확도가 다소 낮습니다. 처리할 문서가 300 DPI 이상으로 스캔되어 있다면 AI 기반 도구에서 더 나은 결과를 기대할 수 있습니다.

은행 거래내역서 PDF에서 입금과 출금 금액이 엉뚱한 열에 들어가는 이유는 무엇인가요?

국민은행, 신한은행, 우리은행 등 시중 은행의 거래내역 PDF는 대부분 선 없이 공백으로만 열을 구분한 형태입니다. stream 방식 알고리즘은 공백 폭을 기준으로 열 경계를 추정하는데, 적요 텍스트 길이가 가변적이면 열 경계 추정이 어긋납니다. 이로 인해 입금 금액이 출금 열에, 잔액이 입금 열에 들어가는 오류가 생깁니다. AI 기반 도구는 열의 의미를 문맥으로 파악하기 때문에 이런 오류가 줄어들며, Lido에서는 추출 필드를 수동으로 지정하여 각 은행 양식에 맞는 규칙을 저장할 수 있습니다.

더존비즈온이나 이카운트에서 출력한 PDF에서 한글이 깨지는 경우 어떻게 해결하나요?

일부 국내 ERP 소프트웨어에서 출력하는 PDF는 폰트를 PDF 내부에 완전히 포함하지 않거나 특수 인코딩을 사용합니다. 이 경우 pdfplumber 또는 PyMuPDF 같은 라이브러리가 Tabula보다 한글 추출이 더 안정적입니다. Adobe Acrobat에서 해당 PDF를 열어 '다른 이름으로 저장' 기능으로 재저장하면 폰트 임베딩 문제가 해결되는 경우도 있습니다. 가장 확실한 방법은 원본 소프트웨어에서 PDF 출력 설정 시 '폰트 포함' 옵션을 켜거나, Lido처럼 이미지 기반 AI 처리를 지원하는 도구를 사용하는 것입니다.

분기마다 50개 이상의 거래처 정산 PDF를 처리해야 하는데, 어떤 방식이 가장 효율적인가요?

처리량이 분기당 50개 이상이라면 매번 수동으로 파일을 열어 변환하는 방식은 시간 낭비입니다. Lido의 일괄 업로드 기능을 사용하면 파일을 한꺼번에 업로드하고 지정된 추출 규칙을 전체 파일에 적용하여 결과를 하나의 스프레드시트로 받을 수 있습니다. 개발팀이 있다면 Camelot Python 라이브러리와 폴더 감시 스크립트를 결합하여 특정 폴더에 파일이 추가될 때 자동으로 추출이 실행되는 파이프라인을 구성할 수도 있습니다. 두 방식 모두 구현 전에 실제 파일 5-10개로 정확도를 먼저 검증하는 과정을 거치는 것이 중요합니다.

lattice 방식과 stream 방식 중 어떤 것을 선택해야 하는지 모를 때는 어떻게 판단하나요?

PDF를 열었을 때 표의 각 셀에 눈에 보이는 테두리 선이 그려져 있다면 lattice 방식을 먼저 시도합니다. 전자세금계산서, 거래명세서, 계약서 별표 같은 문서가 여기에 해당합니다. 반대로 열이 공백으로만 구분되고 선이 없다면 stream 방식을 사용합니다. 은행 거래내역서, 증권사 리포트의 실적 요약, 급여 명세서 같은 문서가 여기에 해당합니다. Camelot을 사용한다면 두 방식을 모두 실행해 보고 accuracy 점수가 높은 쪽을 선택하면 됩니다. 어느 쪽 방식으로도 정확도가 만족스럽지 않다면 AI 기반 도구로 전환하는 것이 실질적으로 더 빠릅니다.

문서 자동화로 사업을 키울 준비가 되셨나요? 추가 인력 없이도 가능합니다

Lido와 함께 반복 업무를 자동화하며 더 빠르게 성장하는 수백 개 팀에 합류하세요.