Blog

OCR PDF: So wenden Sie OCR auf gescannte PDFs an

May 5, 2026

OCR (Optical Character Recognition) wandelt gescannte PDFs in durchsuchbaren Text um. Der Ablauf ist in den meisten Tools gleich: Datei hochladen, Sprache wählen, Ergebnis exportieren. Im B2B-Bereich werden vor allem Lido, Adobe Acrobat Pro, PDF24, ABBYY FineReader, Google Drive und Tesseract eingesetzt.

Was ist OCR bei einem PDF?

OCR steht für Optical Character Recognition. Die Technologie analysiert Bilddaten Pixel für Pixel und ordnet erkannten Mustern Schriftzeichen zu. Bei PDFs sind zwei Grundtypen zu unterscheiden:

Native PDFs enthalten eingebettete Textdaten. Text lässt sich markieren, kopieren und volltextsuchen, ohne dass eine OCR-Verarbeitung nötig ist.

Gescannte PDFs entstehen, wenn gedruckte Seiten mit einem Scanner aufgenommen werden. Jede Seite wird als Rasterbild abgelegt. Erst durch OCR werden die Bildinformationen in lesbaren Text umgewandelt.

Im Arbeitsalltag tauchen gescannte PDFs vor allem bei eingehenden Rechnungen, Altverträgen aus dem Archiv und ausgefüllten Formularen auf.

6 Tools, um OCR auf PDF anzuwenden

1. Lido

Lido ist eine tabellenbasierte Arbeitsumgebung mit OCR-Funktion. Beim Upload einer gescannten PDF überführt Lido den Inhalt in Zeilen und Spalten. Tabellen aus Rechnungen oder Berichten werden übernommen, ohne dass Sie Daten manuell abtippen müssen. Die OCR-Engine unterstützt über 100 Sprachen inklusive Deutsch mit Sonderzeichen. Erkannte Daten lassen sich mit Formeln auswerten, per API weitergeben oder als CSV bzw. JSON exportieren. Typische Einsatzfelder sind Rechnungsverarbeitung und Datenextraktion aus Formularen.

2. Adobe Acrobat Pro

Adobe Acrobat Pro hat die Funktion "Text erkennen" unter Werkzeuge. Sie öffnen die gescannte PDF, wählen die Sprache und starten den Vorgang. Heraus kommt eine durchsuchbare PDF mit demselben Layout. Bei sauberen Scans ist die Erkennung gut. Es werden über 40 Sprachen unterstützt. Der Preis liegt bei ca. 22 Euro pro Monat im Jahresabonnement.

3. PDF24

PDF24 ist ein kostenloser Online-Dienst mit OCR-Funktion. Sie rufen die OCR-Seite auf, laden die gescannte PDF hoch und wählen die Sprache. Eine Registrierung ist nicht nötig. Bei einfachen Dokumenten ist die Erkennung in Ordnung; bei niedrig aufgelösten Scans nimmt die Genauigkeit ab.

4. ABBYY FineReader

ABBYY FineReader ist eine Desktop-Anwendung mit hoher Erkennungsgenauigkeit. Es werden 198 Sprachen unterstützt. Die Software unterscheidet zwischen Text, Tabelle und Grafik. Auch mehrspaltige Layouts und verschachtelte Tabellen werden gut verarbeitet. Eine Bildvorverarbeitung ist enthalten. Der Jahrespreis liegt bei ca. 199 USD.

5. Google Drive

Google Drive enthält integrierte OCR ohne zusätzliche Kosten. Gescannte PDF in Google Drive hochladen, rechtsklicken, "Öffnen mit Google Docs". Drive wandelt das Dokument in bearbeitbares Textdokument um. Über 100 Sprachen. Einschränkungen bei komplexen Tabellen.

6. Tesseract

Tesseract ist quelloffene OCR-Engine, von Google weiterentwickelt. Läuft vollständig lokal; Daten verlassen das Unternehmensnetz nicht. Vorteil für Organisationen mit strengen Datenschutzvorgaben. Über Befehlszeile gesteuert oder über Bibliotheken integriert. Über 100 Sprachen.

ToolGenauigkeitSprachenAusgabeSpeicherortPreis
LidoHoch100+Tabelle, CSV, JSONCloudAuf Anfrage
Adobe Acrobat ProSehr hoch40+PDF, Word, ExcelLokalAb ca. 22 EUR/Monat
PDF24Mittel20+PDFCloudKostenlos
ABBYY FineReaderSehr hoch198PDF, Word, ExcelLokalAb ca. 199 USD/Jahr
Google DriveMittel-hoch100+Google DocsCloudKostenlos
TesseractHoch100+Text, PDF, hOCRLokalOpen Source

Native vs. gescanntes PDF: Wie erkennen Sie den Unterschied?

Es gibt mehrere einfache Wege, das herauszufinden. Versuchen Sie zuerst, einen Textabschnitt mit der Maus zu markieren und in ein anderes Dokument einzufügen. Wenn das funktioniert, handelt es sich um eine native PDF. Auch die Suchfunktion über Strg+F hilft: Findet sie kein Wort, fehlt der durchsuchbare Text.

Beim Hineinzoomen ab 300 Prozent zeigt sich Rasterbild durch pixelige Kanten, während Vektortext scharf bleibt. Auch die Dateigröße gibt Hinweise: Gescannte PDFs liegen oft bei 200 bis 400 KB pro Seite, native unter 50 KB. Im Menü "Eigenschaften" oder "Dokumentinformationen" steht außerdem die Erstellungsanwendung. Ein Scanner-Hersteller im Eintrag bestätigt den Scan-Ursprung.

Häufige Probleme bei OCR PDF

Eine häufige Fehlerquelle ist die zu geringe Auflösung. OCR arbeitet zuverlässig ab 300 DPI. Liegt der Wert darunter, werden Zeichen wie "i" und "l" oder "0" und "O" schnell verwechselt.

Auch mehrspaltige Layouts sorgen oft für Probleme. Einfache Tools lesen die Zeilen über alle Spalten hinweg, was zu Textsalat führt. ABBYY FineReader und Lido erkennen Spaltenlayouts und verarbeiten diese getrennt.

Handschrift ist ein Sonderfall. Standard-OCR ist auf Druckschrift trainiert, für handgeschriebene Texte braucht es spezialisierte Handwriting-Recognition-Modelle.

Auch schlechter Kontrast kann die Erkennung stark beeinträchtigen. Verblasste Tinte, Durchscheinen von der Rückseite oder ein schiefer Scan führen schnell zu Fehlern. In den meisten Tools lässt sich daher eine Bildvorverarbeitung mit Begradigung und Kontrastausgleich aktivieren.

Häufige Fragen

Welche minimale Auflösung wird für OCR empfohlen?

Empfohlen sind mindestens 300 DPI. Bei kleiner Schrift unter 10 Punkt sind 400 DPI sinnvoll. Scans unter 200 DPI führen zu deutlich mehr Fehlern.

Können OCR-Tools deutsche Sonderzeichen erkennen?

Ja, alle vorgestellten Tools unterstützen Deutsch. Mit dem deutschen Sprachpaket liefern vor allem ABBYY FineReader, Lido und Tesseract zuverlässige Ergebnisse.

Wie genau ist moderne OCR-Software?

Bei guten Scans mit 300 DPI erreichen die meisten Tools rund 99 Prozent. Bei schlechter Vorlage sinkt die Genauigkeit deutlich. Eine stichprobenartige Qualitätsprüfung ist daher sinnvoll.

Kann OCR mehrere Sprachen gleichzeitig erkennen?

Ja. ABBYY FineReader, Tesseract (Parameter "deu+eng"), Lido und Adobe Acrobat Pro unterstützen Mehrsprachenerkennung.

Bleibt die Original-PDF-Datei nach OCR-Verarbeitung unverändert?

Adobe Acrobat Pro und ABBYY FineReader legen den erkannten Text als unsichtbare Ebene unter das Bild. Das Erscheinungsbild bleibt also gleich. Google Drive, Lido und PDF24 erzeugen ein neues Ausgabedokument, das Original bleibt unangetastet.

Bereit, Ihr Unternehmen mit Dokumentenautomatisierung zu skalieren — nicht mit mehr Personal?

Schließen Sie sich Hunderten von Teams an, die mit Lido schneller wachsen, indem sie Routinearbeit automatisieren.