OCR PDF: cómo extraer texto de PDFs escaneados

Aplicar OCR a un PDF significa usar reconocimiento óptico de caracteres para convertir las imágenes de texto de un PDF escaneado en texto seleccionable y buscable. Sin OCR, un PDF escaneado es solo una fotografía del documento empaquetada como archivo PDF, y no puedes copiar ni buscar nada en él.

Hay dos tipos de PDF que parecen idénticos en pantalla pero son completamente distintos por dentro. Un PDF nativo contiene texto digital real: puedes hacer clic, seleccionar y copiar sin problema. Un PDF escaneado, en cambio, es una imagen, una foto del papel, guardada en formato PDF. El texto que ves no existe como dato; es solo un patrón de píxeles.

Para trabajar con ese tipo de archivo necesitas OCR (Optical Character Recognition). El proceso analiza los píxeles de cada página, identifica letras y palabras, y genera texto real sobre la imagen o un nuevo archivo editable. Estas son las seis herramientas más utilizadas y cuándo conviene cada una.

¿Qué es el OCR en un PDF?

El OCR es la tecnología que convierte imágenes de texto en texto digital legible por máquinas. Cuando se aplica a un PDF escaneado, el motor examina cada página como una imagen, detecta los caracteres mediante modelos de visión artificial y genera una capa de texto que se superpone a la imagen original o produce un archivo completamente nuevo.

La precisión del resultado depende de varios factores: la resolución de la imagen (se recomiendan mínimo 300 DPI para resultados fiables; por debajo de esa cifra los errores se multiplican), la calidad del escaneo original, el tipo de fuente y el idioma del documento. Los diseños con varias columnas, tablas densas o encabezados complejos también suponen un reto mayor para los motores de reconocimiento, ya que el algoritmo debe reconstruir el orden lógico del texto a partir de la geometría de los bloques.

Dependiendo de la herramienta, el resultado puede ser un PDF con texto seleccionable, un Word editable o datos extraídos en una hoja de cálculo.

6 herramientas para aplicar OCR a un PDF

1. Lido

Lido va un paso más allá del OCR básico: en vez de devolverte el texto en bruto de facturas, albaranes, recibos o pedidos de compra, identifica campos concretos (proveedor, importe total, fecha, número de factura, líneas de pedido) y los vuelca directamente en una hoja de cálculo.

Es útil sobre todo para equipos de contabilidad o compras que procesan lotes recurrentes de documentos escaneados y quieren dejar de teclear datos a mano.

2. Adobe Acrobat Pro

Adobe Acrobat Pro incluye OCR integrado y es la herramienta más extendida en entornos profesionales. Abre el PDF escaneado, ve a Herramientas → Escanear y OCR → Reconocer texto y deja que Acrobat procese el documento página a página. Ofrece alta precisión en documentos con buena calidad de imagen, admite más de 40 idiomas y permite revisar y corregir los errores detectados antes de guardar el archivo definitivo.

El punto débil es el precio: requiere suscripción a Adobe Acrobat Pro (desde unos 24 €/mes). A cambio, el control sobre el resultado es total y el rendimiento se mantiene sólido incluso con documentos largos, varias columnas o tablas.

3. PDF24

PDF24 es una herramienta online gratuita que incluye OCR sin necesidad de cuenta ni instalación. Accede a pdf24.com/es/ocr-pdf, sube el archivo, selecciona el idioma del documento y descarga el PDF resultante con el texto reconocido. Es la opción más rápida para documentos puntuales.

La precisión es buena para documentos con texto claro y resolución de 300 DPI o más. Con escaneos de baja calidad o documentos técnicos con símbolos especiales, los resultados pueden ser menos fiables. Existe un límite de tamaño por archivo en la versión gratuita.

4. ABBYY FineReader

ABBYY FineReader se comporta mejor que la mayoría de alternativas con documentos difíciles: escaneos de baja calidad, idiomas mezclados y diseños con formularios, tablas o columnas múltiples. Está disponible como aplicación de escritorio para Windows y Mac.

El flujo es sencillo: abre el PDF, elige el idioma de reconocimiento (admite más de 190) y exporta a Word, Excel, PDF con texto o EPUB. La diferencia frente a otras herramientas se nota especialmente con documentos escaneados en condiciones adversas: páginas torcidas, texto pequeño, fondos con ruido o caracteres poco comunes.

5. Google Drive

Google Drive ofrece OCR gratuito de forma casi oculta. Sube el PDF escaneado a tu Drive, haz clic derecho sobre el archivo y selecciona Abrir con → Google Docs. Drive procesa automáticamente el archivo y crea un documento de Google Docs con el texto reconocido debajo de la imagen original.

Para documentos sencillos de una sola columna, la precisión es más que aceptable, y en español funciona bien. Con tablas, encabezados o documentos multipágina largos, la estructura se pierde con facilidad. Pero si solo necesitas un OCR rápido y gratis, cumple de sobra.

6. Tesseract

Tesseract es el motor OCR de código abierto mantenido por Google. Es gratuito y extensible, pero está pensado para usuarios técnicos que se manejan con la línea de comandos. Una vez instalado, el comando básico es:

tesseract documento_escaneado.pdf salida -l spa pdf

Admite más de 100 idiomas con los paquetes de datos correspondientes y se puede integrar en scripts y pipelines de automatización. La precisión es comparable a la de soluciones comerciales siempre que el preprocesamiento de la imagen sea correcto: endrezo de páginas, binarización y ajuste de DPI antes de pasarlo por el motor.

Comparación de herramientas OCR para PDF

Herramienta	Gratis	Precisión	Lotes	Idiomas	Mejor para
Lido	Plan gratuito	Alta	Sí	Principales	Extracción de datos de facturas y albaranes
Adobe Acrobat Pro	No (suscripción)	Alta	Sí	40+	Profesionales, documentos complejos
PDF24	Sí	Media	Limitado	Principales	Uso ocasional, sin instalación
ABBYY FineReader	No (prueba gratis)	Muy alta	Sí	190+	Documentos difíciles, multicolumna
Google Drive	Sí	Media	No	Principales	Documentos sencillos, uso puntual
Tesseract	Sí (open source)	Alta*	Sí	100+	Desarrolladores, automatización

*La precisión de Tesseract depende del preprocesamiento correcto de la imagen antes del reconocimiento.

PDF nativo vs PDF escaneado: cómo saber la diferencia

La prueba más rápida es intentar seleccionar texto con el cursor. Si puedes destacar palabras individuales, tienes un PDF nativo y no necesitas OCR. Si el cursor se convierte en una cruz de selección de área o simplemente no responde al clic, el PDF es escaneado y tendrás que procesarlo.

Otras señales que delatan un PDF escaneado:

El texto aparece ligeramente torcido o con márgenes irregulares entre líneas.
Al hacer zoom, el contenido se pixela porque es una imagen, no texto vectorial.
La búsqueda con Ctrl+F no encuentra ningún término aunque el texto sea visible.
El peso del archivo es desproporcionadamente grande para la cantidad de texto que contiene.

Algunos archivos son PDFs híbridos: mezclan páginas escaneadas con páginas nativas. En ese caso, las herramientas con OCR selectivo por página, como Adobe Acrobat Pro o ABBYY FineReader, son las más prácticas, ya que procesan solo las páginas que realmente lo necesitan.

Preguntas frecuentes

¿Cuánta resolución necesita un PDF escaneado para que el OCR funcione bien?

El mínimo recomendado es 300 DPI. Por debajo de esa cifra, los motores OCR empiezan a confundir caracteres similares (por ejemplo, "l" con "1", o "rn" con "m") y la tasa de error sube de forma notoria. A 600 DPI la precisión mejora especialmente en fuentes pequeñas y documentos técnicos con símbolos. Los escaneos a 150 DPI o menos dan resultados poco fiables con cualquier herramienta, independientemente de su calidad.

¿El OCR siempre reconoce el texto correctamente?

No. La precisión depende de la calidad del escaneo, el tipo de fuente, el idioma y la complejidad del diseño. Documentos con marcas de agua, fondos de color, texto manuscrito o tablas muy densas presentan tasas de error más altas. Para documentos críticos siempre conviene revisar el resultado manualmente o utilizar una herramienta que ofrezca corrección asistida, como ABBYY FineReader o Adobe Acrobat Pro.

¿Puedo aplicar OCR a un PDF escrito en varios idiomas a la vez?

Sí, pero no todas las herramientas lo admiten. ABBYY FineReader y Tesseract permiten especificar varios idiomas simultáneamente para el mismo documento, lo que es útil en catálogos técnicos o contratos internacionales con español e inglés mezclados. Adobe Acrobat Pro también gestiona documentos multilingües. Google Drive y PDF24 son más limitados en ese aspecto.

¿El proceso de OCR modifica el PDF escaneado original?

Depende de la herramienta y de cómo guardes el resultado. Herramientas como Adobe Acrobat Pro añaden una capa de texto invisible sobre la imagen original sin borrar ni alterar nada; el PDF resultante tiene un aspecto idéntico al original pero el texto ya es seleccionable y buscable. Otras herramientas generan un archivo completamente nuevo. En cualquier caso, es buena práctica conservar siempre una copia del PDF escaneado original antes de procesarlo.