Blog

Cómo convertir un PDF escaneado a Excel: 5 métodos

May 5, 2026

Para convertir un PDF escaneado a Excel necesitas una herramienta con OCR (reconocimiento óptico de caracteres), no un conversor estándar. Los conversores normales fallan porque el PDF escaneado es solo una imagen: no existe capa de texto que extraer. Con OCR, el software analiza la imagen carácter por carácter y reconstruye los datos en celdas de Excel.

Convertir un PDF escaneado a Excel parece sencillo hasta que lo intentas. Abres Excel, usas la importación de datos, y obtienes una imagen incrustada o directamente un error. El motivo es que un PDF escaneado no funciona como un PDF normal: es, en términos técnicos, una fotografía del documento original envuelta en un contenedor PDF. No hay texto, no hay estructura de tabla, solo píxeles organizados en una imagen. Para extraer información de ese archivo necesitas un paso que los conversores básicos no incluyen: el reconocimiento óptico de caracteres.

Por qué los conversores normales fallan con PDFs escaneados

Existen dos tipos de PDF muy diferentes entre sí, aunque desde fuera parezcan iguales. El PDF nativo o digital se genera directamente desde un programa como Word, Excel, un sistema contable o una aplicación web. Contiene texto real, datos seleccionables y, en muchos casos, tablas con estructura codificada. Puedes hacer clic sobre el texto, copiarlo y pegarlo en otro programa sin perder información.

El PDF escaneado es otra cosa. Alguien tomó un documento físico, lo pasó por un escáner o lo fotografió con el móvil, y guardó esa imagen como PDF. El contenido del archivo es una imagen de mapa de bits: una cuadrícula de píxeles con distintos valores de color. No hay caracteres, no hay palabras, no hay celdas. Solo una representación visual de lo que en algún momento fue un documento con estructura.

Cuando usas Power Query en Excel, Tabula, o cualquier conversor online básico, esas herramientas buscan la capa de texto del PDF. En un PDF nativo, la encuentran y la extraen con bastante fidelidad. En un PDF escaneado no hay nada que buscar: la herramienta "ve" una imagen, igual que si intentaras copiar texto de una fotografía impresa. El resultado es un archivo Excel vacío, un mensaje de error o, en el mejor de los casos, una imagen incrustada en una celda que no puedes editar ni calcular.

El OCR soluciona esto analizando la imagen píxel por píxel para identificar patrones que corresponden a caracteres del alfabeto, cifras y signos de puntuación. Los motores de OCR modernos también intentan detectar la estructura del documento: qué zonas son encabezados, qué zonas son párrafos y qué zonas son tablas con filas y columnas. La detección de tablas es lo que más importa para la conversión a Excel, y también lo más difícil de hacer bien. Es la principal diferencia entre las herramientas que verás a continuación.

La calidad del resultado no depende solo de la herramienta: depende en gran medida de la calidad del escaneado original. Un documento escaneado a alta resolución, bien encuadrado y con buen contraste puede convertirse con gran precisión. Un documento fotografiado con el móvil bajo luz artificial, con sombras y ligera inclinación, va a generar errores con cualquier herramienta. Por eso el mismo método funciona bien en un caso y da resultados inutilizables en otro.

5 métodos para convertir un PDF escaneado a Excel

Los métodos siguientes van de más a menos precisión, con diferencias de coste, facilidad de uso y casos de uso distintos. No hay una opción universalmente mejor: la elección correcta depende de la calidad de tus documentos, la frecuencia con la que los conviertes y el presupuesto disponible.

1. Lido

Lido está diseñado para un problema diferente al que resuelven los conversores individuales: la extracción automatizada de datos de documentos escaneados que llegan de forma recurrente. Si cada semana recibes el mismo tipo de facturas, albaranes o informes escaneados y necesitas llevar esos datos a una hoja de cálculo, la pregunta pasa de "cómo convierto este archivo" a "cómo dejo de hacer esto manualmente cada vez que llega un documento nuevo".

Lido permite configurar la extracción una vez, definir qué campos te interesan y dónde deben ir en la hoja de cálculo, y aplicar esa configuración automáticamente a cada nuevo documento que llegue. Además de extraer texto, entiende la estructura del documento y mapea los datos directamente a las columnas correctas. Esto elimina el paso de limpieza y reorganización que requieren todos los métodos anteriores, que en documentos complejos puede llevar tanto tiempo como la conversión misma.

Puedes explorar Lido en lido.app. Tiene más sentido cuando la conversión de PDFs escaneados es un proceso operativo que se repite con regularidad. Para una conversión ocasional, cualquiera de los métodos anteriores es más adecuado.

2. Adobe Acrobat Pro

Adobe Acrobat Pro es la herramienta más utilizada para trabajar con PDFs escaneados. La conversión está integrada en la interfaz: abres el archivo, vas al menú "Exportar a" y seleccionas Microsoft Excel como formato de destino. Acrobat detecta automáticamente si el PDF tiene capa de texto o no, y activa el OCR cuando es necesario sin que tengas que configurar nada adicional. Su motor OCR es maduro y maneja bien la mayoría de situaciones que se encuentran en documentos de empresa.

La fidelidad en la reconstrucción de tablas es superior a la de casi todas las alternativas gratuitas. Acrobat intenta preservar el número de columnas, el ancho aproximado de cada una y la alineación de los datos. En tablas con celdas combinadas o encabezados multinivel, los resultados no son perfectos, pero necesitas menos corrección manual que con otras herramientas. Además, gestiona correctamente los formatos numéricos regionales, incluyendo el español con coma decimal, aspecto que abordaremos en detalle más adelante.

El inconveniente principal es el precio. La suscripción de Acrobat Pro cuesta alrededor de 24 euros al mes, lo que no es razonable si solo necesitas convertir un archivo de vez en cuando. Tiene sentido económico si ya tienes una suscripción activa o si conviertes documentos escaneados con suficiente regularidad como para que el tiempo ahorrado justifique el coste. Es la mejor opción para informes financieros, extractos bancarios o cualquier documento donde un error numérico tenga consecuencias reales.

3. iLovePDF (modo OCR)

iLovePDF es un conversor online que incluye OCR en su herramienta de conversión a Excel, pero con un detalle que mucha gente pasa por alto: el OCR no está activado por defecto. Cuando accedes a la herramienta "PDF a Excel" de iLovePDF, verás una opción llamada "Reconocimiento de texto (OCR)" que debes activar manualmente antes de subir el archivo. Si no lo haces, el conversor intentará extraer texto directamente del PDF y fallará con cualquier documento escaneado.

El flujo correcto es el siguiente: accede a la herramienta en ilovepdf.com, activa la opción de OCR, selecciona el idioma del documento (elige español para documentos en ese idioma), sube el archivo y descarga el resultado. El OCR de iLovePDF funciona de forma aceptable con escaneados de buena calidad: documentos nítidos, sin inclinación visible y con tipografías estándar como Arial, Times New Roman o similares. Los errores aumentan con documentos de baja resolución, páginas con fondos de color o texto en cursiva.

La versión gratuita tiene límites de tamaño de archivo y de número de conversiones diarias. Para uso ocasional con documentos simples, es una solución funcional que no requiere instalar software ni registrarse en ninguna plataforma. Los formatos numéricos en español son el punto débil: iLovePDF no tiene configuración regional para los separadores decimales y puede interpretar los números con las convenciones en inglés. Si los importes son críticos, revisa los números después de convertir.

4. Google Drive con Google Docs

Google Drive tiene una función de OCR integrada que mucha gente desconoce. Cuando abres un PDF directamente en Google Docs, Drive procesa el archivo e intenta extraer su contenido mediante reconocimiento óptico de caracteres. Este proceso es gratuito, no requiere instalar ningún programa y está disponible para cualquier persona con una cuenta de Google.

El proceso paso a paso es el siguiente. Primero, sube el PDF a Google Drive. Segundo, haz clic derecho sobre el archivo en Drive y selecciona "Abrir con Google Docs" (no lo descargues ni lo previsualices: usa específicamente esta opción). Drive procesará el archivo durante unos segundos o minutos dependiendo del tamaño, y abrirá un documento de texto con el contenido reconocido. Las tablas aparecerán representadas en el documento, aunque con frecuencia la alineación de columnas no se mantiene bien. Tercero, copia la tabla, pégala en Google Sheets, ajusta el formato y descarga el resultado como .xlsx.

Las limitaciones son reales. El OCR de Google Docs es menos preciso que el de Acrobat o ABBYY para tablas con muchas columnas: las celdas se mezclan, los datos de una columna aparecen en otra y los encabezados se fusionan con los datos de la primera fila. Para extraer texto corrido o tablas de dos o tres columnas, el resultado es usable con un poco de limpieza. Para hojas de cálculo complejas con muchas columnas, este método requiere tanto trabajo de corrección posterior que puede no ser más rápido que teclear los datos a mano.

5. ABBYY FineReader

ABBYY FineReader es la herramienta de OCR que mejor maneja escaneados difíciles. Está diseñada para documentos con páginas inclinadas, baja resolución, manchas o deterioro, mezcla de idiomas dentro del mismo documento, o tipografías no estándar como las de formularios oficiales, documentos históricos o tickets de caja. En pruebas con este tipo de documentos, su motor OCR da resultados más precisos que la mayoría de alternativas.

La interfaz te permite previsualizar cómo el software interpreta cada zona del documento antes de exportar. Puedes marcar manualmente qué regiones son tablas, qué regiones son texto libre y qué regiones deben ignorarse, como sellos, firmas o imágenes decorativas. Este nivel de control es el que diferencia a FineReader de los conversores automáticos: cuando el software no detecta bien la estructura, tú puedes corregirlo antes de exportar en lugar de tener que arreglar el Excel resultante. También admite procesamiento por lotes para convertir múltiples archivos a la vez con la misma configuración.

El precio es su mayor obstáculo. FineReader PDF cuesta alrededor de 199 euros en licencia perpetua, o unos 14 euros al mes en suscripción. Para uso ocasional no tiene ningún sentido. Es la herramienta correcta cuando trabajas habitualmente con documentos escaneados de calidad variable, cuando los errores tienen un impacto económico real y cuando ninguna otra herramienta da resultados suficientemente precisos para tu caso concreto.

Preparar el PDF antes de convertir

La calidad del OCR depende directamente de la calidad de la imagen de entrada. Dedicar unos minutos a preparar el PDF antes de procesarlo puede mejorar bastante el resultado, especialmente si el escaneado original no es ideal.

La resolución es el factor más importante. El umbral mínimo útil para OCR es 300 DPI. Por debajo de ese valor, los caracteres no tienen suficiente definición y el motor comete errores sistemáticos, especialmente con cifras y con letras visualmente similares como "0" y "O", "1" y "l", o "rn" y "m". Si tienes acceso al escáner original, configura la resolución a 300 DPI como mínimo antes de escanear. Para documentos con texto pequeño o tablas muy densas, 400 DPI da mejores resultados.

Las páginas inclinadas son otro problema habitual en documentos escaneados. Un ángulo de tan solo 2 o 3 grados es suficiente para que el OCR falle en líneas enteras, porque los motores de reconocimiento asumen que el texto es horizontal. Herramientas como Adobe Acrobat, ABBYY FineReader y muchas aplicaciones de escaneado para móvil incluyen corrección automática de inclinación. Si la tuya no lo incluye, puedes corregir la inclinación antes de convertir usando cualquier editor de imágenes o de PDF.

El contraste también afecta al resultado. Un documento escaneado con fondo gris, papel amarillento o tinta descolorida dificulta que el motor OCR distinga el texto del fondo. Aumentar el contraste de la imagen, aunque sea moderadamente, mejora la tasa de reconocimiento. La mayoría de herramientas de OCR tienen opciones de preprocesamiento de imagen que hacen esto automáticamente, pero si el documento tiene problemas severos de contraste, puede ser necesario mejorar la imagen antes de subirla.

Por último, si el PDF tiene páginas en blanco intercaladas o páginas sin datos relevantes (portadas, páginas de notas, páginas de firmas sin información tabular), elimínalas antes de procesar. Estas páginas aumentan el tiempo de procesamiento y pueden generar hojas vacías en el Excel resultante, que después tienes que limpiar manualmente. Herramientas como Adobe Acrobat, PDF24 o incluso la vista previa de macOS permiten eliminar páginas específicas de un PDF sin necesidad de software adicional.

El problema de los formatos numéricos en español

Este es el error más silencioso que puedes encontrar al convertir un PDF escaneado a Excel con herramientas no configuradas para el español. El archivo tiene buen aspecto, el texto se lee correctamente, las tablas tienen estructura, pero los números son incorrectos sin que nada indique que hay un problema.

La raíz del problema es una incompatibilidad de convenciones regionales. En España y en la mayoría de países de América Latina, el separador decimal es la coma y el separador de miles es el punto. Mil doscientos treinta y cuatro euros con cincuenta y seis céntimos se escribe 1.234,56. En el sistema anglosajón, usado por defecto en la mayoría de software desarrollado en Estados Unidos o Reino Unido, la convención es la contraria: 1,234.56. El número es idéntico, pero escrito de forma incompatible.

Cuando una herramienta de OCR configurada en inglés lee "1.234,56" del documento escaneado, tiene que decidir cómo interpretarlo. Si trata el punto como separador decimal, el número se convierte en "1.234" y la parte después de la coma desaparece. Si intenta interpretar la coma como separador de miles y el punto como decimal, el resultado tampoco cuadra. En ningún caso obtiene "1.234,56" como importe correcto. El número que aparece en el Excel es plausible a primera vista, tiene el mismo orden de magnitud, pero es incorrecto. En un extracto bancario o en una factura, este error puede pasar desapercibido hasta que los totales no cuadran.

Las herramientas que gestionan esto correctamente son Adobe Acrobat Pro y ABBYY FineReader, ambas con opciones de configuración regional explícitas que puedes ajustar antes de exportar. La mayoría de conversores online gratuitos no ofrecen esta configuración y procesan todos los documentos con las convenciones en inglés independientemente del idioma del documento.

Si ya tienes el Excel con los números incorrectos, la corrección más fiable es un flujo de Buscar y reemplazar en tres pasos. El problema de intentar hacer la inversión directamente es que si reemplazas puntos por comas, cuando luego intentes reemplazar comas por puntos, ya habrás perdido la información sobre cuáles eran originalmente puntos y cuáles comas. La solución es usar un carácter intermedio. Primero: reemplaza todos los puntos (.) por un carácter que no aparezca en ningún número del documento, por ejemplo la letra "X". Segundo: reemplaza todas las comas (,) por puntos (.). Tercero: reemplaza las "X" por comas (,). Al final del proceso tienes los separadores invertidos correctamente.

Para evitar el problema desde el principio, puedes cambiar la configuración regional de Excel antes de pegar los datos. En Windows, ve a Opciones de Excel, selecciona la pestaña Avanzadas, desplázate hasta la sección de opciones de edición y desmarca la casilla "Usar separadores del sistema". Introduce la coma como separador decimal y el punto como separador de miles. Este cambio afecta solo a Excel y no modifica la configuración regional del sistema operativo, así que no tiene efectos secundarios en otros programas.

Comparación de métodos

Método Gratis Precisión OCR Formatos numéricos ES Lotes Mejor para
Lido Prueba gratuita Alta Extracción recurrente y automatizada
Adobe Acrobat Pro No (~24 €/mes) Alta Limitado Uso profesional regular con tablas complejas
iLovePDF (OCR) Parcialmente Media No No Conversiones ocasionales con escaneados limpios
Google Drive + Sheets Baja-Media No No Documentos simples sin presupuesto
ABBYY FineReader No (~14 €/mes) Muy alta Escaneados difíciles o de baja calidad

Problemas comunes y soluciones

El OCR falla en ciertas situaciones incluso con buenas herramientas. Identificar el tipo de problema que tienes te ayuda a elegir la solución correcta en lugar de perder tiempo probando configuraciones que no van a cambiar el resultado.

El texto sale en caracteres sin sentido, con símbolos extraños o completamente ilegible. Este síntoma casi siempre indica que la resolución del escaneado original es insuficiente. Si el OCR produce cadenas como "lmp0rte T0tal: #3.45G,YY" en lugar de texto reconocible, la imagen no tiene suficientes píxeles por pulgada para que el motor pueda distinguir los caracteres con fiabilidad. La única solución real es obtener un escaneado de mayor resolución. Si no tienes acceso al documento físico original, herramientas de mejora de imagen como Adobe Enhance (disponible en Acrobat) o alternativas online de superresolución pueden mejorar el resultado de forma moderada, pero no recuperan información que no estaba en la imagen original.

Las tablas pierden su estructura y los datos aparecen apilados en una sola columna. Este problema ocurre cuando el OCR reconoce el texto correctamente pero no detecta la estructura de columnas de la tabla. El resultado es un Excel con todos los datos de cada fila en una sola celda, o con los datos de distintas columnas mezclados sin orden aparente. Los conversores de propósito general tienen más dificultades con esto que las herramientas especializadas en documentos estructurados. Cambiar a Adobe Acrobat Pro o ABBYY FineReader suele resolverlo porque sus motores están entrenados específicamente para detectar tablas. Si la tabla es relativamente simple, también puedes usar "Texto en columnas" en Excel, con el espacio como delimitador, para reorganizar los datos una vez extraídos.

Algunas páginas del PDF se convierten bien y otras dan errores o salen en blanco. Este comportamiento es característico de los PDFs híbridos: documentos que combinan páginas nativas (con texto real) y páginas escaneadas (solo imagen). Esto ocurre cuando alguien fusiona un PDF generado digitalmente con páginas escaneadas, o cuando añade páginas adicionales escaneadas a un documento existente. El conversor procesa correctamente las páginas nativas porque tiene texto que extraer, pero falla en las escaneadas porque no activa el OCR. La solución es separar el PDF en partes usando una herramienta de gestión de PDFs, identificar las páginas escaneadas e procesarlas específicamente con una herramienta con OCR.

Los números del Excel no coinciden con los del documento original. Si el texto se ha reconocido bien pero los importes son incorrectos, el problema es casi con toda seguridad el conflicto de separadores decimales descrito en la sección anterior. Antes de repetir la conversión con otra herramienta, comprueba si los números están sistemáticamente mal de la misma forma: si 1.234,56 aparece como 1234 o como 1.23456 en el Excel, es el separador decimal. Aplica el flujo de corrección con Buscar y reemplazar descrito anteriormente y no necesitarás repetir la conversión.

Preguntas frecuentes

¿Se puede convertir un PDF escaneado a Excel gratis?

Sí, hay opciones gratuitas que funcionan para documentos de complejidad baja o media. Google Drive con Google Docs es gratuito y no requiere ni instalación ni registro adicional. iLovePDF ofrece OCR sin coste con límites en el tamaño del archivo y en el número de conversiones diarias. La limitación real de las herramientas gratuitas es la precisión. Para documentos con tablas simples y escaneados nítidos, las opciones gratuitas producen resultados usables con algo de limpieza posterior. Para documentos complejos, escaneados de baja calidad o cuando los números deben ser exactos, las herramientas de pago ahorran más tiempo del que cuestan.

¿Qué resolución mínima necesita un PDF escaneado para convertirse bien?

La resolución mínima recomendada para obtener resultados aceptables con OCR es 300 DPI. Por debajo de ese umbral, los errores de reconocimiento aumentan de forma significativa y afectan especialmente a los números, que tienen menos contexto semántico que las palabras para que el motor corrija errores de reconocimiento. Para documentos con texto pequeño, tablas densas o tipografías condensadas, 400 DPI da mejores resultados. Si el PDF ya está creado y no puedes reescanearlo, las herramientas de superresolución de imagen pueden mejorar el resultado de forma moderada, pero no sustituyen a un escaneado de calidad. La mejor práctica es siempre configurar el escáner correctamente desde el principio.

¿Por qué los números de mi Excel salen mal después de la conversión?

El motivo más frecuente es el conflicto entre los separadores numéricos del español y del inglés. En español, la coma es el separador decimal y el punto es el separador de miles: 1.234,56. En inglés es al revés: 1,234.56. Cuando la herramienta de conversión usa convenciones en inglés por defecto, los números en formato español se interpretan incorrectamente y el resultado parece plausible pero es erróneo. Para corregirlo sin repetir la conversión, usa Buscar y reemplazar en Excel en tres pasos: primero reemplaza los puntos por un carácter temporal como "X", después las comas por puntos, y finalmente las "X" por comas. También puedes cambiar la configuración regional de Excel en Opciones, Avanzadas, desactivando "Usar separadores del sistema" e introduciendo los separadores correctos.

¿Funciona el OCR con documentos escaneados en español?

Sí, pero tienes que configurar el idioma correctamente en la herramienta que uses. Los motores de OCR usan diccionarios y modelos de lenguaje para mejorar el reconocimiento: cuando saben que el documento está en español, pueden corregir errores de reconocimiento usando vocabulario y patrones propios del idioma español. Si dejas el idioma en inglés por defecto, el motor intentará interpretar palabras españolas con patrones ingleses y cometerá más errores, especialmente con caracteres propios del español como la ñ, las vocales con tilde o los signos de apertura de interrogación y exclamación. Adobe Acrobat, ABBYY FineReader e iLovePDF permiten seleccionar el idioma del documento antes de procesar. En Google Docs, el idioma de reconocimiento se determina por la configuración de idioma de tu cuenta de Google.

¿Puedo convertir varios PDFs escaneados a Excel a la vez?

Depende de la herramienta. Adobe Acrobat Pro permite procesar múltiples archivos en lote desde la opción "Acción" del menú Herramientas: defines el flujo de conversión una vez y lo aplicas a una carpeta completa de archivos. ABBYY FineReader tiene un modo de procesamiento por lotes más avanzado, con la posibilidad de aplicar configuraciones diferentes a distintos tipos de documentos. Las herramientas online gratuitas como iLovePDF no permiten procesar varios archivos a la vez en su versión gratuita. Para volúmenes altos de documentos del mismo tipo (facturas de un mismo proveedor, extractos del mismo banco, albaranes con el mismo formato), una solución de automatización como Lido es más eficiente que procesar cada archivo manualmente, independientemente del conversor individual que uses.

Ready to grow your business with document automation, not headcount?

Join hundreds of teams growing faster by automating the busywork with Lido.