Convierte documentos en PDF desde imagen a Excel o Word, para que estos sean editables.

 

Después de probar varias herramientas para convertir de PDF a OCR como Tabula o CometDocs, la mayoría de ellas tenían dificultades convirtiendo documentos con imágenes o sin celdas definidas.

ABBYY FineReader OCR tiene otro tipo de complicación: la licencia cuesta entre 99 y 169 dólares. Pero según el trabajo que vayas a realizar, podría ser útil comprarla.

Si decides utilizarla, en este tutorial te mostramos cómo.

OCR 1(1)

Con la herramienta se puede extraer el texto de archivos PDF a texto plano, html y a Excel.

En este caso lo utilizaremos para convertir el archivo a Excel.

El proceso es muy sencillo:

  1.     Seleccionar el archivo PDF
  2.     El programa empezará a reconocer las imágenes dentro del archivo PDF

OCR 2(1)

  1.     Con el reconocimiento el programa identificará las filas y columnas de la tabla y también el texto y las imágenes en la misma tabla

OCR 3

  1.     El programa permite personalizar el texto que finalmente se va a extraer, es por eso que eliminaremos las imágenes y los encabezados que son útiles en Excel.

OCR 4

  1.     Al dar click sobre el botón ‘exportar’ se puede personalizar el formato del archivo que se obtendrá, la calidad y detalles, como si dejan fuera o dentro el contenido de las tablas.

Para obtener un mejor resultado en Excel seleccionaremos ignorar el contenido fuera de las tablas, no conservar las imágenes y que reconozca automáticamente los valores numéricos.

OCR 5

OCR 6

  1.     El documento en Excel está listo para ser modificado y analizado en menos de 3 minutos.

OCR 7

Ahora deberás decidir si la inversión en la licencia del ABBYY Finereader OCR es necesaria para realizar tu trabajo. Para conocer otras herramientas puedes ir a esta publicación de Escuela de Datos (https://es.schoolofdata.org/obteniendo-datos-de-los-pdfs/)