En muchas ocasiones encontramos que los datos que nos son útiles se encuentran en un PDF o insertados como imágenes. Esta es de las peores pesadillas que nos pueden suceder cuando estamos en el proceso de extracción de información.
Es por eso que traemos una herramienta que te facilitará la vida: se centra en el reconocimiento de caracteres y te ayudará a extraer palabras, letras y números de una foto o de un PDF.
(Ya sé, nosotrxs también nos quedamos así cuando la encontramos:)
Está es OCR Space: es gratuita y libre. Aquí te enseñaremos cómo utilizarla.
1. Importa el pdf que necesites
Puede ser una imagen o pdf que tengas descargado en tu computadora o bien, puede ser uno que esté en alguna página de internet.
2. Selecciona las opciones
Una de las ventajas que tiene esta herramienta es que puedes seleccionar el idioma, esto es útil para reconocer de forma adecuada caracteres especiales como acentos y eñes. Igualmente puedes indicar si la imagen es una tabla.
Las últimas dos opciones son especiales para texto, si es que tienen etiquetas y deseas incluirlas en el reconocimiento. La segunda es para indicar si lo que reconoces incluye caracteres especiales y números, recomendamos siempre tener activa está opción.
¡Por último solo hay que dar clic en Start OCR!
3. Resultado
Como resultado veremos un preliminar de la extracción. Por último podemos descargarla en texto o en json.
4. Descarga
La descarga en formato .txt se verá similar a la imagen siguiente, unicamente basta con copiar y pegar en una hoja de cálculo.
Excelente herramienta, gracias por la iniciativa, la usaré en un futuro próximo.