Editamos este post para agregar el enlace a este webinar de Phi sobre el mismo tema.


La herramienta: import.io es una herramienta para la extracción de datos muy poderosa y fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web. Está pensada para no programadores que necesitan datos (y programadores que no quieren complicarse la vida).

¡¡Casi lo olvido!! Además de todo, es gratuito (o_O)

El objetivo de este post/tutorial es enseñarte a scrapear una web y crear un dataset y/o un API de consulta en 60 segundos. ¿Estás listo?.

Es muy simple. Sólo debes ingresar a http://magic.import.io; introducir la URL que deseas scrapear, y pulsar el botón “GET DATA”. ¡Sí! ¡Así de fácil! Sin plugins, sin instalar programas, sin conocimiento previo y sin registrarte. Esto puedes hacerlo desde cualquier navegador; incluso funciona en tu tablet o smartphone.

Por ejemplo: si queremos tener en una tabla la información de todos los artículos relacionados con “Chewbacca” en MercadoLibre, sólo debemos ir a su página y hacer la búsqueda. Después copiar el link (http://listado.mercadolibre.com.mx/chewbacca), pegarlo y presionar GetData.

 

Screen Shot 2014-12-03 at 19.00.11

 

Notarás que ahora tienes toda la información tabulada, y lo único que debes hacer es eliminar las columnas que no necesites. Para esto sólo coloca el cursor sobre la columna que deseas eliminar y aparecerá una “x”.

Screen Shot 2014-12-03 at 19.00.23

También puedes renombrar las cabeceras para que sea más legible; sólo haz un clic en el título de la columna.

Screen Shot 2014-12-03 at 19.00.37

Por último, basta con que hagas clic en “descargar”, y te lo guardará en formato csv.

Screen Shot 2014-12-03 at 19.00.52

Ojo: notarás que te da las opciones “Download the current page” y “Download # pages”. Esta última es por si la web a scrapear tiene varios resultados en distintas páginas.

Screen Shot 2014-12-03 at 19.01.06

En nuestro ejemplo, tenemos 373 items con 48 artículos cada página. Así que nos sirve mucho esa opción.

Screen Shot 2014-12-04 at 08.09.27

Por último, buenas noticias para los más técnicos: hay un boton que dice “GET API” y este nos sirve, “literal”, para generar un API de consumo que actualizará los datos cada llamada. Para esto debes registrar una cuenta (también es gratuita).

Screen Shot 2014-12-03 at 19.01.44

Como vieron, podemos scrapear cualquier web en menos de 60 segundos aunque esté paginada. Esto es “magic”, ¿o no?
Para cosas más complicadas que requieren logueo, entrar a subwebs, automatizar búsquedas, etcétera, tenemos un programa de import.io que se instala y que explicaré en otro tutorial.