Aunque no hay una receta única para analizar datos, en Escuela de Datos utilizamos un conjunto de pasos que pueden facilitar el trabajo y resultan provechosos para todos los que quieran aventurarse en el mundo de la data.

pipeline

El “Data Pipeline” inicia planteándose una pregunta para luego encontrar la información, extraerla, limpiarla, verificarla, analizarla y presentarla. Tomando la idea de Code4SA, aquí les compartimos algunas de las herramientas que utilizamos en cada uno de los pasos:

1- Obtener la información

Estas son algunas fuentes y portales de datos en Latinoamérica:

CepalStat   Es el portal estadístico de la Comisión Económica para América Latina y el Caribe que contiene toda clase de datos demográficos, sociales, ambientales, económicos, de género, juventud, pueblos indígenas, tecnología, entre otros. Los datos se pueden descargar en tablas predeterminadas y también tienen un sistema de consulta avanzada. Además tienen disponible un API.

Banco Mundial  El portal de datos abiertos del Banco Mundial recopila toda clase de indicadores de los países latinoamericanos y del resto del mundo, que se pueden descargar fácilmente. Además en su sección de Microdatos se pueden descargar bases de datos completas de estudios o encuestas que realiza el Banco en diferentes países.

Números para el desarrollo Se trata del portal de datos abiertos del Banco Interamericano de Desarrollo, que compila más de 1700 indicadores sociales y económicos de 26 países de la región, los cuales se pueden consultar, combinar, visualizar y descargar. Además tienen bases de datos especializadas.

2- Extracción 

Copiar+Pegar  Hacer un par de clicks en ocasiones puede ser la herramienta más sencilla.

Herramientas para importar en Google Sheets  Los comandos IMPORTHTMLIMPORTDATA  o IMPORTXML permiten importar a la hoja de cálculo datos en formatos estructurados desde sitios web.

Tabula Permite extraer tablas de PDFs.

SmallPDF y Nitro  Permiten convertir archivos de PDF a csv.   La versión gratuita de Nitro permite un máximo de 50 páginas.

Import.io Permite scrappear de manera fácil algunos sitios web.

Puedes ves otras herramientas acá.

3-Limpieza y verificación

Buscar+Reemplazar Permite fácilmente buscar términos en la hoja de cálculo y reemplazarlos por otros.

Open Refine Permite limpiar, modificar y exportar bases de datos. Además es gratuita.

4-Análisis

Pivot Tables Una herramienta simple pero poderosa que permite hacer y responder preguntas con los datos. Acá un tutorial para usar tablas pivot en Google Sheets.

R  Para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre.

5-Visualización

Infogram Con infogram se pueden crear gráficos e infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota.

CartoDB Ideal para visualizar información geolocalizada.

Tableau Public  El programa se descarga y offline permite hacer diferentes tipos de visualizaciones.

Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita.

Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.