Introducción a la limpieza de datos

Este curso fue creado para School of Data por el Tactical Technology Collective. Tactical Tech es una organización internacional para la defensa de derechos e incidencia mediante el uso de tecnologías.

En este capítulo aprenderás sobre los desastres provocados por un mal manejo de los datos y sus repercusiones en la vida real. No te asustes; sigue leyendo.

Ve la imagen a continuación. Las sonrisas, los colores y los ositos… ¡Todo parece maravilloso!

Fuente de la imagen: China Daily / Reuters, 17 de enero 2006. Derechos reservados.

Ahora imagina que este magno proyecto de hacer el pastel de helado más grande del mundo fracasó por culpa de un error numérico;  para ser más precisos y trágicos, por culpa de una celda vacía en “cantidad de helado” dentro de una hoja de cálculo. No es un sentimiento muy agradable, ¿verdad?

La realidad no es tan trágica, porque es un ejemplo hipotético, y en realidad sí lograron hacer el pastel de helado más grande del mundo.

Pero los errores en los datos y en el manejo de herramientas son tan comunes que incluso existe una organización llamada Grupo europeo de evaluación de riesgos para hojas de cálculo (ESRIG, por sus siglas en inglés) y que hace recomendaciones al usuario para evitar errores cuando se usa una hoja de cálculo.  La ESRIG se encarga de rastrear historias trágicas en el manejo de datos. Si quieres saber más,  visita data errors in spreadsheets have led to real consequences.

Este listado incluye pérdidas en petróleo, miles de boletos sobrevendidos para los Juegos Olímpicos, un recibo millonario de un salario por un error en el tecleado de ceros. Algunos errores más bien son fraudes y, por lo tanto. intencionales. Otros son causados por el mal manejo y la complejidad de las bases de datos. Otros errores son causados por la manera en que las hojas de cálculo funcionan.

En este capítulo te daremos una ligera introducción de como reducir errores limpiando los datos. Esto incluye:

  • Encontrar y remover datos no deseados en las hojas de cálculo.

  • Dar un formato adecuado a los datos conforme las herramientas que vas utilizando.

  • Tratar con datos inconsistentes.

  • Dar estructura de tal manera que sea más eficiente el manejo de tu datos.

Requisitos para este curso

El capítulo 2 se basa en los aprendido en el capítulo 1, en el que se cubre lo esencial sobre el manejo de los datos.

Necesitarás:

  • Un programa con hojas de cálculo Excel (privado) u Open/Libre Office (gratuito), instalado en tu computadora.

  • Conocimiento básico en el uso de Excel u Open/Libre Office: creación de archivos, introducir fórmulas en celdas, copiar y pegar datos. Si deseas mejorar todos estos conocimientos, visita basic tutorials on spreadsheets.

  • Una copia de la base de datos del curso  “land grabbing”. Usamos esta base porque además de interesante retoma las experiencias de muchos activistas sobre la investigación y la extracción de datos. Además, brinda un panorama sobre los problemas con los que te puedes enfrentar y cómo resolverlos. Por último, la usaremos para hacer análisis descriptivos de los datos.

Contenido del curso

El curso contiene los siguientes temas:

En este capítulo aprenderás paso a paso la manera de limpiar tus datos.

Cada sección incluye:

  • Una introducción donde te explicaremos los problemas y los caminos que no debes de seguir en el manejo de datos.

  • Una tarea rápida que te tomará 15 minutos. Generalmente tendrás que hacer algo y deberás subir tu trabajo a la red.

  • Una tarea larga tomada de la listas de trucos. Algunas pueden tomar hasta una hora.

  • Una lista de lecturas, en la que encontrarás información adicional y recursos extras como ensayos, hojas de cálculo y blogs.

¡Por favor postea tus comentarios de cada sección!

¿Cómo hacer este curso?

Te sugerimos:

  • Revisar la sección 1, 2, 3 y 4 y contestar las preguntas rápidas primero. Después las largas.

  • No sufrir en silencio. Si tienes dudas, háznoslas saber; te escucharemos.