Limpiando datos de gastos

Limpiando datos de gastos

Casi siempre tendrás que limpiar los datos que recibas. Incluso los datos publicados por el gobierno. En esta sección resaltamos los problemas más comunes relacionados con los datos acerca de gastos:

  • Errores de dedo – Por ejemplo, algunas casillas pueden decir “Uuentes de impuestos globales” en lugar “Fuentes de los impuestos globales”
  • Inconsistencias – Puedes estar buscando cuánto dinero recibe la empresa X por parte del gobierno. Sin embargo, en tus datos, a veces la empresa se ​​introduce indistintamente como “Fuzzy Llama Exportadores Robot”, “Robot Fuzzy Llama Exportadores Ltd”, “FRLE Ltd”… Las tres referencias son para la misma empresa, pero tú necesitas corroborar esa información además de descifrar.
  • Columnas, filas y celdas en blanco – Cuando sumas valores, es muy importante saber lo que es un cero verdadero y lo que es un blanco debido a la ausencia de datos.
  • Formato para humanos – como pseudo filas y cosas que están en filas horizontales cuando las necesitas en verticales, para mejorar tu comprensión al leer. Probablemente tu computadora necesitará algo coherente para ser capaz de procesarlo.
  • Múltiples tipos de información contenidos en una sola columna. En realidad, es más útil tener una columna por cada tipo de información.
  • Los espacios en blanco – Tú no lo ves (recuerda al hombre invisible), pero causan grandes problemas en los conjuntos de datos. En muchas bases de datos, las operaciones son tratadas de manera diferente debido al espacio adicional al final. Lleva a dos resultados distintos filtrar “Ganancias fiscales ” y “Ganancias fiscales” (con y sin espacios en blanco al final).

Normalizando datos

Los datos que genera el gobierno generalmente salen de múltiples oficinas y departamentos gubernamentales. Esto se refleja en la manera en que los datos son tratados con diferentes estilos, y, por lo tanto, en inconsistencias. Darles coherencia o normalizar los valores en las bases de datos es algo que debes hacer si no quieres resultados erróneos.

Paso 1: Encuentra los valores que son diferentes

Primero, debes detectar todos los valores que son diferentes en tu base de datos. Puedes lograr esto usando lenguaje como DISTINCT de SQL, o usando filtros que te permiten buscar a través de las bases de datos.

Por ejemplo: si tienes una hoja de cálculo con una columna de datos de contratos, en la siguiente columna debe decir si se completó la transacción, y debes de tener valores o No en esas celdas. Pero si los datos son una mezcla de diferentes dependencias y departamentos, puede ser que tengas valores como SI, si, S, 1, NO, no, 2, Verdadero, Falso, etcétera. Si te das cuenta de estas inconsistencias, lo mejor será limitar las respuestas sólo a un formato homogéneo y así evitar errores.

Paso 2: Supervisión sanitaria

Con datos financieros, los números pueden tener formatos diferentes. Por ejemplo, los valores negativos se representan como , ( ), o están marcados en rojo. Una computadora no puede leer todos estos detalles; especialmente el que los números estén en rojo. Debes elegir un formato que la computadora pueda leer y que sea igual para todos los valores.

¿Todos tus valores numéricos tienen un solo cero o están abreviados en miles? Cuando se trata de presupuestos, siempre ocurren errores numéricos. Por ejemplo, un departamento piensa que reportan en miles o en millones por default, pero otra dependencia expresa los valores con todos los ceros correspondientes. Otros con notación científica (por ejemplo 10e3938). Asegúrate que todos los valores sean consistentes o tu análisis tendrá graves errores.

Una columna de datos requiere normalización:

Reto: Cura los datos

Tarea:

Lee la receta en el manual de datos donde se te explicará paso a paso cómo limpiar las bases de datos de los presupuestos.

Toma los datos del ejemplo y replícalos como se explica en el manual.

Acuérdate: ¡Una vez que limpies tus datos, compártelos y ahorra el trabajo a alguien más! Los puedes compartir en el OpenSpending group en Datahub o en OpenSpending Mailing List. Describe lo que hiciste con ellos. Muchos te lo agradecerán.

Crédito extra: Limpia una base de datos de tu país para que esté lista para usarse.