¡Cuidado! Los errores más comunes y cómo evitarlos
Introducción
Existen varios tipos de errores estadísticos que muchas veces uno comete de manera consciente para manipular la opinión de la gente. Algunas veces, los datos son tantos que se debe “seleccionar” con el objetivo de hacerlos más fáciles de entender; sin embargo, parte de la historia también desaparece.
En este tutorial aprenderemos los errores más comunes que han llevado al escepticismo acerca de los datos numéricos cuando se trata del análisis y la visualización de datos.
La trampa más común
¿Algunas vez leiste una frase como «En promedio, los europeos beben un litro de cerveza al día»? ¿No se te hizo medio extraño? ¿Quiénes son los europeos promedio? Malas noticias: nunca irás por la calle y te encontrarás con el o los europeos comunes. Algunos prefieren el vino, otros la cerveza, y algunos no beben. Entonces, ¿a quién se le ocurrió esa frase?
La gente que se dedica a ese tipo de estadísticas generalmente obtiene esos datos de cifras colosales. Por ejemplo: en Europa, se consume 109 miles de millones de litros de cerveza al año. Entonces simplemente dividen esa cantidad entre el número de días que tiene el año, y después entre el número total de personas. Nosotros hicimos lo mismo hace dos capítulos cuando dividimos los gastos en salud pública y lo dividimos entre toda la población. ¿Eso quiere decir que todas las personas gastan lo mismo? La respuesta es un rotundo NO. En realidad quiere decir que algunas personas gastan más y otras menos; lo que nosotros hicimos fue sacar la media. La media tiene mucho sentido – si los datos tienen una distribución normal o campana de Gauss.
La imagen muestra tres tipos diferentes de distribución normal con la misma media o promedio. Sin embargo, son claramente diferentes. Lo que el promedio no nos dice es el rango de los datos.
La mayoría de las veces nos encontraremos con datos que no tienen una distribución normal. Por ejemplo: cuando hablamos de salario (un tema frecuentemente reportado), las estadísticas nos dirían que la mitad de las personas gana menos y que la otra mitad de la campana gana más. Esto está mal. En la mayoría de los países, la gente recibe menos salario que la media o promedio. Esto se debe a que los salarios no siguen una distribución normal. Muestran un pico en ciertos salarios y después más bien tienden a la baja. Esto se ve en el siguiente diagrama:
El diagrama muestra los ingresos por casa en dólares para el 2011. Como puedes observar, la mayoría gana entre 5,000-65,000 US$, seguido de una gran cola a la baja. Si el promedio de ingreso incrementa , reflejaría que la mayoría de las personas está ganando más. También reflejaría que algunas personas ganan mucho más que el resto.
Esto modificaría el promedio.
Tarea: Si necesitas figuras que te ayuden a pensar en lo antes mencionado, piensa en esto:
Imagina una tribu de 10 personas: Una gana $1 peso, otra gana $2, otra gana $3, y así sucesivamente. Ahora añade un peso al salario de todos. ¿Cuál es el promedio?
Ahora vuelve al salario original y súbele 10 pesos sólo al último salario. ¿Cuál es el promedio ahora?
Los economistas inventaron un término conocido como Coeficiente de Gini, el cual habla acerca de la distribución de los salarios. Es bastante complicado calcularlo, y sobrepasa los objetivos de este capítulo. Sin embargo, vale la pena saber que existe. Mucha información se pierde si sólo calculamos promedios. Mantén los ojos abiertos cuando leas las noticias y hagas búsquedas en internet sobre el tema.
Más que sólo un promedio
Si no uso el promedio, ¿entonces que debo usar? Muchas otras variables te pueden ayudar a darle contexto a tus datos:
-
Combina el promedio con los rangos. Por ejemplo, los rangos van del 20 al 5000, con un promedio de 50. Retomando el ejemplo de las cervezas, sería mejor decir, en un rango de 0 a 5 litros al día, que los europeos consumen un promedio de 1 litro diario.
-
Usa la mediana. Este valor te dice cuáles son los valores que están justo en el medio y cuáles son los valores que quedan debajo de la mitad. Por ejemplo: la mediana te dice que 50% de las personas ganan menos y que el resto gana más.
-
Usa los cuartiles o los percentiles. Los cuartiles, como su nombre lo dice, muestran los valores de la mediana pero en múltiplos de 25: 25, 50, 75. Los percentiles solamente varían en escala, y generalmente se presentan cada 10 %. Por ejemplo, el 1% de las personas tiene el 80% de todas las ganancias.
El tamaño sí importa
En la visualización de datos, el tamaño generalmente sí importa. Dale un vistazo a los dos diagramas a continuación.
Imagina el encabezado de ambas gráficas. El de la izquierda se podría llamar “El gasto en Salud Pública en Finlandia incrementa“, pero la gráfica de la derecha se podría llamar “El gasto en salud pública en Finlandia se mantiene estable”. Como tú ya eres un experto observador, seguro te percataste que las dos gráficas son iguales y que las dos son incorrectas.
En la gráfica de la izquierda, los datos no empiezan en cero; comienzan en $3000. Esto hace que los datos parezcan mucho más grandes. Por ejemplo: los gastos del 2001-2002 al parecer se triplicaron, pero no es el caso. Más bien es cuestión de perspectiva.
La gráfica de la derecha empieza con $0, pero tiene un rango de 30,000. Los datos sólo llegan hasta $9000. Esto es más preciso que la gráfica de la izquierda, pero es confuso.
A continuación, te diremos cómo ilustrar tus datos de manera correcta.
-
Siempre usa rangos que sean apropiados para tus datos.
-
Asegúrate que estén en el eje (x, y) correcto.
-
El cambio en la escala o tamaño de tus gráficos siempre debe reflejar lo que pasa con tus datos. Si tienes que el precio B es dos veces mayor que A, la barra debe de ser del doble de tamaño.
-
La regla anterior se vuelve más difícil cuando los gráficos se presentan en dos dimensiones y el área total se ve reflejada. Nuevas aplicaciones empiezan a reemplazar columnas con imágenes. El problema es que, si quieres reflejar que B es lo doble de A haciendo más grande el gráfico, también el área crecerá. Ve el ejemplo de abajo:
Respuesta: El diagrama de la derecha.
¿Te acuerdas de la fórmula para calcular el área de un círculo? (Es πr²; en español, Pi por radio al cuadrado). En el esquema de la izquierda, el radio (r) de A es el doble. Eso quiere decir que la escala se multiplica por 4, lo cuál está mal y no refleja la realidad. Si B representa un número dos veces mayor que A, eso es lo que se necesita reflejar. El valor del radio sólo debe de ser dos veces mayor que el de A.
¿El tiempo lo dirá?
Las líneas del tiempo también son elementales para los mostrar datos. Mira el esquema a continuación.
¿Existe un claro incremento de los gastos en salud pública desde el 2002? No. Date cuenta de que, antes de 2004, la gráfica se representa de forma anual. Pero existe un salto de 3 años del 2004 al 2007, y de dos años del 2007 al 2009. Esta gráfica nos hace creer que, desde 2002, los gastos en salud pública crecieron a partir de ese año, pero no es así. Si tienes que trabajar con líneas de tiempo, asegúrate que las escala o lapso de tiempo sean iguales. Solo así podrás entender las tendencias.
La correlación de datos no implica causalidad
– Pensaba que la correlación implicaba causalidad. – Luego tomé una clase de estadística, así que ya no lo pienso. – Parece que la clase ayudó. – Bueno… tal vez.
(Gráfico de xkcd)
Este malentendido es común… tan común que tiene su propio artículo en Wikipedia. Con esta frase, nos referimos a que A causa B y por lo tanto B causa A. Por el simple hecho de que dos puntos cambien, no quiere decir que estén relacionados. Uno no es necesariamente la causa de otro.
Contexto
El contexto es esencial cuando hablamos de datos. Los números no significan nada si no les das contexto. Debes explicar lo que se ve, cómo se leen, de dónde los sacaste y qué trato les diste. Si le das un contexto apropiado a tus datos, las conclusiones salen solas.
Por ciento vs porcentaje (la cosa sí cambia)
Éste es un error muy común para la mayoría de nosotros. Si una valor cambía de 5% a 10%, ¿cuánto por ciento cambió?
¡Si tu respuesta es 5%, es un error! La respuesta es 100% (Imagina que tienes 5 manzanas y te dan 10; tienes ahora tienes 100% más).
Pon atención a este tipo de errores; son cometidos todo el tiempo.
Si necesitas refrescar tu memoria de cómo calcular porcentajes, visita Maths is Fun (inglés), o Ceneval en línea (español).
Atrapando al ladrón de los números
Imagínate que tienes una tienda y acabas de instalar una alarma que tiene una eficacia del 99%. Pensarías que, si la alarma suena, casi con certeza podrías decir que la persona robó un artículo.
Sin embargo, esta visión tan pesimista no es necesariamente cierta.
En tu tienda habrá clientes honestos y ladrones. Sin embargo, en tu tienda habrá muchos más clientes honestos que ladrones: supongamos que hay 10,000 clientes honestos y únicamente 1 ladrón. Si todas estas personas pasaran enfrente de tu alarma, la alarma sonaría 101 veces. Es decir, dado que se equivoca el 1% de las veces con clientes honestos y son 10,000, 100 de los clientes honestos (es decir, el 1% de 10,000) serán clasificados por la alarma como ladrones.
Respecto al ladrón, el 99% de las veces, en efecto será clasificado como ladrón, por lo que probablemente esta clasificación sí estaría correcta. Entonces, en general, de las 101 veces que suene tu alarma, sólo 1 de estas veces la persona clasificada por la alarma como ladrón sería realmente un ladrón, por lo que la efectividad real de la alarma es inferior al 1% (0.99%, para ser exactos).
Cuando las probabilidades son exageradas o sobreestimadas, se les conoce como base rate fallacy (En inglés). Esto explica por qué en la mayoría de los aeropuertos abundan los falsos positivos en las pruebas masivas de inspección.
Resumen
En este capítulo abordamos los errores más comúnmente cometidos en el análisis de datos.
Cuando utilices representaciones gráficas, siempre intenta ser fiel a los datos. Cuando publiques tus datos, no sólo subas tu análisis; también sube las bases de datos.