Dice el dicho popular “ver para creer”. Esto fue justamente resaltado por Anscombe en un artículo publicado en 1973, donde demostró con un ejemplo ficticio la importancia del uso de gráficos en el análisis estadístico, particularmente en el análisis de regresión, que consiste en la estimación de relaciones entre variables.

Este ejemplo se conoce como el cuarteto de Anscombe, refiriéndose a cuatro conjuntos de datos que presentan similares propiedades estadísticas pero difieren considerablemente cuando se los analiza gráficamente.

Normalmente cuando se trabajan regresiones, se hace un resumen de los estadísticos significativos (como la media, el promedio y la desviación estándar), para asegurarnos que nuestra base de datos está normalmente distribuida y que podemos posteriormente trabajar con la misma para poder establecer hipótesis o cualquier tipo de análisis. Sin embargo, no debería ser el único procedimiento para verificar la validez de los resultados y comprobar posibles relaciones entre las distintas variables; debe ser complementado con un análisis gráfico.

table jp

En el ejemplo, el análisis descriptivo de estos cuatro conjuntos luce demasiado similar; es decir que los siguientes parámetros estadísticos aplican igualmente para cada uno de los cuatro conjuntos de datos:

  • Número de observaciones (n): 11
  • Media de la variable x: 9.0
  • Desviación típica de la variable x: 3.32
  • Media de la variable y: 7.5
  • Desviación típica de la variable y: 2.03
  • Coeficiente de correlación lineal: 0.816
  • Ecuación de regresión lineal: y = 3 + 0,5 · x
  • Suma de cuadrados de los residuos: 13,75 (con 9 grados de libertad)
  • Error estándar del parámetro b1: 0,118
  • R-cuadrado: 0,667

¿No tienes idea de qué significan estas cosas? No te preocupes: puedes encontrar bases sobre estadística en posts pasados sobre estadística en Escuela, y acá estaré publicando más al respecto.

Cuando los cuatro conjuntos de datos son graficados (usando scatterplots), las tendencias entre sí cambian totalmente. El análisis gráfico demuestra que en los cuatro conjuntos las rectas de regresión son iguales, sin embargo las nubes de puntos son claramente diferentes.

Graficos jpg

El gráfico de los datos del primer conjunto muestran la línea de regresión normal y puntos dispersos de forma aleatoria por encima y por debajo de la misma, pero que se pueden ajustar. En contraste, el segundo conjunto de datos muestra más bien una parábola en lugar de una tendencia lineal. Mientras que el tercer conjunto de datos presenta una tendencia lineal pero una observación atípica o dato disparo (outlier) que modificaría sustancialmente los parámetros estimados. Finalmente, el cuarto conjunto de datos muestra que una observación atípica cambia la línea de tendencia; de lo contrario sería una línea vertical.

En la vida real, cuando usamos bases de datos, realizar un gráfico como el anterior (scatterplots) resulta útil para identificar no sólo observaciones atípicas (outliers ) sino también la tendencia de nuestra relación (crece, se reduce, positiva, negativa, etc.), pues cada punto del gráfico es la combinación entre las observaciones de las dos variables analizadas (x, y).

Tal como lo hizo Anscombe, todos deberíamos complementar el análisis estadístico descriptivo con un análisis exploratorio usando gráficos; de esta manera nos aseguramos de que nuestro análisis posterior, posibles correlaciones, relaciones y conclusiones son correctos. El cuarteto nos muestra la necesidad de analizar gráficamente los datos antes de tomar alguna decisión o proseguir con nuestro análisis.