Mapa de las elecciones de Estados Unidos en 2012. Imagen de Wikimedia Commons.

En el posteo anterior, con un ejemplo de la vida real, expliqué como distintos métodos de análisis de datos pueden dar resultados muy distintos. Se analizó el caso de un programa dirigido a incentivar el voto en las elecciones de Estados Unidos de 2002. El programa consistía de llamadas a casas un día antes de las elecciones para incentivar el voto.

La pregunta fundamental era: ¿tuvieron algún efecto en la participación electoral las llamadas efectuadas un día antes de las elecciones? Los resultados indican cosas muy distintas dependiendo de cada uno de los métodos mencionados.

En esta ocasión haré una breve descripción de los métodos utilizados:

  1. Diferencia simple: Como su nombre lo indica este método es el más sencillo de todos. Consiste en observar cuántos de los individuos a los que se les marcó un día antes de la elección de 2002 votaron al día siguiente, y comparar cuántos de ellos habían votado en el 2000. Afortunadamente para los investigadores, se contaba con el registro de votantes.
  2. Regresión múltiple: Este método consiste en ajustar la mejor línea regresora posible a la distribución de datos. En otras palabras, se trata de encontrar la relación entre variables independientes con las dependientes. Por ejemplo, el producto interno bruto -variable dependiente- es explicada por el consumo nacional, el gasto del gobierno, las exportaciones netas y la inversión -variables independientes. En nuestro caso la variable dependiente es la asistencia a votar o no y la independiente la llamada entre otras cosas.
  3. Regresión múltiple con datos panel: es un método similar al anterior pero con un distinto acomodo de datos. Para comprender esto se necesita saber que existen dos tipos: los tipo panel y las series de tiempo. Las series de tiempo, como su nombre lo indica, es una recolección de datos a lo largo de un periodo. Los datos tipo panel es una observación por individuo en un momento del tiempo. Por ejemplo, una serie sería el tipo de cambio de 2000 a 2008, un corte transversal sería la población de 150 países en 2008.
  4. Matching: es un método muy complicado pues consiste en buscar una especie de clon para cada una de las personas que recibieron la llamada. Por ejemplo, se tiene una base de datos que tiene información sobre la edad, estudios, ingresos, sexo, estado civil y un sin fin de características de las personas incluyendo si votaron o no en la elección anterior. Se escogen a personas idénticas (al menos en las características registradas). Una vez teniendo esos clones se aplica el programa solo a uno, y se observa si se comportaron de manera similar o distinta.
  5. Experimento aleatorio: este método es el más certero. Sin embargo, a pesar de parecer sencillo, tiene el gran reto de evitar el sesgo de selección. A lo mejor hasta ahora no habías pensado que si el programa consistía en llamar a casas, muchos de los posibles votantes estaban fuera trabajando, estudiando o realizando una actividad que los mantenía fuera del alcance del programa. Esto implica que los resultado con un sesgo de selección como este no son aplicables a la población en general.

 

Este método, a través de herramientas estadísticas complejas, impide que esto suceda dando mayo validez general a los resultados.

Más adelante podría profundizar si así lo desean en alguno de estos métodos. No son fáciles pues el nivel técnico que requieren es un poco avanzado.

¡Hasta pronto!