Stata es uno de los programas estadísticos más utilizados alrededor del mundo, su uso va desde el periodismo hasta las ciencias médicas, esto debido en gran medida a su facilidad de uso para procesar y analizar datos.
Si lo único que sabes de Stata es su nombre, esto es para vos.
(Importante: Esta publicación asume que ya tienes instalado Stata. Las explicaciones a continuación aplican a las versiones de Stata 12, 13, 14 y 15.)
Cuando finalices de leer este articulo conocerás:
- La apariencia de Stata (interface)
- A conocer el contenido de una variable
- A calcular estadísticas básicas de una variable continua o numérica (por ejemplo, ingresos mensuales)
- A hacer una tabla de frecuencia de una variable categórica (por ejemplo, estado civil)
- A sumar, restar, dividir y multiplicar una variable numérica
Apariencia de Stata (interface)
Lo primero que debes hacer es abrir Stata y escribir en la ventana de comandos sysuse auto. Lo que hace este comando es cargar una base de datos que Stata tiene alojada por defecto. Esta base de datos es un registro de 74 automóviles vendidos en los Estados Unidos en 1978 y contiene 12 variables. Utilizaremos esta base de datos para realizar todas las explicaciones siguientes.
Así se ve Stata en Mac OS
Así se ve en Windows
- Command: Esta es la ventana donde se escriben los comandos. Stata cuenta con una serie de comandos “prefabricados”, lógicos, matemáticos, etc. Que ayudan a realizar funciones y procesos. Los comandos son órdenes que le damos a Stata para que realice lo que deseamos.
- Results: Esta ventana muestra los resultados que se generan al escribir comandos o dar ordenes a Stata.
- Review: En esta ventana se registran todos los comandos que hemos ejecutado en la ventana de comando (Command).
- Variables: Esta ventana muestra el listado de todas las variables contenidas en una base de datos, se indica el nombre y la etiqueta de las variables. Generalmente el nombre de las variables de una base de datos es representado por abreviaciones o códigos, y las etiquetas son una breve descripción de las mismas. Por ejemplo, en la base de datos de automóviles vendidos en 1978, en la ventana Variables, la variable rep78 es una abreviación de Repair Record 1978 (registro de reparación 1978).
- Properties: Aquí se describe brevemente las propiedades de las variables y de la base de datos. Si damos clic a una variable en la ventana Variables, se visualizarán datos que describen la variable seleccionada.
- Menús: A través de estos menús podemos realizar muchas de las acciones que podemos hacer desde la ventana de comandos.
Para que veas la forma de la base de datos que acabas de cargar, da clic en Data Editor (ver #6, menú indicado con rojo en imagen 1 y 2).
Al darle clic aparecerá una nueva ventana con la base de datos, donde las observaciones o registros está colocados de forma vertical (1,2,3,4…) y las variables de forma horizontal (make, price, mpg…). Como habrás notado es similar a una hoja de Excel.
Apariencia del Data Editor
Estadísticas básicas de una variable continua o numérica.
Las variables “guardan” atributos o características de un objeto o persona. En este caso, las variables registran atributos de automóviles. Por ejemplo, la variable price registra el precio de los vehículos vendidos. La variable price es de tipo continua (también llamada numérica). Si escribimos en la ventana de comando sum price obtendremos un resultado igual a la tabla 1. El comando sum lo que hace es calcular y mostrar estadísticas sobre la variable, específicamente muestra el número de observaciones (Obs), el promedio (Mean), la desviación estándar (Std. Dev.), el valor mínimo (Min) y el valor máximo (Max).
Tabla 1.
Cómo hacer una tabla de frecuencia de una variable categórica
El comando sum funciona principalmente con variables continuas o numéricas. Si escribimos en la ventana de comandos sum foreign obtendremos un resultado igual a la tabla 2. La variable foreign registra únicamente si el vehículo fue hecho localmente (Domestic) o fuera del país (Foreign). Es por este motivo que los valores de la tabla 2 no tienen ningún sentido por que los valores que posee la varible son 0 y 1, exceptuando el número de observaciones (Obs = 74) que si es de utilidad. Los valores del promedio (Mean), la desviación estándar (Std. Dev.), el valor mínimo (Min) y el valor máximo (Max) de la tabla 2, no nos dicen absolutamente nada a nivel de análisis. Estos valores fueron calculados con los “0’s” y “1’s” que toma la variable foreign cuando el vehículo fue hecho localmente (Domestic = 0) o fuera del país (Foreign = 1) respectivamente. Ahora ya sabemos de donde vienen esos valores, pero continúan siendo inservibles para el análisis.
Tabla 2.
Como quizá ya hayas imaginado, la variable foreign es categórica, porque agrupa las observaciones en categorías, en este caso si los vehículos fueron hechos localmente (Domestic = 0) o fuera del país (Foreign = 1).
Uno de los comandos más utilizados para analizar variables categóricas es tab, que significa tabulate (tabular en español). Este comando lo que hace es crear una tabla de frecuencia para una variable categórica. Escribe en la ventana de comandos tab foreign y obtendrás un resultado igual a la tabla 3. Esta tabla sí que tiene sentido.
Tabla 3.
Intenta escribir en la ventana de comando tab price, obtendrás una tabla de frecuencias muy grande carente utilidad. Como verás, hay comandos que funcionan mejor para variables categóricas que para numéricas y viceversa.
Sumar, restar, dividir y multiplicar una variable numérica
Si alguna vez has hecho una fórmula en Excel, esto será similar. Si vas a multiplicar una variable en Stata esto supone que todos los valores dentro de la variable cambiaran. Por ejemplo, si multiplicamos la variable price por 4, significa todos los precios de los vehículos serán multiplicados por 4. Si estuviéramos en Excel y tenemos enlistado el precio de los 74 vehículos y quisiéramos hacer esta misma operación, probablemente haríamos una formula en una celda al lado del primer valor del listado y luego la arrastraríamos hacia abajo. Stata funciona de forma similar, pero en Stata debemos de crear una nueva variable que contenga los nuevos valores.
Escribe lo siguiente en la ventana de comandos: gen pricex4 = price * 4. Este comando generará (gen) una nueva variable llamada pricex4 que contendrá los precios de los vehículos multiplicados por 4. Si abres el Data Editor, verás que se ha generado una nueva variable al final de la tabla (la última variable a la derecha).
Ahora es tu turno de intentarlo. Crea una variable llamada pricemas1000 que contenga los precios de los vehiculos (price) más 1,000. Cuando lo hayas hecho, verifica que la nueva variable aparezca en el Data Editor.
Muchas gracias! Excelente explicación