Base de datos a utilizar

Disponibilidad de bases de datos

La Encuesta de Medición del Nivel de Vida (EMNV) realizada por el Instituto de Información de Desarrollo (INIDE) contiene información sobre diferentes aspectos de la condición de vida de la población Nicaragüense, incluyendo información sobre educación así como ingreso, mediante el cual se realizan las estimaciones oficiales de pobreza en Nicaragua. Por lo que utilizaremos los datos de la última EMNV (2014) para realizar estimaciones sobre el analfabetismo, pues dichos indicadores se vinculan a la condición de pobreza de la población. Las bases de datos de las EMNV se encuentran disponibles en la página web del INIDE1.

Obteniendo indicadores de educación

La información sobre educación está incluida en la base de datos “EMNV14-04 POBLACION”, en la que la unidad de análisis u observación es la persona. Por su parte la información sobre la condición de pobreza se encuentra en la base de datos “Pobreza”, y en esta la base, la unidad de análisis son los hogares. Para realizar las estimaciones de indicadores educativos y compararlos por condición de pobreza se deben unir ambas bases2, la base de trabajo resultante tendrá como unidad de observación a las personas.

Una vez que se ha creado la base de trabajo se debe declarar el diseño muestral3 de la encuesta EMNV, de modo que se considere dicho diseño al momento de realizar estimaciones para la población. La muestra para la EMNV fue seleccionada en dos etapas: primero se seleccionaron los segmentos censales4, dentro de cada estrato o grupo de segmentos agrupado por región, posteriormente en una segunda etapa se seleccionaron viviendas dentro de los segmentos censales seleccionados (INIDE, 2015).

De este modo la unidad primaria de muestreo (UPM) es el segmento censal, pero esta variable no aparece en las bases de datos de EMNV 2014, de modo que se excluye al momento de declarar el diseño de la muestra, por su parte el estrato corresponde a la variable DOMINIO4 y el peso o ponderador a usar es el Peso2 que corresponde al factor de expansión5 para personas.

Incidencia del Analfabetismo a nivel nacional

El analfabetismo es una condición extrema de falta de acceso a la educación y constituye una privación esencial en las condiciones de vida de las personas, se ha comprobado que el nivel educativo de las personas está fuertemente vinculado a su condición de pobreza, ya que un bajo nivel académico constituye una limitación fundamental para acceder a empleos de buena calidad que reporten ingresos suficientes y estables. Además un nivel educativo nulo o bajo afecta el bienestar en todos los ámbitos, pues limita la capacidad de las personas para informarse, participar y tomar mejores decisiones en su vida diaria.

El analfabetismo se define como la condición de no saber leer ni escribir, esta condición es aplicable solamente para personas de 10 años o más, pues antes de esa edad es aceptable que un niño aún no sepa leer o escribir. La variable de EMNV 2014 que contiene información al respecto es S4P11, esto lo sabemos si escribimos en la barra de búsqueda del panel de variables de Stata palabras clave como leer, escribir o alfabetismo.

Después que hemos identificado la variable de interés, debemos explorar esta variable para conocer de qué forma está organizada la información que contiene. Para este fin se usa el comando codebook seguido de la variable de interés (ver Programación 1A). Este comando brinda información general sobre la variable y sus valores, incluyendo las etiquetas y códigos de categorías si la variable es categórica. Dicha información para la variable S4P11 se muestra en la Tabla 1A.

Programación 1A: Explorar variable S4P11

codebook S4P11

Tabla 1A: Resultado de explorar variable S4P11

En la Tabla 1A se observa que hay 3,669 observaciones (personas en la base de datos) para las que no hay información sobre alfabetismo (S4P11), esto probablemente se debe al rango de edad para el que es aplicable esta pregunta en la encuesta, en el Formulario de EMNV 2014 se lee que a partir de S4P11 la preguntas se aplican solamente a personas de 6 años y más.

Para verificar que los datos omitidos (missing o “.”) corresponden a los niños menores de 6 años se procede a tabular la variable que contiene información sobre la edad (que al buscarla como se explicó anteriormente se encuentra que corresponde a S2P2A) si la persona cumple con la condición de que tenga menos de 6 años. Para esto se utiliza el comando tabulate o tab (abreviado) seguido de la variable a tabular, el comando if que condiciona la tabulación a un criterio, el cual se escribe después del if (ver Programación 1B).

Programación 1B: Verificación de datos omitidos en S4P11 tabulando S2P2A

tab S2P2A if S2P2A<6

Tabla 1B: Verificación de datos omitidos en S4P11

Se esperaría que la cantidad de datos omitidos en S4P11 coincida con la cantidad de niños menores de 6 años; sin embargo, en la Tabla 1B se observa que hay 3,610 niños menores de 6 años en la base de datos, de modo que hay 59 personas que están en el rango de edad aplicable para las cuales hay información omitida de S4P11. De este modo se hace necesario explorar más de estos casos, para eso se utiliza el comando browse o br (abreviado) seguido de las variables que queremos que Stata nos muestre, este comando puede usarse con condiciones, las cuales se escriben después de las variables.

En la Programación 1C se observa que se pide mostrar el contenido de las variables de la sección 4 (educación) desde la variable S4P11 a la S4P18V, incluyendo la variables S2P2A (años cumplidos), el contenido de estas variables se mostrará solo para las observaciones que cumplen con la condición especificada: que no haya información de alfabetización y la persona tenga 6 o más años de edad. Como resultado, Stata muestra una ventana en la que aparece el contenido especificado, como se observa en la Imagen 1C toda la información de educación (S4P11 en adelante) está omitida para esas observaciones, esto probablemente se deba a un problema de recolección de datos.

Programación 1C: Verificación de datos omitidos en S4P11 y resto de sección 4 (educación)

br S4P11  S4P12A S4P12B  S4P13 S4P14 S4P15  S4P16 S4P17A S4P17B S4P18  S4P18V S4P19 S2P2A if S4P11==. & S2P2A>=6

En base a la información de la variable S4P11 se genera una nueva variable que identifique la situación de alfabetismo de la persona. En la Programación 1D se muestra el proceso que debe seguirse en Stata para generar esta variable. En la primera línea de comandos se escribe capture drop seguido del nombre de la variable a generar; esto indica que cada vez que vas a crear esta variable se borrará cualquiera que tenga el mismo nombre, este paso no es indispensable en la generación de variables nuevas, pero es muy recomendable.

Programación 1D: Creación de variable de identificación de analfabetismo

capture drop analfabeta

gen analfabeta=.

replace analfabeta=1 if S4P11==3

replace analfabeta=0 if S4P11==1|S4P11==2

label var analfabeta "Analfabeta"

label define analfaneta 1 "Analfabeta" 0 "Alfabeta", replace

label values analfabeta analfabeta

tab analfabeta

Para generar una variable en Stata se usa el comando generate o gen (abreviado) seguido del nombre de la variable que vamos a generar, el signo igual y el valor que asignaremos a dicha variable (ver segunda línea de comandos de la Programación 1D). Note que generamos la variable “analfabeta” igual a missing (.) debido a que como ya vimos, la condición de alfabetismo no es aplicable para toda la población, y además hay observaciones correspondientes a personas aplicables pero cuya información está omitida, posteriormente reemplazamos este valor por datos válidos para las condiciones que cumplan los criterios definidos.

La variable nueva (analfabetismo) se generará como una variable dicotómica o dummy, es decir que solamente toma dos valores: 1 o 0, siendo 1 la presencia de una característica y 0 la ausencia de la misma. En este caso la característica que se desea identificar es el analfabetismo, por tanto esa condición se codificará como 1, mientras que las situaciones que implican algún nivel de alfabetización: saber leer y escribir (S4P11=3) o solo saber leer (S4P11=2) se codifican como 0.

Las líneas de comando quinta a la séptima de la Programación 1D no forman parte de la creación de la variable, sino de su formato, sirven para agregar una etiqueta a la variable y a los valores de la misma, respectivamente. Al final de la sexta línea de código escribimos replace, esto indica que cada vez que se cree esta variable se reemplazarán las etiquetas de datos, si no se pone esto y se repite el grupo de códigos aparecerá un mensaje indicando que ya existe esa etiqueta para las categorías. Por eso estos comandos son muy importantes al procesar datos, porque usualmente se repite una operación.

Por último, recomendamos que al crear una variable nueva en función de otra se verifique la cantidad de observaciones para las cuales hay información en ambas variables, esto se hace con el comando tab en la última línea de programación. En la Tabla 1D se observa que la cantidad de observaciones de la variable analfabeta coincide con la de S4P11.

Tabla 1D: Resultado de la creación de variable de identificación de analfabetismo

Para estimar la incidencia del analfabetismo en la población nicaragüense se procede a estimar la proporción de personas que son analfabetas, esto se realiza con el comando svy proportion (ver Programación 1E) en el que se especifica que la estimación no debe realizarse para toda la población, sino para las personas con edades de 10 o más años, es decir para una sub población que en Stata se limita agregando a svy linearized la expresión , subpop (if S2P2A>=10): de manera general después del if se debe escribir la expresión que define a la sub población para la cual se desea realizar la estimación. Posteriormente se escribe el nombre de la variable para la cual se desea estimar la proporción de cada uno de sus valores o categorías, en este caso analfabeta.

Programación 1E: Proporción de personas analfabetas

svy linearized, subpop(if S2P2A>=10): proportion analfabeta

En la Tabla 1E se muestran los resultados de la Programación 1E. La parte superior de la Tabla 1E proporciona información sobre las consideraciones del diseño muestral para la estimación, incluye información como número de estratos, unidades primarias de muestreo, cantidad de observaciones y población estimada de la población total y de la subpoblación.

En la segunda parte de la Tabla 1E se muestran los resultados de las estimaciones. En la primera columna aparece la variable y las categorías, en lasegunda columna la proporción estimada, este valor debe multiplicarse por 100 para obtener el porcentaje de la población. La tercera columna muestra el error estándar de la estimación de la proporción para cada categoría, este valor brinda información sobre la significancia estadística de la estimación, es decir, si el valor generado es confiable y representativo para la población real; esto se cumple si ese valor es menor o igual a 0.05 que corresponde a un nivel de confianza del 95% en las estimaciones. Las columnas cuarta y quinta incluyen información sobre el valor mínimo y máximo entre el que podría oscilar la estimación de proporción reportada en la segunda columna, es decir el intervalo de confianza de la estimación.

Tabla 1E: Proporción de personas analfabetas

En base a la Tabla 1E se infiere que para el 2014 el 11.5% de la población nicaragüense de años y más era analfabeta, mientras que el 88.5% del mismo grupo población sabe leer y escribir o al menos sabe leer. Estas estimaciones son significativas estadísticamente y son representativas a nivel nacional, ya que el valor del error estándar es menor a 0.05. Además se observa que el intervalo de confianza es estrecho, indicando que las estimaciones son bastante precisas pues su variabilidad no es alta.

Incidencia del analfabetismo por condición de pobreza

Si se desea conocer la proporción de personas analfabetas por condición de pobreza se ejecuta la Programación 1F, la cual es muy similar a la Programación 1E a excepción de que se agrega el comando over (pobreza) en paréntesis, y se escribe el nombre de la variable para la cual se desea estimar la proporción de la otra variable, en este caso analfabeta.

Programación 1F: Proporción de personas analfabetas por condición de pobreza

svy linearized, subpop(if S2P2A>=10): proportion analfabeta, over (pobreza)

En la Tabla 1F se observa que se generan dos grupos de etiquetas o leyendas para los valores incluidos en la tabla, el primer grupo indica la variable de la cual se estimó la proporción y se identifican como _prop_1/_prop_2, que corresponden a personas alfabetas (analfabeta=0) y analfabetas (analfabeta=1). El segundo grupo corresponde a las etiquetas de las categorías de la variable para las cuales se estimó la proporción de la otra variable, están se identifican como _subpop_1/_subpop_2/_subpop_3 que corresponden a Pobre extremo, Pobre no extremo y No pobre, respectivamente.

De manera similar la tabla se divide en dos paneles: el primer panel incluye la proporción de personas que No son analfabetas (_prop_1 que corresponde a analfabeta=0), dicha proporción se presenta para las diferentes sub poblaciones que corresponden a las categorías de la variable pobreza. En el segundo panel se incluye la proporción de personas que son analfabetas (_prop_2 que corresponde a analfabeta=1), para cada categoría de pobreza.

De modo que de la Tabla 1F se puede inferir que para 2014 el analfabetismo era mucho más prevalente en la población pobre extrema, que reportaba una incidencia de analfabetismo del 30.7%; mientras que el 17.2% de las personas pobres no extremas son analfabetas, pero este porcentaje afecta solamente al 7.8% de la población no pobre. Lo anterior indica un elemento de desigualdad social y una correlación entre el nivel educativo, el acceso a educación y la condición de pobreza de las personas.

Tabla 1F: Proporción de personas analfabetas por condición de pobreza

Tarea

Estime la proporción de personas que se encuentran en las diferentes categorías de pobreza por condición de analfabetismo; es decir qué proporción de personas analfabetas es pobre extremo, pobre no extremo y no pobre, lo mismo para la población alfabeta.

Te invitamos a continuar la serie de tutoriales. Puedes ver la ruta de aprendizaje recomendada en: https://escueladedatos.online/serie-de-tutoriales-conociendo-los-indicadores-de-pobreza-de-centroamerica/

Notas

1 La EMNV más reciente data del año 2014. Ver: inide.gob.ni o en https://bit.ly/2Xq5qYk

2 Para mayores detalles ver “Unión de bases de datos” en Recursos complementarios.

3 Para mayores detalles al respecto ver “Declarando el diseño muestral” en Recursos complementarios.

4 El marco muestral para esta encuesta fue la cartografía actualizada para la realización de Censo de Población y Vivienda en 2005. En ese momento el país se dividió en segmentos censales, los cuales corresponden a agrupaciones de viviendas, en el área urbana un segmento censal tiene aproximadamente 150 viviendas, mientras que el área rural 120 viviendas.

5 El peso, ponderador o factor de expansión técnicamente es el inverso de la probabilidad de una unidad de ser seleccionada para la muestra, de manera práctica es la cantidad de unidades de población que esa muestra representa. Por ejemplo, si el peso de un hogar es 23 quiere decir que ese hogar representa a 23 hogares en las estimaciones poblacionales.