Seguramente te has encontrado con una tabla o archivo de texto que contiene formatos que solo de verlos quieres salir corriendo -como las eñes, los acentos o las fechas-, sería ideal tener una varita mágica que limpie y arregle todo rápidamente. Sin embargo, esos trucos aún no existen, es por eso que preparamos este texto con el objetivo de mostrarte cómo lidiar con estos formatos para que no sean un dolor de cabeza.

  • ¡Los acentos no se leen correctamente!

El español, al igual que todos los idiomas y lenguas, tiene su propia estructura gramatical, eso incluye las eñes y los acentos. 

De tal manera que, para que un texto humano sea legible para la computadoras y viceversa, se crearon las codificaciones de caracteres. Así es como nació el estándar Unicode el cual reemplaza y unifica las codificaciones de caracteres existentes mediante diferentes esquemas denominados «Formatos de Transformación Unicode» (UTF).

La norma Unicode, que es una gran tabla, abarca todos los alfabetos europeos, ideogramas chinos, japoneses, coreanos y muchas otras formas de escritura. El más popular es el tipo UTF-8, el cual evita que los caracteres especiales sean interpretados de manera diferente por los lectores y navegadores, haciendo ilegibles los textos para los usuarios. ¿Cómo se puede solucionar esto?

Antes que nada, es recomendable guardar los datos con los que trabajas en un formato de texto plano (.CSV o .TXT) , eso simplificará el manejo de los caracteres especiales.

Ahora, en el caso que tengas un archivo que al importarlo los caracteres especiales no se interpretan correctamente, por ejemplo:

Lo único que debes hacer es importarlo con la codificación más adecuada, la sugerencia es que sea con UTF-8. De la siguiente manera:

  1. En la pestaña de Datos, ubicar y seleccionar “Desde texto”.

      2. Una vez seleccionado el archivo, selecciona la codificación “UTF-8”. De la siguiente manera.

3. Selecciona el tipo de separador de valores, por ejemplo, comas. Como se muestra debajo.

     4. Como resultado de una correcta importación, los caracteres especiales, como las palabras con acentos, se interpretarán correctamente.

  • Fechas

Las fechas se contabilizan diferente, dependiendo del programa. En Excel se almacenan como números de serie secuenciales. La fecha 1 de enero de 1900 es el número de serie 1 y la fecha 1 de enero de 2008 es el número de serie 39448.

Otros programas especializados como Stata, utiliza una codificación numérica que se centra en el primer milisegundo del 1° de enero de 1960. A esa fecha y hora se le asigna un valor entero 0.

Por otro lado, programas como R y Python, cuentan con librerías para trabajar con fechas. Sin embargo, en ocasiones cuando se importan hojas de cálculo de Excel que contienen fechas, estas no se interpretan correctamente por la diferencia en que se cuenta el tiempo. Para evitar estos contratiempos se recomienda que guardes tus archivos en un formato que omita estas configuraciones específicas.

  • Signos y comas en cifras

En ocasiones encontramos o ponemos formatos a las columnas que contienen cifras con el objetivo de estilizar nuestros datos. Esto sucede con gran frecuencia cuando nos referimos a variables que reflejan montos de dinero, ya sea colocando el signo “$” o añadiendo a qué moneda estamos aludiendo. 

Si bien, en las hojas de cálculo los signos se interpretan sin mayor complicación, con la referencia a la moneda no sucede lo mismo, habría que eliminarlo. La siguiente fórmula de Excel funciona para suprimir los caracteres. 

SUSTITUIR() SUSTITUIR(CELDA, “el valor a sustituir”, “el valor que sustituirá”) = SUSTITUIR((«1234567890» , 345, «abcde» ) 

devuelve: 12abcde67890

En programas como Python, R o Stata, se pueden usar expresiones regulares para eliminar los caracteres no deseados, igualmente existen paquetes que facilitan la localización y reemplazamiento de dichos caracteres.

  • Valores faltantes

Son aquellas observaciones de las que no tenemos información. Los podemos encontrar de muchas maneras, a veces celdas vacías, puntos, guiones, asteriscos, números (los más comunes: 99, 999, incluso 9999), o bien, con cadenas de caracteres como: “NA”, “NANs” y “n/d”. 

Por convención se recomienda únicamente dejar la celda vacía, los programas lo interpretarán sin problema como un valor perdido; también puedes crear diccionarios de datos, así como metadatos, para facilitar la interpretación por otros usuarios y por documentación de tus proyectos.

  • Otros dolores de cabeza

Como última recomendación, para facilitar el análisis y evitarte el susto, te sugerimos pensar en la universalidad de tus datos y en el tiempo que te ahorrarás limpiandolos en el futuro, evita fusionar columnas o escribir los nombres de las columnas con espacios y  mayúsculas. Igualmente, guarda tus archivos en formatos abiertos que aseguren su reproducción sin que haya necesidad de contar con una licencia, por ejemplo en formato .CSV o .TXT