Conceptos que debes saber para empezar a analizar datos

Esta entrada es parte de los recursos del curso «Datos para COMPAS» (¡regístrate antes del 30 de mayo!) que impartiremos en junio 2022. Más adelante compartiremos otros recursos relacionados a análisis de datos para comunicadoras/es sociales.

Antes de adentrarse al mundo del análisis de datos es recomendable tener algunos conceptos claros. En el siguiente post te presentamos algunos conceptos que debes tener en cuenta antes de iniciar tu camino en el análisis de datos. Podrás identificar qué técnicas y metodologías podrás aplicar a los diferentes tipos de datos y variables, así como una guía para realizar cualquier análisis.

¿Qué es el análisis de datos?

via GIPHY

El análisis de datos tiene como objetivo examinar un conjunto de datos para así obtener tomar decisiones, obtener conclusiones o conocer más a fondo las diversas temáticas. 

Realizar un análisis requiere de llevar a cabo un proceso que consiste en la exploración de los datos, su transformación, examinación, para poder identificar tendencias y patrones. Los datos que se analizan pueden ser obtenidos de fuentes primarias o secundarias, pueden ser números, textos, datos geográficos, imágenes, etc. Depende del tipo de dato, la técnica que se puede aplicar.

Información y datos

Todo el tiempo estamos generando datos, a nuestro alrededor hay datos, incluso un párrafo escrito puede transformarse en datos.

Constantemente podemos utilizar información y datos de manera indiscriminada, sin embargo no son sinónimos. La información podemos encontrarla de forma no estructurada, y los datos deben esta estructurados.

Tipos y formato de datos

via GIPHY

Si queremos datos útiles, debemos analizarlos. Para ello debemos recurrir a diversas técnicas que dependen del tipo de datos que se esté recopilando, por lo que es importante tener definida la técnica a utilizar antes de implementarla.

  • Análisis de datos cualitativo: Los datos cualitativos se presentan de manera no estructurada. Las formas más comunes de obtener esta información es a través de entrevistas abiertas, grupos de discusión y grupos de observación.
  • Análisis de datos cuantitativos: Los datos cuantitativos se presentan en forma numérica de forma estructurada como en una tabla. Describe una característica en términos de un valor numérico o cantidad.

Los formatos en los que puedes encontrar datos son diversos y varían dependiendo de la facilidad de procesamiento. Así, por ejemplo, hay formatos comunes para texto, imagen o sonido, y otros que son frecuentemente utilizados sólo dentro de ciertas disciplinas o comunidades de investigación. El formato con el que tenemos más familiarización es el tabular, donde hay filas y columnas.

Establecer un formato apropiado es esencial para poder reproducir el contenido de los archivos de la manera correcta. Por ejemplo, puede dar formato a las fechas de modo que usen texto completo, era incluida, o bien que usen sólo números y muestren los dos últimos dígitos de los años. 

Recomendamos ampliamente, definir un formato para cada una de las variables, incluido un rango, eso evitará que trabajes doblemente para la limpieza de datos.

Introducción al data pipeline

Definir ✍️

Es en esta etapa en la que te hacer preguntas y llegas a los propósitos de tu proyecto. Definir tu problema implica pasar de un tema — contaminación ambiental, por ejemplo — a una o varias preguntas específicas  . Ser específico te fuerza a formular tu pregunta de tal manera que provee pistas hacia los tipos de datos que necesitarás. Este primer paso sentará la pauta para las siguientes etapas y te dará una idea de cómo avanzar a lo largo del proceso y sus implicaciones.

Buscar 🔍

La fase de definición del problema te sugiere qué datos necesitarás, buscar estos datos puede ser un proceso con mucha o poca dificultad, dependiendo del problema. Hay muchas herramientas y técnicas para hacer eso: desde una simple pregunta en tus redes sociales, hasta usar herramientas como un buscador, portales de datos abiertos o una solicitud de acceso a la información pidiendo datos que están disponibles en esa institución del gobierno. 

Recolectar 🗂️

Producir datos puede ser una tarea corta y fácil, o larga y compleja. Lo importante es diseñar un método replicable y elegir la manera más adecuada al proyecto, ya que de esa elección dependen sus alcances y conclusiones. Hay muchas maneras de lograrlo: puedes hacer crowdsourcing usando formularios en línea, generar cuestionarios con apps o impresos, hacer scrapping de varias páginas web en las que se encuentra tu información o convertir archivos no abiertos como PDFs en bases de datos filtrables y combinadas.

Verificar ✅

Obtener los datos no significa que el problema está resuelto. Es necesario verificar si su información es válida, así como revisar los metadatos y la metodología con la que se recolectó este conjunto de información. Es importante también conocer quién organizó este conjunto de datos y si es una fuente con credibilidad en el tema y en la técnica de recolección.

Limpiar 🧹

Es muy común que los datos que se obtienen y validan estén en desorden y tengan problemas de formato: filas duplicadas, nombres de columna que no combinan con los registros, valores que contienen caracteres raros o que impiden el procesamiento de la computadora y otros más. En este paso, necesitamos habilidades y herramientas que nos permitan tener los datos en un formato legible para analizarlo por computadora..

Analizar 🖥️

Esta es la parte en la que obtenemos conocimiento sobre el problema que definimos al principio. Al poner en práctica nuestras habilidades estadísticas y matemáticas, podemos entrevistar un conjunto de datos como cualquier periodista entrevista a sus fuentes. Solo que en vez de usar una grabadora y una libreta, analizamos con muchas herramientas y fórmulas. 

Presentar 📊

Es necesario presentar los datos: hablar con tu audiencia para que conozca las preguntas que buscabas responder y el medio que te ha permitido llegar a ciertas conclusiones o iniciar una conversación. En esta etapa debemos enfocarnos en entender buenas prácticas para presentar los datos de manera visual y sabernos dar a entender. Trucos, estrategias y conocimiento sobre cómo funcionan nuestros ojos y nuestro cerebro a la hora de estar frente a una visualización.