¿Qué es un dato?

Introducción

¡Bienvenido al curso para principiantes de School of Data en español! Este curso habla acerca de la visualización y discusión de bases de datos para que puedas contar una historia.
En este módulo aprenderás sobre las fuentes para buscar datos, empezando por conceptos básicos como cualitativo, cuantitativo, lectura mecánica, datos continuos y discretos, que enriquecen la búsqueda y selección de datos.

Todo empieza con una pregunta

La mayoría de las personas comienzan a buscar datos cuando tienen una pregunta en mente.
Por ejemplo: ¿Cuánto llueve en mi ciudad? o ¿Cómo gasta el gobierno el dinero? Una pregunta es una buena manera de iniciar una búsqueda de datos. Te ayuda a concentrarte y encontrar argumentos que te servirán para resolver tu pregunta. También te ayuda a seleccionar al tipo de audiencia interesada en la temática de tu pregunta, y así crear tu historia.

Y… ¿Si no tengo pregunta? En ese caso, puedes empezar a explorar. Eventualmente, te encontrarás con una base de  datos que llame tu atención, y puedes usar la información como si fuera tu pregunta inicial. Si encuentras un patrón en los datos, dicho patrón puede explicarse cuando averigues por qué se da. Generalmente, vale la pena contar estas historias.

De cualquier manera, si tienes una pregunta en mente o no, siempre debes de estar atento a los patrones inesperados que encuentres en las bases de datos. Cualquier dato que no esperabas, o aquéllos que consideres sorprendentes, te ayudarán a contar una historia. Generalmente, las mejores historias salen de cosas que no esperas.

Para este curso iniciaremos con una pregunta que te servirá para explorar las bases de datos: ¿Cómo impactan en la expectativa de vida los gastos en el sistema de salud? También exploraremos los patrones ocultos en los datos.

Tarea: Tu primera misión es pensar en una pregunta que te gustaría responder con el uso de datos.

¿Qué es un dato?

Los datos están alrededor de nosotros. ¿Pero qué son exactamente? Los datos indican un valor asignado a las cosas. Por ejemplo, observa la foto de  las bolas de golf que aparecen abajo.

Pelotas de golf en el mercado (CC) por Kaptain Kobold en Flickr.

¿Qué podemos decir sobre la imagen? Son pelotas de golf, ¿verdad? Entonces, uno de los puntos claves es que son usadas para jugar golf. El golf es un deporte.

Estos datos nos ayudan a poner en contexto a las pelotas. Pero la imagen nos dice mucho más cosas: son blancas, están usadas, tienen el mismo tamaño, son muchas, y probablemente tienen un valor económico, emocional, etc.

Las cosas más cotidianas e insignificantes tienen muchos datos inherentes a ellas. Nosotros también. Tenemos un nombre, apellidos, fecha de nacimiento, peso, altura, edad, nacionalidad. Todos éstos son datos.

En el ejemplo anterior, podemos darnos cuenta que existen diferentes tipos de datos. Las dos grandes categorías en las que se dividen son los datos cualitativos, y los datos cuantitativos.

  • Datos cualitativos: Son todos aquéllos que contestan la pregunta “¿Cuál?” (o “¿Cuáles?”). En este grupo se encuentran datos que indican color, textura, sentimientos, experiencias, los datos resultantes de entrevistas… todos éstos son datos cualitativos.
  • Datos cuantitativos: Son los datos que se refieren a números. Por ejemplo, el número de pelotas de golf, el tamaño, el precio… o datos como la calificación que obtuviste en tu examen.

También existen otras tipos de datos, pero los más usados son cualitativos y cuantitativos:

  • Datos categóricos: colocan el objeto por describir en una categoría. En el ejemplo de las bolas de golf, usamos el adjetivo “usadas”; así les otorgamos una categoría (otras pueden ser  “nuevas”, “rotas”, “brillantes”).
  • Datos discretos: son datos numéricos enteros y sólo se pueden expresar con una cifra. Por ejemplo: el número total de pelotas de golf podría ser 18 (no podría dar como dato discreto que hay 1.9 pelotas de golf). O si en una base de datos asignamos el valor de 1 para pelotas de golf usadas y 2 para pelotas de golf nuevas, los datos discretos sólo pueden ser 1 o 2; no 1.5.
  • Datos continuos: Son datos numéricos que sí pueden recibir cualquier valor. El tamaño de las pelotas de golf puede ser 10.48 mm o 10.52 mm, o la medida de tu pie puede ser de 25.5 cm.
Tarea: Usando el ejemplo de las pelotas de golf, ¿Puedes encontrar datos que pertenezcan a las diferentes categorías?

De los datos a la información y al conocimiento

Los datos colectados y estructurados son mucho más útiles. Realiza una tabla para ordenar tus datos.

Cada uno de los datos por sí mismo no nos da información. Para crear información de los datos, los necesitamos interpretar.

Toma el ejemplo del tamaño: el diámetro de 43mm no nos dice mucho. Sólo nos dice algo cuando se compara con otras cosas. En el mundo de los deportes existen regulaciones para los equipos utilizados; el diámetro mínimo de pelota de golf que puedes utilizar es de 42.67 mm. Entonces sí podemos emplear la de 43mm para la competencia.

Ahora: esto es información, pero todavía no es conocimiento. El conocimiento se crea cuando la información es aprendida, aplicada y comprendida.

Datos estructurados vs datos no estructurados

Datos para humanos

Una simple oración como “Tenemos 5 pelotas de golf blancas, usadas, con un diámetro de 43mm, y que cuestan 50 centavos cada una” puede ser entendida por un humano, pero, para una computadora, es difícil de entender. La oración anterior es lo que conocemos como datos no estructurados. Los datos no estructurados, valga la redundancia, no tienen una estructura subyacente. La oración se puede cambiar, y no queda muy claro qué palabra se refiere a que exactamente. De igual manera, los PDFs y las imágenes escaneadas pueden contener información útil para el ojo humano, pero no son legibles para la computadora.

Datos para las computadoras

A simple vista, nos podemos dar cuenta que las computadoras y nosotros somos muy diferentes. Puede llegar a ser muy difícil extraer datos de una computadora. Ciertas cosas que para nosotros sería muy fácil hacer, para las computadoras puede no serlo. Por ejemplo: interpretar un texto que esté presentado en forma de imagen es una tarea muy difícil para las computadoras.

Si deseas que tu computadora procese y analice tus datos, debe de ser capaz de leerlos y procesarlos. Esto quiere decir que deben de estar estructurados en una forma legible para las computadoras.

Una de las maneras más fáciles para hacer legibles tus datos es el formato CSV -archivo.csv-. Para la computadora, es como si agregaras comas en una oración. La puede interpretar como “cualitativo”, ”color”, “condición”, “categoría”.

Ésta es una manera muy simple de procesar los datos para tu computadora, ya que los puede leer como hojas de cálculo. Las comillas utilizadas (“”) son básicas para que la computadora pueda entender que es un texto. Los datos que son números no llevan comillas. Vale la pena mencionar que existen muchos otros formatos de este tipo.

Tarea: Piensa en el último libro que leíste. ¿Qué datos se relacionan con él, y como los podrías estructurar?

Resumen

En este tutorial explicamos los conceptos esenciales que nos ayudan a establecer una buena discusión sobre el uso de datos: ¿Qué es un dato? y ¿Cómo se estructura?

En el siguiente tutorial buscaremos bases de datos, y la manera en la que las podemos aprovechar.

Lecturas extras

Cuando tienes una base de datos nueva, ¿Debes sólo de explorar? ¿O debes de tener una hipótesis en mente para comenzar? Caelainn Barr es una reconocida periodista que nos explica la manera en la que te puedes familiarizar con una nueva base de datos:

Manual de periodismo de datos: http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_4.html

Visita diferentes formatos en common file formats (En inglés) en el manual de datos abiertos.