En esta publicación estaremos hablando sobre los datos espaciales, sus características más importantes y ejemplos de tipos de información en que se utilizan. En la primera parte nos enfocaremos en generalidades sobre los tipos de datos espaciales, qué tipos existen y qué tipo de información guardan. En la segunda entraremos más en detalle sobre los distintos archivos más populares para guardar estos tipos de datos.
Tipos de datos espaciales:
Los datos espaciales se pueden agrupar en dos tipos generales: los datos vectoriales y los datos rasterizados (o también llamados datos raster o «mapas de bits»). Estos dos tipos existen ya que por sus características, cada uno puede representar de mejor manera distintos componentes del espacio. Por ejemplo: los datos de caminos, ubicaciones de edificaciones o poblados normalmente se guardan como datos vectoriales, mientras que las imágenes de satélite o fotos aéreas como datos raster. En el caso de ambos, existen formatos de datos abiertos y propietarios.
Antes de entrar en detalle de los distintos formatos utilizados es importante tener claras las entidades que componen ambos tipos de datos espaciales:
Los datos vectoriales pueden representar tres tipos distintos de entidades: puntos, líneas y polígonos.
- En el caso de los puntos, cada punto tiene coordenadas X-Y que definen su ubicación en el espacio.
- En el caso de las líneas, cada línea tiene un par de coordenadas para cada uno de sus vértices. El ejemplo más sencillo es una recta, que se representaría como la línea que existe entre las coordenadas de su punto de inicio y las de su punto final.
- Los polígonos son datos con coordenadas para cada uno de los vértices que lo componen. Un polígono podría pensarse como el área que se limita por un conjunto de líneas consecutivas que inician y terminan en el mismo punto.
Vale mencionar que una característica importante de los datos vectoriales es que cada una de sus entidades (cada línea, punto o polígono de un archivo) puede tener una tabla de atributos asociados. Esto significa que, por ejemplo, cada sección de un camino puede tener una tabla de atributos con información como «material de que está hecho», «número de carriles», «grosor del pavimento», etc.
Los datos raster, en cambio, son una malla (o dicho técnicamente, una matriz) donde cada celda (o pixel) tiene un tamaño similar y un valor específico. En el caso de las imágenes a color, el raster estaría compuesto por tres matrices sobrepuestas, cada una con celdas que tienen el valor correspondiente a un color primario (enlace a teoría del color). Cuando se utilizan imágenes de satélite u otros sensores (multiespectrales o hiperespectrales) cada archivo puede contener hasta cientos de matrices que representan distintos rangos de lo observado.
Aparte de imágenes, es común tener en archivos raster modelos de elevación digital, que son «imágenes» (una sola matriz) con los valores de elevación promedio del área que corresponde a cada celda.
En resumen:
Los archivos vectoriales los usamos para guardar geometrías como puntos, líneas o polígonos. Usualmente representan entidades del paisaje que se acoplan a esas características como: centros de pueblos, ubicación de edificios, ríos, caminos, lotes o predios.
Los archivos raster los utilizamos para guardar imágenes o conjuntos de datos espaciales donde haya una gradación entre valores y/o cuando los límites entre los componentes del paisaje son muy difusos; por ejemplo: fotos aéreas, imágenes de satélite, modelos de elevación o modelos climáticos.
Tipos de archivos para datos espaciales
Shapes
En el caso de los archivos vectoriales, el formato más popular es el shapefile. Este es un archivo que fue desarrollado originalmente por la empresa ESRI y que puede contener únicamente un tipo de dato vectorial (o puntos, o líneas o polígonos). Los archivos shape realmente son un conjunto de archivos binarios que para desplegarlos deben tener el mismo nombre y ubicarse en un mismo folder. Los tres archivos básicos que componen un shapefile terminan en .shp, .shx y .dbf.
GeoJSON
Uno de los formatos abiertos más utilizados para distribuir datos geográficos es el GeoJSON. Este, al igual que el JSON popularmente utilizado en el web, es un archivo de texto pero que también guarda las coordenadas de los vértices de las entidades que se representan. Al ser un archivo de texto, en geometrías complejas (con muchos vértices) su tamaño será mucho mayor que cuando los datos se guardan en formatos binarios .
GeoPackage
Otro formato abierto que ha tomado fuerza en la comunidad de usuarios de SIG es el GeoPackage (terminación de archivos en .gpkg). Este es un archivo binario (es un contenedor de la base de datos SQLite) que tiene la gran ventaja de poder contener tanto datos vectoriales como raster e inclusive tablas de metadatos.
KML
El Keyhole Markup Language (KML) es un tipo de formato abierto originalmente utilizado para desplegar y guardar datos en Google Earth pero que se ha vuelto común entre los usuarios de datos geográficos de otras plataformas. El formato se utiliza para guardar datos vectoriales pero también puede contenter en archivos con terminación .kmz imágenes sobrepuestas, íconos y otros elementos.
CSV
Vale la pena mencionar que en su representación más simple (puntos), los archivos vectoriales también pueden representarse como texto separado por comas (.csv), con columnas para los pares de coordenadas.
GeoTIFF
En el caso de los datos raster, existen una gran variedad de archivos capaces de almacenarlos. Uno de los más populares es el GeoTIFF, una modificación al popular archivo de imágenes TIFF, pero que le permite guardar datos con coordenadas geográficas. Normalmente el archivo con terminación .tif debe de acompañarse con un archivo del mismo nombre pero con terminación .tfw, que es el world file que le da la referencia geográfica al raster.
Otros archivos propietarios comunes para guardar datos raster y que también se pueden leer en muchos de los programas más utilizados son los .img del software ERDAS Imagine y los archivos .sid, también conocidos como MrSID.
NetCDF
En cuanto a formatos abiertos para datos raster, el más utilizado, especialmente para datos climáticos, es el netCDF (terminación de archivos en .nc). Este formato es sumamente ágil para guardar todo tipo de datos y tiene muchas ventajas para el procesamiento en herramientas gratuitas. Dependiendo de la fuente de los datos, estos archivos pueden llegar a pesar teras completos, por lo que su manipulación puede requerir más experiencia en el manejo y análisis de este tipo de datos.
WebServices
Los estándares de servicios web para datos geográficos más populares actualmente son los WMS y WFS. Estos se accesan a través de un URL que puede integrarse a sitios web y programas de SIG para desplegar o descargar los datos. Muchos de los portales de Infraestructura de Datos Espaciales (IDEs) de los gobiernos sirven ambos tipos de servicios web y son una fuente muy importante para obtener datos geográficos oficiales.
El Web Feature Service (WFS) es un protocolo que proporciona datos vectoriales y que, dependiendo del programa en que se estén desplegando, permite guardar localmente los datos en cualquiera de los formatos para vectores que se mencionaron anteriormente.
Los Web Map Service (WMS) sirven datos en mapas de bits («imágenes») que, a diferencia de los WFS, no pueden descargarse como datos crudos. Si, por ejemplo, se utiliza un IDE para accesar fotos aéreas o mapas antiguos, se debería de utilizar un WMS.
Por Guillermo Durán
Ingeniero forestal y geógrafo, fellow en cambio climático por la Iniciativa Latinoamericana por los Datos Abiertos y Escuela de Datos. Tiene experiencia en el uso de diferentes tecnologías, como programación en R, PostgreSQL, ArcGIS y QGIS. Su trabajo en biogeografía lo ha llevado a diseñar áreas protegidas en Panamá, georeferenciar los datos de los museos de Historial Natural o trabajar en las distribuciones de ciertas especies en futuros climáticos usando Machine Learning. Guillermo estudió ingeniería forestal en Instituto Tecnológico de Costa Rica y luego obtuvo una maestría en Geografía en la Universidad Estatal de San Francisco, California. Ha colaborado con el Centro de Investigaciones Geofísicas de la Universidad de Costa Rica con el análisis y visualización de modelos climáticos.