Qué Son Los Paquetes De Datos, Especificaciones, Recursos y Ejemplos

El paquete de datos es un simple formato de contenedor utilizado para describir y empaquetar una colección de datos. El formato proporciona un contrato simple para la interoperabilidad de los datos que permite la entrega, la instalación y la gestión de los datos sin fricciones.

Los paquetes de datos pueden utilizarse para empaquetar cualquier tipo de datos. Al mismo tiempo, para determinados tipos de datos comunes, como los datos tabulares, tiene soporte para proporcionar importantes metadatos descriptivos adicionales – por ejemplo, describir las columnas y los tipos de datos en un CSV.

Qué Son Los Paquetes De Datos, especificaciones, Recursos y Ejemplos

#El paquete de especificaciones del paquete de datos

Lee: 10 Tipos De Redes De Distribución Eléctrica, Que Son Y Cómo Funcionan

Los siguientes principios básicos informan nuestro enfoque:

  • Simplicidad
  • Extensibilidad y personalización por diseño
  • Metadatos que son editables por el hombre y utilizables por la máquina.
  • Reutilización de los formatos estándar existentes para los datos
  • Lenguaje, tecnología e infraestructura agnóstica

Con el tiempo, la especificación del paquete de datos único ha evolucionado hasta convertirse en un conjunto de especificaciones, en parte mediante la componentización, en la que la especificación original se encuentra en varios componentes, y en parte mediante la ampliación.

Las principales especificaciones son:

  • Especificación del Paquete de Datos, un formato simple de empaquetado de datos para compartir entre herramientas y personas
  • Paquete de datos tabulares, un formato para empaquetar datos tabulares que se basa en el paquete de datos y que utiliza:
    *Esquema de tabla, una especificación para definir un esquema para datos tabulares
    *Formato de Descripción de Dialectos CSV (CSV-DDF), una especificación para definir un dialecto para datos CSV.

¿Cómo se relacionan estas especificaciones?

Un paquete de datos puede “contener” cualquier tipo de archivo. Un Paquete de Datos Tabular es un tipo de Paquete de Datos especializado para datos tabulares y que “contiene” uno o más archivos CSV.

En un Paquete de Datos Tabulares, cada CSV debe tener un esquema definido usando el Esquema de Tabla y, opcionalmente, un dialecto definido usando CSV-DDF. Por lo tanto, una aplicación o biblioteca que consuma Paquetes de Datos Tabulares debe ser capaz de comprender no sólo la especificación completa del Paquete de Datos, sino también el Esquema de Tabla y el CSV-DDF.

Cómo empezar

Crear un Paquete de Datos es muy fácil: todo lo que necesitas hacer es poner un archivo “descriptor” de datapackage.json en el directorio de nivel superior de tu conjunto de archivos de datos.

Un mínimo ejemplo de Paquete de Datos se vería así en el disco:

Paquete de Datos

Se puede proporcionar cualquier cantidad de archivos adicionales, como más archivos de datos, scripts (para procesar o analizar los datos) y otro material, pero no es necesario.

Sugerencia: Hay una especificación completa de estilo RFC del formato del Paquete de Datos para complementar esta rápida introducción.

El formato de Paquete de Datos Tabular extiende los Paquetes de Datos para datos tabulares. Soporta el suministro de información adicional como los tipos de datos de las columnas

datapackage.json

El archivo datapackage.json es el elemento básico de un paquete de datos y es el único archivo requerido. Proporciona:

  • Metadatos generales como el nombre del paquete, su licencia, su editor y fuente, etc.
  • Un “manifiesto” en forma de lista de los recursos de datos (archivos de datos) incluidos en este paquete de datos, junto con información sobre esos archivos (por ejemplo, un esquema)

Como su extensión de archivo indica, debe ser un archivo JSON. Aquí hay un ejemplo mínimo de un archivo datapackage.json:

ejemplo mínimo de un archivo datapackage.json

Nota: una lista completa de los atributos potenciales y su significado se puede encontrar en la especificación completa del paquete de datos.

Nota: el formato del Paquete de Datos es extensible: los editores pueden añadir sus propios metadatos adicionales, así como restricciones en el formato y el tipo de datos, añadiendo sus propios atributos al paquete de datos.json.

Aquí hay un ejemplo mucho más extenso de un archivo JSON de paquete de datos:

ejemplo mucho más extenso de un archivo JSON de paquete de datos

Recursos

En la entrada de recursos del paquete de datos.json se listan los archivos de datos.

recursos del paquete de datos.json

Vistas

El Visor de Paquete de Datos mostrará una Vista Gráfica de Conjunto de Datos de Reclinación cuando se proporcione una entrada de vistas en el paquete de datos.json.

*Incluye la propiedad resourceName si tiene más de un recurso y quiere mostrar un gráfico para un recurso que no sea el primero

*En la propiedad del Estado

  • la propiedad de grupo es el nombre del campo de recursos cuyos valores se utilizarán en el eje y en el tipo de gráfico de barras y en el eje x en todos los demás tipos de gráfico
  • la propiedad de la serie es una matriz de uno o más nombres de campos de recursos cuyos valores se utilizarán en el eje x en el tipo de gráfico de barras y en el eje y en todos los demás tipos de gráficos
  • el gráficoEl tipo puede ser uno de líneas y puntos, líneas, puntos, barras o columnas

Paquete de Datos

Ejemplos

Muchos paquetes de datos ejemplares se pueden encontrar en datahub. Ejemplos específicos:

#PIB mundial

Un paquete de datos que incluye los datos locales en el repo (los datos son CSV).

http://datahub.io/core/gdp

Aquí está el paquete de datos.json:

https://pkgstore.datahub.io/core/gdp/9/datapackage.json

#Datos de las empresas S&P 500

Este es un ejemplo con más de un recurso en el paquete de datos.

http://datahub.io/core/s-and-p-500-companies

Aquí está el paquete de datos.json:

https://pkgstore.datahub.io/core/s-and-p-500-companies/10/datapackage.json

Te puede interesar: Concepto De La Ley De Ohm. Qué Es, Función y Usos

#GeoJSON y TopoJSON

Puedes ver un ejemplo de cómo empaquetar archivos GeoJSON aquí.

DataHub no soporta actualmente el formato TopoJSON. Puede utilizar “Vega Graph Spec” y mostrar sus datos TopoJSON utilizando la especificación Vega.

TAMBIÉN PODRIA INTERESARTE

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ir arriba