Archivos Darwin Core - Guía Práctica

Versión 2.1

cover art cicindelinae

Document Control

Versión Descripción Fecha de lanzamiento Autor(es)

1.0

Revisión y adiciones de contenido

Abril 2011

David Remsen, Markus Döring

2.0

Transferido a wiki, principales ediciones

9 Mayo 2017

Kyle Braak

2.1

Ediciones menores, actualización de enlaces, etc.

8 Febrero 2021

Matthew Blissett

2.2

Conversión a AsciiDoc

25 Mayo 2021

Matthew Blissett

Citación sugerida

GBIF (2021) Darwin Core Archives – How-to Guide, version 2.2. Copenhagen: GBIF Secretariat. https://ipt.gbif.org/manual/en/ipt/2.5/dwca-guide

Crédito de la portada: Kim Wismann, Cicindelinae

¿Qué es un Archivo Darwin Core (DwC-A)?

El Archivo Darwin Core (DwC-A) es un estándar de datos informáticos que utiliza los términos de Darwin Core para producir un conjunto de datos único e independiente para compartir niveles de especies (taxonómicos), datos de presencia de especies, y datos de eventos de muestreo. Un archivo es un conjunto de ficheros de texto, en formato estándar delimitado por comas o tabulaciones, con un fichero descriptor sencillo (denominado meta.xml) para informar a otros sobre cómo están organizado los ficheros. El formato está definido en la Guía de Textos Darwin Core. Es el formato preferido para la publicación de datos en la red de GBIF.

La idea central de un archivo es que sus ficheros de datos estén organizados de manera lógica en forma de estrella, con un fichero central de datos rodeado de un número de ficheros de extensión de datos. Los ficheros central y de extensión contienen registros de datos, uno por línea. Cada registro de extensión (o ‘fila del fichero de extensión’) apunta a un registro en el fichero central; de esta forma, pueden existir muchos registros de extensión para un mismo registro en el fichero central. A veces esto se denomina como "esquema en forma de estrella".

Los componentes de un Archivo Darwin Core.

Compartir conjuntos de datos completos como DwC-As permite la transferencia sencilla y eficiente de todo el conjunto de datos. (Sistemas anteriores, como DiGIR y TAPIR, requerían al sistema de GBIF hacer miles de solicitudes para cargar todos los datos en un único conjunto de datos, existiendo riesgo para la pérdida de datos.)

La elaboración de un DwC-A requiere del uso de identificadores estables para registros centrales pero no para las extensiones. Para cualquier tipo de datos compartido es por ello necesario que haya algún tipo de identificador de registro local. Es una buena práctica mantener - con los datos originales - identificadores que sean estables en el tiempo y que no sean reutilizados cuando se elimine el registro. Si es posible, deben proveerse identificadores globales únicos (GUID, por sus siglas en inglés) en vez de otros locales. Diríjase a Una Guía para Principantes sobre Identificadores Persistentes para obtener más información sobre los GUIDs. Este identificador se incluye en el "core ID" en DwC-As y el término Darwin Core específico con el que se corresponde es dependiente del tipo de datos que está siendo publicado.

Componentes del DwC-A

Un DwC-A puede contener un único fichero de datos o múltiples ficheros, dependiendo del alcance de los datos publicados. Los tipos específicos de ficheros que se pueden incluir en un Archivo son los siguientes:

  1. Un fichero central de datos requerido consta de un conjunto estándar de términos Darwin Core. El fichero de datos tiene un formato de texto por campos, donde los registros de datos se expresan como filas de texto, y los elementos (columnas) de datos están separados con un delimitador estándar como una tabulación o una coma (denominado comúnmente como CSV o ‘ficheros de valores separados por coma). Opcionalmente, la primera fila del fichero de datos puede contener datos o representar una "fila de encabezado". En general, si se incluye una fila de encabezado, ésta contiene los nombres de los términos Darwin Core representados en las filas posteriores de datos. Actualmente, GBIF acepta los siguientes tres tipos de datos de biodiversidad como base para un fichero central de datos:

    1. Datos de registros de presencia - La categoría de información perteneciente a la evidencia de la presencia en la naturaleza, en una colección, o en un conjunto de datos (espécimen, observación, etc.). Los ficheros centrales de este tipo son utilizados para compartir información sobre una instancia específica de un taxón tal como un espécimen u observación. El ID central requerido está representado por dwc:occurrenceID. La lista definitiva de términos de registros de presencia puede encontrarse en las Extensiones (Núcleo) de los Registros de Presencia.

    2. Datos de listados de especies - La categoría de información perteneciente a los taxones o conceptos de taxón como las especies. Los ficheros centrales de este tipo son usados para compartir listados de especies, taxonómicos o catálogos, y otra información sobre taxones. El ID central requerido está representado por dwc:taxonID. La lista definitiva de términos centrales de Taxón puede encontrarse en las Extensiones (Núcleo) de Taxón.

    3. Datos de eventos de muestreo - La categoría de información perteneciente a un evento de muestreo. Los ficheros centrales de este tipo son utilizados para compartir información sobre invetigaciones biológicas que pueden ser estudios puntuales o programas de monitoreo que normalmente son cuantitativos, calibrados y siguen ciertos protocolos para detectar cambios y tendencias de poblaciones. El ID central requerido está representado por dwc:eventID. La lista definitiva de términos centrales de Evento se puede encontrar en Extensiones (Núcleo) de Evento.

    Un fichero central de datos es un sencillo
  2. Los ficheros de "extensión" opcionales apoyan el intercambio de adicionales clases descritas de datos que se relacionan con el tipo de datos centrales (Registros de Presencia o Taxón). Un registro de extensión apunta a un registro en el fichero central de datos. Las extensiones se pueden aplicar únicamente a Taxones, Registros de Presencia o a ambos. Por ejemplo, la extensión de Nombres Vernáculos (ilustrada más abajo) es una extensión para la clase Taxón, mientras que la extensión Imágenes puede utilizarse en ambos clases de conjuntos de datos. Las extensiones pueden ser creadas y añadidas al Repositorio de Extensiones de GBIF siguiendo un proceso de consulta y desarrollo con GBIF. La lista definitiva de Extensiones aceptadas se puede encontrar en el Repositorio de Extensiones GBIF.

    Una extensión se vincula con el fichero central mediante el ID común del taxón
  3. Un descriptor metafile describe cómo están organizados los contenidos de su archivo. Describe los contenidos del archivo y asigna cada columna de datos a un término del estándar Darwin Core o Extensión. El metafile es un formato de archivo XML relativamente simple. GBIF proporciona una herramienta online para hacer este archivo, pero el formato es lo suficientemente simple como para que muchos administradores de datos puedan generarlo manualmente. Estas opciones se describen en la sección Opciones de Publicación de este documento.

    Un metarchivo es necesario cuando un Archivo incluye cualquier fichero de extensiones o si un único fichero central de datos utiliza nombres no estándar de columnas en la primera fila (encabezado) de datos. Existe disponible una completa guía de referencia para este metarchivo aquí.
    El metarchivo describe los nombres y campos de los ficheros en los ficheros centrales y de extensiones
  4. Los conjuntos de datos requieren documentación. Esto se logra en un DwC-A incluyendo un documento de metadatos del recurso que proporciona información sobre el conjunto de datos en sí mismo, tal como una descripción (resumen) del conjunto de datos, los agentes responsables de la autoría, publicación y documentación, información bibliográfica y de citas, métidos de colecta y mucho más. Actualmente, GBIF apoya un perfil de metadatos basado en el Lenguaje de Metadatos Biológicos pero existen otros estándares de metadatos que pueden ser aceptados. La descripción del Esquema XML del Perfil de Metadatos de GBIF se puede encontrar en el Repositorio del Esquema GBIF

    Un documento de metadatos describe el conjunto de datos completo

    Todos los ficheros de la colección (datos centrales, extensiones, metarchivos y metadatos de recursos) debería estar comprimidos en un único archivo. Los formatos de compresión aceptados son ZIP y TAR.GZ/TGZ.

    Los ficheros están comprimidos en un único archivo

    ¡Este fichero único y comprimido es el DwC-A!

Soluciones para la Publicación de Datos DwC-A

Existen varias opciones diferentes para generar un DwC-A.

Para ayudarle a seleccionar la solución más apropiada para crear su propio Archivo, considere las siguientes cuestiones:

  1. ¿Sus datos han sido digitalizados? (En caso afirmativo, se asume que usted puede convertir los datos en formato CSV o Tab).

  2. ¿Sus datos están almacenados en una base de datos relacional?

  3. ¿Cuántos conjuntos de datos (Archivos DwC) separados planea publicar?

Publicar DwC-A usando el IPT es lo más adecuado cuando:

  • Sus datos ya han sido digitalizados.

  • Sus datos están o no ya en una base de datos relacional

  • Usted necesita crear/gestionar múltiples Archivos.

  • Usted quisiera documentar conjuntos de datos utilizando el Perfil de Metadatos de GBIF.

  • Sus datos no han sido digitalizados aún.

  • Usted ya gestiona datos utilizando hojas de cálculo.

  • Usted necesita una solución sencilla para crear/gestionar un número de conjuntos de datos limitados

  • Usted necesita orientación adicional sobre la captura y formateo de datos

Publicar DwC-A manualmente es lo más apropiado cuando:

  • Sus datos ya han sido digitalizados.

  • Sus datos pueden estar en una base de datos relacional.

  • Usted solo necesita crear/gestionar un número pequeños de Archivos y/o tiene las habilidades técnicas para automatizar/codificar el proceso de generación de Archivos.

A contiuación se muestra una discusión más detallada de estas tres opciones.

Publicar DwC-A usando el IPT

Supuesto: Sus datos ya están almacenados como un fichero de texto CSV/tab, o en uno de los sistemas de gestión de bases de datos relacionales aceptados (MySQL, PostgreSQL, Microsoft SQL Server, Oracle, Sybase). Lo ideal sería que ya esté usando los términos de Darwin Core como nombres de columnas, aunque esto no es necesario.

La Herramienta de Publicación Integrada (IPT) es la herramienta insignia de GBIF para la publicación de DwC-As.

La forma más sencilla de empezar a utilizar el IPT es solicitar una cuenta gratuita en un centro de almacenamiento de datos de confianza permitiéndole gestionar sus propias bases de datos y publicarlas a través de GBIF.org sin la molestia de configurar y mantener el IPT en su propio servidor.

De lo contrario, si quiere configurar su propia instancia del IPT, la Guía de Introducción es su punto de inicio.

El IPT puede ser utilizado para publicar metadatos de recursos, datos de registros de presencia, datos de listados de especies, y datos de eventos de muestreo. La guía Cómo publicar datos de biodiversidad a través de GBIF.org proporciona un conjunto de instrucciones sencillas sobre cómo hacerlo.

El IPT genera un DwC-A durante la publicación y apoya el registro automático en la red de GBIF. Para más detalles consulte el Manual de Usuarios del IPT.

Publicar DwC-A utilizando Modelos de Hojas de Cálculo de GBIF

Supuesto: Los datos de presencia de especies, datos taxonómicos simples, o datos de eventos de muestreo a publicar no se han obtenido aún en formato digital O se desea una solución sencilla para la creación de un documento de metadatos para describir un conjunto de datos.

GBIF proporciona un conjunto de hojas de cálculo de Microsoft Excel pre-configuradas que sirven de modelo para obtener datos de presencia de especies, datos de listados de especies y datos de eventos de muestreo:

  1. Modelo de datos de listados de especies: apropiado para listados de especies básicos

  2. Modelos de datos de presencia de especies: apropiado para datos de presencia de especies (espécimen, observación)

  3. Modelo de datos de eventos de muestreo: apropiado para datos de eventos de muestreo

Todos los modelos proporcionan ayuda e instrucciones en línea en las hojas de trabajo.

Para publicar los datos como un DwC-A, cargue los modelos en el IPT. Utilice el editor de metadatos incorporado. La guía Cómo publicar datos de biodiversidad a través de GBIF.org proporciona un conjunto de instrucciones sencillas sobre cómo hacerlo. Si requiere una cuenta en un IPT, se recomienda encarecidamente que la solicite a un centro de alojamiento de datos de confianza ubicado en su país.

Publicar DwC-A manualmente

Supuesto: Los datos están ya en un archivo de texto CSV/Tab, o en uno de los sistemas de gestión de bases de datos relacionales aceptados (MySQL, PostgreSQL, Microsoft SQL Server, Oracle, Sybase). El publicador no desea alojar una instancia de IPT pero tiene acceso a un servidor web.

Los DwC-A se pueden crear sin necesidad de instalar un software específico. Estas instrucciones van dirigidas a los administradores de datos que están familiarizados con el conjunto de datos que se va a publicar y se sienten cómodos trabajando con su sistema de gestión de datos.

A continuación, se muestra un conjunto de instrucciones sobre cómo crear de manera manual un Archivo DwC:

  1. A menos que los datos estén ya almacenados en un archivo de texto CSV/Tab, el publicador necesitará preparar un archivo de texto o varios desde la fuente. Si los datos están almacenados en una base de datos, genere un archivo de salida de texto delimitado a partir de la base de datos de origen. La mayoría de sistemas de gestión de bases de datos apoyan este proceso; se proporciona un ejemplo en el Anexo de esta guía, más adelante, en la sección “Producción de Datos Desde una Base de Datos MySQL a un Archivo de Texto”. Como el metarchivo ya relaciona las columnas del archivo de texto con los términos Darwin Core, no es necesario utilizar los términos Darwin Core como encabezado de las columnas en el archivo de texto resultante, sin embargo hacerlo puede ayudar a reducir errores. Una recomendación general sería producir un único fichero central de datos y un único fichero por cada extensión si la intención es producir datos unidos a una extensión.

  2. Crear un Metarchivo: Existen tres formas diferentes de generar el fichero:

    1. Créelo manualmente utilizando un editor XML y usando un metarchivo de muestra como ejemplo. Se puede encontrar una descripción completa del formato del metarchivo en la Guía de Texto Darwin Core.

    2. dwc a assistant

      Créelo utilizando la herramienta web Asistente de Archivos Darwin Core. Simplemente, seleccione los campos de los datos a publicar, proporcione algunos detalles sobre los ficheros y guarde el XML resultante. Esto solo es necesario hacerlo una vez a menos que el conjunto de campos publicados cambie en el futuro.

      esta herramienta ya no es compatible con GBIF. Falta soporte para el Evento central. Los publicadores necesitan también añadir de forma manual el término dwc:taxonID a los taxones centrales y dwc:occurrenceID a las presencias de especies centrales, para asegurar que se han incluido.
  3. Cree un fichero de metadatos (eml.xml) que describa la fuente de datos. Puede encontrar instrucciones completas sobre cómo hacerlo en el Perfil de Metadatos Extendidos de GBIF: Guía Práctica. La mejor práctica es incluir un fichero de metadatos y la forma más sencilla de hacerlo es mediante el uso del editor de metadatos incorporado del IPT.

  4. Asegúrese de que los ficheros de datos, el metarchivo (meta.xml) y el fichero de metadatos (eml.xml) están en el mismo directorio o carpeta. Comprima la carpeta utilizando uno de los formatos compatibles. El resultado es un DwC-A.

Los metadatos creados mediante el IPT pueden generarse como un documento RTF que podría ser enviado como un manuscrito de ‘Artículo de Datos’ a Zookeys, PhytoKeys y BioRisks. Explore las instrucciones dirigida a los autores para el envío de ‘Artículos de Datos’ a estas revistas.

Validación de DwC-As

GBIF proporciona un Validador de Archivos DwC online que ejecuta las siguientes comprobaciones:

  • El metarchivo (meta.xml) es un XML válido y se ajusta a las Guías de Texto Darwin Core.

  • El contenido se ajusta a las extensiones conocidas y términos registrados por la red de GBIF. Tenga en cuenta que GBIF ejecuta un registro de producción y de desarrollo que permite el seguimiento de extensiones; el validador utiliza el registro de producción.

  • El fichero de descripción del recurso (eml.xml) es un XML válido y se ajusta al esquema del Perfil de Metadatos de GBIF y al esquema oficial de un EML.

  • Integridad referencial - que los términos ID mapeados en los ficheros de extensiones hagan referencia a registros existentes en los registros del fichero central.

  • Todos los IDs del fichero central son únicos

  • Que no se hallen valores originales nulos en los datos. Por ejemplo NULL o \N

  • La taxonomía y las localizaciones pasan típicos procesos de interpretación de GBIF (ej.: las coordenadas se encuentran en el país específico)

Para utilizar el validador:

  1. Cargue el DwC-A utilizando el formulario proporcionado en la página web del Validador.

  2. Validar

  3. Revise la respuesta y aborde cualquier error de validación

  4. Repita el proceso hasta que el fichero haya sido validado satisfactoriamente.

  5. Si se bloquea, contacte con el Servicio de Asistencia de GBIF (helpdesk@gbif.org).

Registo de DwC-As en GBIF

Se debe incluir una entrada del recurso en el Registro de GBIF permitiéndole ser descubierto y estar accesible. Cada nuevo registro debe estar asociado con una organización publicadora que haya sido formalmente registrada por un administrador de un Nodo Participante en GBIF. Esto es un simple control de calidad requerido por el Comité de Administradores de Nodos Participantes en GBIF.

Afortunadamente, las API del IPT y de GBIF dan soporte para el registro automático de conjuntos de datos. De lo contrario, si usted está publicando DwC-As de manera manual, inicie el registro enviando un correo electrónico a helpdesk@gbif.org con la siguiente información:

  1. Título del conjunto de datos

  2. Descripción del conjunto de datos (copiada del fichero de metadatos)

  3. Nombre de la organización publicadora (debe estar registrada en GBIF, de lo contrario regístrela rellenando este cuestionario online).

  4. Su relación con esta organización

  5. URL del conjunto de datos (dirección de acceso público al DwC-A comprimido)

Recibirá un correo electrónico de confirmación y una URL de la entrada del recurso en el Registro.

Los usuarios avanzados pueden solicitar permiso para registrar conjuntos de datos en masa, integrando la API de GBIF en sus sistemas existentes. Se proporciona un ejemplo básico de un script de shell de Linux (Bash); contacte al servicio de asistencia para más información.

Anexo: Prepare sus Datos

Términos requeridos y recomendados

La guía Cómo publicar datos de biodiversidad a través de GBIF.org proporciona un conjunto de términos requeridos y recomendados para cada tipo de datos:

  1. Datos de listados de especies: términos requeridos / términos recomendados

  2. Datos de presencias de especies: términos requeridos terms / términos recomendados

  3. Datos de eventos de muestreo: términos requeridos / términos recomendados

  4. Metadatos de recursos: términos requeridos terms / términos recomendados

Codificación de caracteres

La mejor práctica recomendada es codificar archivos (de datos) de texto utilizando UTF-8.

Las siguientes herramientas para Linux, Mac y Windows se pueden utilizar para convertir codificaciones de caracteres de archivos:

Ej.: Convertir codificaciones de caracteres de Windows-1252 a UTF-8 usando iconv:

iconv -f CP1252 -t utf-8 example.txt > exampleUTF8.txt

Datos desde una Base de Datos

Es sencillo producir archivos de texto delimitado desde una base de datos utilizando comandos SQL. Para MySQL, utilice el comando SELECT INTO outfile. La codificación del archivo resultante dependerá de las variables del servidor y de las intercalaciones utilizadas, y es posible que requieran ser modificadas antes de que acabe la operación. Tenga en cuenta que MySQL exportará valores NULL como \N por defecto. Utilice la función IFNULL() como se muestra en el siguiente enlace para evitar esto:

SELECT
  IFNULL(id, ''), IFNULL(scientific_name, ''), IFNULL(count,'')
  INTO outfile '/tmp/dwc.txt'
  FIELDS TERMINATED BY ','
  OPTIONALLY ENCLOSED BY '"'
  LINES TERMINATED BY '\n'
  FROM dwc;

Otras recomendaciones para la generación de datos usando consultas/funciones de SQL:

  • Concatenar o dividir cadenas según sea necesario, p. ej. para construir la cadena del nombre científico completo (cuidado con los autónimos)

  • Aplicar formato a las fechas para ajustarse al formato de fecha y hora ISO (1990-02-03 o 1990-02 si se desconoce el día, 1990 si el mes también se desconoce, 1990-02-03/1990-02-28 para dar un rango).

  • Cree año/mes/día mapeando los tipos de fecha nativos de SQL

  • Utilizar UNION para unir 2 o más tablas, p. ej. taxones aceptados y sinónimos o especímenes y observaciones

Ejemplos para el archivo DwC-A

La guía Cómo publicar datos de biodiversidad a través de GBIF.org proporciona un conjunto de ejemplos DwC-A para cada tipo de datos:

  1. Lista de verificación de datos: conjunto de datos de ejemplo

  2. Datos de presencia o ausencia de especies: conjunto de datos de ejemplo

  3. Datos de eventos de muestreo: conjunto de datos de ejemplo

  4. Metadatos del recurso: conjunto de datos de ejemplo