Darwin Core

Darwin Core es un estándar TDWG, el cual se basa en las ideas del popular Dublin Core Metadata Initiative. Un principio fundamental del Darwin Core como una biblioteca de términos es mantener la definición de los términos diferenciada de la tecnología usada para compartirla, p. ej., XML o RDF.

IPT y Darwin Core

El IPT tiene integrados los principales tipos de datos de biodiversidad, que se basan en los términos del Darwin Core (DwC). Los tipos de datos son registros biológicos"Occurrence", listados taxonómicos "Checklist" y metadatos "Metadata", cada uno de los cuales tiene un conjunto fijo de términos para describirlo.

Historia del Darwin Core

Hasta la ratificación de Darwin Core como estándar, se usaba para describir datos primarios de registros biológicos, en concreto a través de DiGIR y la codificación XML. Cuando estuvimos buscando un formato sencillo de intercambio de datos de listados taxonómicos, y con el aumento de las menciones de especies en Flickr, se hizo evidente que unos términos sencillos para la biodiversidad en la tradición de Dublin Core serían muy útiles, y de hecho se solapan en gran medida con los términos Darwin Core que ya se utilizaban.

Términos

Todos los términos Darwin Core son definidos en Guía de referencia rápida de los términos Darwin Core

Un único término DwC, en el IPT llamado a menudo propiedad, puede ser usado una vez para cada registro. Habitualmente es de texto libre pero la definición recomienda a menudo ciertos formatos o vocabularios a utilizar, p. ej., los códigos ISO de 2 letras para países en el término dwc:countryCode.

Patrones

Términos ID

DwC proporciona muchos de los términos para identificadores. Algunos pueden ser utilizados para definir un registro (como occurrenceID para un registro biológico; taxonID para un registro de un taxón), mientras otros (como higherGeographyID) se refieren a un identificador para la información recogida fuera del registro. Por ejemplo, namePublishedInID se utiliza para referirse a un identificador (puede que un DOI u otro identificador resoluble) para la publicación en la que se estableció originalmente un scientificName. Tenga en cuenta que taxonID utilizado en un conjunto de datos de registros biológicos funcionaría como un indicador para un taxón definido en algún otro lugar, tal como un conjunto de datos de un listado taxonómico, mientras que taxonID en un registro de taxón actuaría como el identificador de ese registro.

La mayoría de términos tienen un término de texto completo correspondiente, p. ej., acceptedNameUsageID y acceptedNameUsage. Éstos tienen dos propósitos:

  1. En ausencia de un identificador pueden utilizarse para referirse a otro registro, en este caso el taxón aceptado/válido.

  2. Proporcionan un contexto legible que persiste incluso si el identificador no puede ser resuelto

Por lo tanto, tiene sentido proporcionar ambos si es posible.

Jerarquías desnormalizadas

La geografía y la taxonomía se pueden expresar como una jerarquía flexible de lugares o taxones a través de los términos higherParentNameUsage(ID) y higherGeography(ID). Además de esta lista adyacente, las clasificaciones más populares se pueden publicar como una jerarquía desnormalizada para cada registro, repitiendo de manera efectiva esta información a través de muchos registros. Pero proporciona una clasificación corta, rápida y legible para cada registro aislado del conjunto de datos completo.

  • Clasificación taxonómica desnormalizada: kingdom, phylum, class, order, family, genus, subgenus

  • Clasificación geográfica desnormalizada: continent, waterBody, islandGroup, island, country / countryCode, stateProvince, county, municipality

Al igual que con los términos ID de texto completo de arriba, éste introduce la posibilidad de problemas de integridad de datos ya que el término ID podría resultar en algo diferente a la jerarquía desnormalizada. En este caso, el IPT sigue la recomendación del siguiente orden de términos para resolver la jerarquía:

Término ID >> término en texto >> término desnormalizado
higherTaxonID >> higherTaxon >> kingdom,family,...

Términos originales

Algunos términos poseen un término original correspondiente. Esto permite incluir la publicación de la transcripción original exacta de ciertos atributos tal y como se encontraron en la etiqueta del espécimen, la observación de la libreta de campo o la bibliografía. De esta forma el verbatimEventDate puede ser utilizado para publicar la transcripción exacta de la fecha de colecta, mientras eventDate puede ser codificado en una representación estándar ISO de tiempo y fecha.

Datos primarios

Todos los términos DwC se pueden usar para describir registros de presencias de especies. Se recomienda publicar al menos los siguientes términos. Los términos marcados con !!! tienen que estar presentes para ser reconocidos por la indexación actual de GBIF:

Ejemplo

occurrenceID=96db9d09-596d-409c-8626-f4460078d0eb
institutionCode=BGBM
collectionCode=B
basisOfRecord=preservedspecimen
catalogNumber=1159
eventDate=1999-08-06 00:00:00.0
collector=Markus Döring
continent=Asia
country=TR
stateProvince=Adana
locality=Aladaglari, lower Narpiz Deresi, next to fountain, 2900m
minimumElevationInMeters=2900
decimalLatitude=37.82800
decimalLongitude=35.13600
geodeticDatum=WGS84
identifiedBy=Markus Döring
scientificName=Festuca anatolica subsp. anatolica
kingdom=Plantae
phylum=Magnoliophyta
class=
order=Cyperales
family=Poaceae
genus=Festuca
specificEpithet=anatolica
infraspecificEpithet=anatolica

Listados taxonómicos

Los listados taxonómicos se limitan al ± subconjunto taxonómico de todos los términos Darwin Core.

El Archivo Darwin Core

Los Archivos Darwin Core (DwC-A) son los nuevos medios primarios de publicación de datos en la red de GBIF. Contienen un conjunto de datos completo están basado en archivos de texto simple y pueden ser creados da manera bastante sencilla sin el IPT usando programas personalizados.

Extensiones Darwin Core

Reconociendo que DwC solo cubre los metadatos básicos de la biodiversidad, las extensiones a ese núcleo Darwin son una necesidad común para todas las comunidades. La forma más sencilla de hacerlas es crear nuevos términos en un nuevo espacio de nombres y simplemente ampliar un registro dwc normal con estos términos.

A menudo, es deseable que haya múltiples sub-registros para una extensión, como por ejemplo muchos nombres comunes para una especie o múltiples imágenes para un espécimen. Para compartir estos registros relacionados más enriquecidos se usa el esquema en estrella, por lo que una extensión consiste en múltiples registros, cada uno vinculado a un registro del núcleo dwc. Cualquier número de registros de extensiones, potencialmente de diferentes extensiones (ej.: imágenes e identificaciones), para un único registro core es posible.

El formato del Archivo

El Archivo Darwin Core proporciona un medio para publicar registros dwc más extensiones en un formato basado en texto relativamente sencillo. Un Archivo Darwin Core consta de un conjunto de archivos de texto que son empaquetados en un paquete común y comprimidos en un único archivo. El formato sigue la guía de textos Darwin Core. Un paquete típico se ilustra en el diagrama de abajo y consta de los componentes descritos en detalle aquí.

dwca