Darwin Core

Darwin Core es un estándar TDWG, el cual se basa en las ideas del popular Dublin Core Metadata Initiative. Un principio fundamental de el Darwin Core como una biblioteca de términos es mantener la definición de los términos separada de la tecnología usada para compartirla, p. ej. XML o RDF.

IPT y Darwin Core

El IPT tiene integrados los principales tipos de datos de biodiversidad, se basa en los términos de Darwin Core. Los tipos de conjuntos de datos son registros de presencia "Occurrence", lista de verificación "Checklist" y metadatos "Metadata", cada uno de los cuales tiene un conjunto fijo de términos para describirlo.

Historia del Darwin Core

Hasta la ratificación de Darwin Core como estándar, fue usado para describir datos primarios de presencias de especies, en concreto a través de DiGIR y codificación XML. Cuando estuvimos buscando un formato sencillo de intercambio de datos de listados de especies, y con el aumento del etiquetado de especies en Flickr, se puso de manifiesto que los sencillos términos para biodiversidad en la tradición de Dublin Core serían muy útiles - y muy solapados, de hecho, con los términos Darwin Core ya en uso.

Términos

Todos los términos Darwin Core son definidos en Términos de Darwin Core: una guía de referencia rápida

Un único término DwC, en el IPT llamado a menudo propiedad, puede ser usado una vez para cada registro. Habitualmente es de texto libre pero la definición recomienda a menudo ciertos formatos o vocabularios a utilizar, ej.: los códigos ISO de 2 letras para países para el término dwc:countryCode.

Patrones

Términos ID

DwC proporciona muchos de los términos para identificadores. Algunos pueden ser utilizados para definir un registro (como occurrenceID para un registro de presencia de especie; taxonID para un registro de taxón), mientras otros (como higherGeographyID) se refieren a un identificador para la información recogida fuera del registro. Por ejemplo, namePublishedInID se utiliza para referirse a un identificador (puede que un DOI u otro identificador resoluble) para la publicación en la que se estableció originalmente un scientificName. Tenga en cuenta que taxonID utilizado en un conjunto de datos de presencia de especies funcionaría como un indicador para un taxón definido en algún otro lugar, tal como un conjunto de datos de listado de especies, mientras que taxonID en un registro de taxón actuaría como el identificador de ese registro.

La mayoría de términos tienen un término de texto completo correspondiente, ej.: acceptedNameUsageID y acceptedNameUsage. Éstos tienen dos propósitos:

  1. En ausencia de un identificador se pueden utilizar para referirse a otro registro, en este caso el taxón aceptado/válido.

  2. Proporcionan un contexto legible que persiste incluso si el identificador no puede ser resuelto

Por lo tanto, tiene sentido proporcionar ambos si es posible.

Jerarquías desnormalizadas

La geografía y la taxonomía se pueden expresar como una jerarquía flexible de lugares o taxones a través de los términos higherParentNameUsage(ID) y higherGeography(ID). Además de esta lista adyacente, las clasificaciones más populares se pueden publicar como una jerarquía desnormalizada para cada registro, repitiendo de manera efectiva esta información a través de muchos registros. Pero proporciona una clasificación corta, rápida y legible para cada registro aislado del conjunto de datos completo.

  • Clasificación taxonómica desnormalizada: kingdom, phylum, class, order, family, genus, subgenus

  • Clasificación geográfica desnormalizada: continent, waterBody, islandGroup, island, country / countryCode, stateProvince, county, municipality

Al igual que con los términos ID de texto completo de arriba, éste introduce la posibilidad de problemas de integridad de datos ya que el término ID podría resultar en algo diferente a la jerarquía desnormalizada. En este caso, el IPT sigue la recomendación del siguiente orden de términos para resolver la jerarquía:

Término ID >> término en texto >> término desnormalizado
higherTaxonID >> higherTaxon >> kingdom,family,...

Términos literales

Algunos términos poseen su término literal correspondiente. Esto permite incluir la publicación de la transcripción original exacta de ciertos atributos tal y como se encontraron en la etiqueta del espécimen, la observación del cuaderno de campo o la bibliografía. De esta forma el verbatimEventDate puede ser utilizado para publicar la transcripción exacta de la fecha de colecta, mientras eventDate puede ser codificado en una representación estándar ISO de tiempo y fecha.

Datos primarios

Todos los términos DwC se pueden usar para describir registros de presencias de especies. Se recomienda publicar al menos los siguientes términos. Los términos marcados con !!! tienen que ser incluidos obligatoriamente para que el actual indexado de GBIF los reconozca:

Ejemplo

occurrenceID=96db9d09-596d-409c-8626-f4460078d0eb
institutionCode=BGBM
collectionCode=B
basisOfRecord=preservedspecimen
catalogNumber=1159
eventDate=1999-08-06 00:00:00.0
collector=Markus Döring
continent=Asia
country=TR
stateProvince=Adana
locality=Aladaglari, lower Narpiz Deresi, next to fountain, 2900m
minimumElevationInMeters=2900
decimalLatitude=37.82800
decimalLongitude=35.13600
geodeticDatum=WGS84
identifiedBy=Markus Döring
scientificName=Festuca anatolica subsp. anatolica
kingdom=Plantae
phylum=Magnoliophyta
class=
order=Cyperales
family=Poaceae
genus=Festuca
specificEpithet=anatolica
infraspecificEpithet=anatolica

Listados de especies

Los listados de especies se limitan al ± subconjunto taxonómico de todos los términos Darwin Core.

El Archivo Darwin Core

Los Archivos Darwin Core (DwC-A) son los nuevos medios primarios de publicación de datos en la red de GBIF. Contienen un conjunto de datos completo están basado en ficheros de texto simple y pueden ser creados da manera bastante sencilla sin el IPT con programas personalizados.

Extensiones Darwin Core

Reconociendo que DwC solo cubre los metadatos básicos de la biodiversidad, las extensiones a ese núcleo Darwin son una necesidad común para todas las comunidades. La forma más sencilla de hacerlas es crear nuevos términos en un nuevo espacio de nombres y simplemente ampliar un registro corriente dwc con estos términos.

A menudo, es deseable que haya múltiples sub-registros para una extensión, como por ejemplo muchos nombres comunes para una especie o múltiples imágenes para un espécimen. Para compartir estos registros relacionados más enriquecidos se usa el esquema en estrella, por lo que una extensión consiste en múltiples registros, cada uno vinculado a un registro del núcleo dwc. Cualquier número de registro de extensiones potencialmente de diferentes extensiones (ej.: imágenes e identificaciones) para un único registro del núcleo es posible.

El Formato del Archivo

El Archivo Darwin Core proporciona un medio para publicar registros dwc más extensiones en un formato basado en texto relativamente sencillo. Un Archivo Darwin Core consta de un conjunto de ficheros de texto que son empaquetados en un paquete común y comprimidos en un único archivo. El formato sigue la guía de textos Darwin Core. Un paquete típico se ilustra en el diagrama de abajo y consta de los componentes descritos en detalle aquí.

dwca