Comprobación de la calidad de los datos

Use esta lista de comprobación para ayudar a revisar los conjuntos de datos sobre biodiversidad. Tenga en cuenta que es esta es ideal para comprobar los conjuntos de datos de ocurrencia y de eventos de muestreo.

El listado de especies ayudará a asegurar que los datos están completos, respondiendo a las siguientes preguntas:

  • <<¿Qué evento tuvo lugar?>>

  • <<¿Quién ha participado en el evento?>>

  • <<¿Cuándo tuvo lugar el evento?>>

  • <<¿Dónde tuvo lugar el evento?>>

  • <<¿Por qué tuvo lugar el evento?>>

Algunos ejemplos de eventos son la observación de una especie, la recogida de un espécimen físico o un evento de muestreo biológico.

De manera adicional, el listado de especies asegura que los [Metadatos del Conjunto de Datos] contienen también respuestas a las preguntas anteriores para facilitar la reutilización de los datos.

Instrucciones

Si el conjunto de datos ha sido registrado con GBIF, comience revisando la página de "Estadísticas" del conjunto de datos. Aquí encontrará las incidencias que GBIF descubrió al interpretar el conjunto de datos:

InterpretationIssues2

A continuación, lea los metadatos del conjunto de datos para lograr un mejor conocimiento de los datos.

Después, cargue los datos en OpenRefine. Esto permitirá la navegación por temas para obtener una visión de los datos a grandes rasgos.

Existen varias vías para responder a las preguntas de más arriba. Cada "comprobación" se relaciona con uno o más campos Darwin Core. Por ello, intente realizar tantas comprobaciones como sea posible basadas en los campos Darwin Core incluidos en el conjunto de datos.

Elabore una lista con todos los fallos y repórtelos al publicador de datos, haciendo referencia a cada comprobación mediante su 'Check-ID'. Esto hará que compartir comentarios sea un proceso detallado y que requiera menos tiempo.

Controles de calidad

¿Qué evento tuvo lugar?

¿Qué tipo de evento fue?

Check-ID Campos Requisitos

what 1

occurrenceID, basisOfRecord, eventID

El evento de observaciones de especies identificado de forma individual por occurrenceID y teniendo un basisOfRecord igual a la HumanObservation o MachineObservation indicando si la observación fue realizada por una máquina o por una o más personas. Si esta observación está derivada de un evento de muestreo, se debe rellenar el eventID del evento de muestreo.

what 2

occurrenceID, basisOfRecord, catalogNumber, collectionCode, eventID

El evento de conservación de un espécimen identificado de forma individual por occurrenceID y teniendo un basisOfRecord igual a la PreservedSpecimen, FossilSpecimen o LivingSpecimen indicando su tipo específico. Lo normal es que un espécimen se deposite en una colección y por ello pueda asignársele tanto un catalogNumber como un collectionCode. Si este espécimen está derivado de un evento de muestreo, se debe rellenar el eventID del evento de muestreo.

what 3

occurrenceID, basisOfRecord, materialSampleID, catalogNumber, collectionCode, eventID

El resultado físico de un evento de muestreo identificado de forma individual por occurrenceID y teniendo un basisOfRecord igual a MaterialSample. Si la muestra fue conservada (en vez de procesada de manera destructiva) como un espécimen y depositada en una colección, lo normal sería asignarle un catalogNumber y un collectionCode. Se debe rellenar el eventID del evento de muestreo.

what 4

eventID, fieldNumber, parentEventID

El evento de muestreo concreto identificado de manera única por eventID. El eventID debería ser un GUID, en caso contrario debería reutilizar el fieldNumber. El parentEventID indica que el evento es un sub-evento de muestreo. Para ser válidos, todos los parentEventIDs deben hacer referencia a los eventIDs de los registros definidos en el mismo conjunto de datos. De lo contrario, el parentEventID debe ser un identificador global único (ej.: DOI, HTTP, URI, etc) que resulte en un registro del evento descrito en cualquier otro lugar. Lo normal es que todos los sub-eventos de muestreo compartan la misma fecha y localización como en el evento padre.

Si fue un evento relacionado con presencia de especies - ¿cuántas especies había?

Check-ID Campos Requisitos

what 5

individualCount, organismQuantity, organismQuantityType, occurrenceStatus

La abundancia de especies debe completarse utilizando individualCount y la pareja organismQuantity & organismQuantityType. Para la abundancia relativa utiliza la pareja organismQuantity & organismQuantityType con valores para organismQuantityType procedentes del Vocabulario GBIF para los Tipos Cuantitativos. La abundancia cero (ausencia de especies) debe estar acompañada de occurrenceStatus marcada como "ausencia" por el Vocabulario GBIF para el Estado de los Registros.

Si fue un evento relacionado con presencia de especies - ¿qué especies había?

Check-ID Campos Requisitos

what 6

scientificName, taxonRank, kingdom, phylum, class, order, family, genus, subgenus

El nombre científico completo con información sobre el autor y la fecha si se conocen debe ser incluidos en scientificName. Para evitar la ambigüedad, el taxonRank del nombre científico debería ser proporcionado como se indica en el Vocabulario GBIF sobre Clasificación Taxonómica. Para evitar la ambigüedad, se debería también proporcionar el mayor nivel de taxonomía posible: kingdom, phylum, class, order, family, genus.

what 7

taxonID, nameAccordingTo, nameAccordingToID

El identificador para el Taxón asignado al sujeto. Si el taxón se define de acuerdo a fuente bien conocidas, se recomienda rellenar el nameAccordingTo con el nombre de la fuente y el nameAccordingToID con el identificador para el Taxón asignado por la fuente (igual que en taxonID).

Case 1: Observación de especies con una cámara trampa

Campo Valor Limitaciones

occurrenceID

"HAMAARAG:T0_L_049:6199"

Debe ser un GUID o lo más cercano posible a un identificador único y global. Identificadores de números enteros no son validos.

basisOfRecord

"MachineObservation"

Debe coincidir con el Vocabulario de Tipos Darwin Core

individualCount

1

Debe ser un número entero, 0 o superior

organismQuantity

1

Debe estar emparejado con organismQuantityType

organismQuantityType

"individuals"

Debe coincidir con el Vocabulario GBIF sobre los Tipos Cuantitativos

occurrenceStatus

"present"

Debe coincidir con el Vocabulario GBIF sobre el Estado de los Registros

scientificName

"Canis aureus Linnaeus, 1758"

Debe ser el nombre científico completo, con información sobre el autor y la fecha si se conoce.

taxonRank

"species"

Debe coincidir con el Vocabulario GBIF sobre Clasificación de Taxones

kingdom

"Animalia"

Debe ser el nombre científico completo del reino en el que está clasificado el taxón.

phylum

"Chordata"

Debe ser el nombre científico completo del filo o división en el que está clasificado el taxón.

class

"Mammalia"

Debe ser el nombre científico completo de la clase en la que está clasificado el taxón.

order

"Carnivora"

Debe ser el nombre científico completo del orden en el que está clasificado el taxón.

family

"Canidae"

Debe ser el nombre científico completo de la familia en la que está clasificado el taxón.

genus

"Canis Linnaeus, 1758"

Debe ser el nombre científico completo del género en el que está clasificado el taxón.

taxonID

http://www.gbif.org/species/5219219

Debe ser un GUID o un identificador relacionado con la fuente.

nameAccordingTo

"GBIF Backbone Taxonomy, May 2016"

Debe ser una referencia que incluya fecha

nameAccordingToID

"http://www.gbif.org/dataset/d7dddbf4-2cf0-4f39-9b2a-bb099caae36c"

Debe ser un GUID o un identificador para la fuente

¿Quién participó en el evento?

Check-ID Campos Requisitos

who 1

recordedBy

Los nombres completos de cada persona que participó en el evento (ej.: colectando, observando, etc.) deberían ser introducidos en recordedBy utilizando la barra vertical como un separador. Tenga en cuenta que existe un campo separado para indicar la(s) persona(s) que realizó la identificación (ver más abajo).

who 2

institutionCode, ownerInstitutionCode

Un nombre o acrónimo de la institución que participó en el evento puede ser incluido en institutionCode y ownerInstitutionCode. Éstos pueden ser diferentes ya que institutionCode puede tener la custodia física de un espécimen y ownerInstitutionCode puede tener la propiedad legal del espécimen.

who 3

identifiedBy

Los nombres completos de cada persona, grupo u organización responsable de asignar el Taxón al sujeto en cuestión deberían se introducidos en identifiedBy utilizando la barra vertical como separador.

Caso 1: Dos personas diferentes colectando e identificando un espécimen

Campo Valor Limitaciones

recordedBy

"Ole Karsholt"

Debe ser el nombre de una o más personas

institutionCode

"ZMUC"

Debe ser un acrónimo o nombre de una institución

ownerInstitutionCode

"ZMUC"

Debe ser un acrónimo o nombre de una institución

identifiedBy

"Jan Pedersen"

Debe ser el nombre de una o más personas, grupo u organizaciones

¿Cuándo tuvo lugar el evento?

Check-ID Campos Requisitos

when 1

eventDate

La fecha, fecha-hora, rango de fecha o rango de fecha-hora durante la cual ocurrió el Evento debería ser introducido en eventDate en formato ISO 8601. Las fechas parciales pueden ser proporcionadas si incluyen al menos un año y mes, ej.: "2007-03".

when 2

verbatimEventDate

Si hay que convertir el valor original en ISO 8601 verbatimEventDate debería ser completado con ese valor original.

when 3

eventTime, year, month, day, startDayOfYear

Aunque parezca repetitivo, se recomienda intentar rellenar el year, month, day, eventTime y startDayOfYear para fechas/fechas-horas únicas. Si la resolución de la fecha de inicio es específica para el día, rellenar en startDayOfYear.

when 4

eventTime, year, month, day, startDayOfYear, endDayOfYear

Aunque parezca repetitivo, se recomienda intentar rellenar lo más completo posible el year, month, day, startDayOfYear y endDayOfYear en el caso de rangos de fechas. Si el rango de fechas abarca varios días, dejar en blanco el campo day. Si el rango de fechas abarca varios meses, dejar en blanco el campo month. Si el rango de fechas abarca varios años, dejar en blanco el campo year. Si la resolución de la fecha de inicio es específica para el día, rellenar en startDayOfYear. Si la resolución de la fecha de fin es específica para el día, rellenar en endDayOfYear.

when 5

eventRemarks

Si no se puede rellenar el campo eventDate, se debería al menos proporcionar una explicación en el campo eventRemarks

Caso 1: Fecha única

Campo Valor Limitaciones

eventDate

2007-03-20

Debe estar en formato ISO 8601

year

2007

Debe ser un año de cuatro dígitos

month

3

Debe estar entre 1-12

day

20

Debe estar entre 1-31

startDayOfYear

79

Debe estar entre 1-366

verbatimEventDate

"Mar 20, 07"

La fecha original o la descripción de la fecha

Caso 2: Rango de fecha-hora abarcando varios días

Campo Valor

eventDate

2007-03-20T00:00:00Z/2007-03-27T06:00:00Z

eventTime

00:00:00Z/06:00:00Z

year

2007

month

3

day

startDayOfYear

79

endDayOfYear

86

verbatimEventDate

"La tercera semana de Marzo de 2007, durante 6 horas, empezando a medianoche."

Caso 3: Fecha parcial

Campo Valor

eventDate

2007-03

year

2007

month

3

day

eventRemarks

"El día exacto de la colecta nunca se registró"

Caso 4: Falta fecha

Campo Valor

eventRemarks

"La fecha del evento no se encontró en los datos heredados"

¿Dónde tuvo lugar el evento?

Check-ID Campos Requisitos

where 1

decimalLatitude, decimalLongitude, geodeticDatum

Las coordenadas de localización por puntos se deben introducir en grados decimales en decimalLatitude y decimalLongitude. El sistema de referencia espacial en el que se basan las coordenadas se debe introducir en geodeticDatum utilizando el código EPSG si se conoce, ej.: "EPSG:4326". De lo contrario, se debe usar un vocabulario controlado para el nombre o código del geodeticDatum si se conoce, ej.: "WGS84". Si ninguno de estos es conocido, utilizar el valor "unknown".

where 2

footprintWKT, footprintSRS

Para proporcionar una localización específica por forma introduzca una representación en archivo de Text Bien Conocido (WKT, por sus siglas en inglés) para la forma en el campo footprintWKT. El sistema de referencia espacial en el que se basa la forma se debe introducir en footprintSRS utilizando el código EPSG, ej.: "EPSG:4326".

where 3

coordinateUncertaintyInMeters, dataGeneralizations

coordinateUncertaintyInMeters debe expresar la incertidumbre de la lectura del GPS en metros. Para grandes incertidumbres (más de 1.000 metros) comprobar dataGeneralizations para ver si la localización fue generalizada a propósito, ej.: para proteger especies sensibles.

where 4

verbatimCoordinates, verbatimLatitude, verbatimLongitude, verbatimCoordinateSystem, verbatimSRS

Si las coordenadas originales de localización por puntos tuvieran que ser convertidas desde otro sistema de coordenadas como 'grados minutos segundos' verbatimCoordinates, verbatimLatitude, verbatimLongitude, verbatimCoordinateSystem, verbatimSRS deberían ser rellenados con las coordenadas originales de la Localización.

where 5

dataGeneralizations

Si se tomaron acciones para expresar la localización por puntos de manera menos específica que la original o la coordinateUncertaintyInMeters es muy alta, se debe introducir una explicación en dataGeneralizations.

where 6

informationWitheld

Si la localización por puntos debe estar presente pero no se ha introducido, debería proporcionarse una explicación en informationWitheld.

where 7

georeferenceRemarks

Si la localización por puntos no existe o se ha calculado a partir del centro de una celda (en comparación a las lecturas GPS), se debería introducir una explicación en georeferenceRemarks.

where 8

continent, waterBody, islandGroup, island, country, countryCode, stateProvince, county, municipality, locality, locationRemarks

Se debe proporcionar tanta información adicional sobre la localización como sea posible. Si no se puede proporcionar el country y el countryCode, se debería introducir una explicación de por qué en locationRemarks

Caso 1: Localización por puntos convertida de grados minutos segundos a grados decimales

Campo Valor Limitaciones

decimalLatitude

42.4566

Debe estar entre -90 y 90, ambos inclusive

decimalLongitude

-76.45442

Debe estar entre -180 y 180, ambos inclusive

geodeticDatum

"EPSG:4326"

Idealmente un código EPSG o vocabulario controlado, si no "unknown"

coordinateUncertaintyInMeters

500

Cero NO es un valor válido

verbatimCoordinates

42° 27' 23.76", -76° 27' 15.91"

verbatimLatitude

42° 27' 23.76"

verbatimLongitude

-76° 27' 15.91"

verbatimCoordinateSystem

"grados minutos segundos"

continent

"North America"

Preferiblemente nombres en inglés de acuerdo a Tesauros de Nombres Geográficos de Getty

country

"United States"

Preferiblemente nombres en inglés de acuerdo a Tesauros de Nombres Geográficos de Getty

countryCode

"US"

Deben ser códigos de países ISO 3166-1-alpha-2

stateProvince

"New York"

county

"Tomkins County"

locality

"Ithaca, Forest Home, CU Rifle Range"

Debe ser una descripción específica del lugar

Caso 2: Localización por puntos que fue generalizada

Campo Valor

decimalLatitude

42.44

decimalLongitude

-76.33

geodeticDatum

"EPSG:4326"

coordinateUncertaintyInMeters

5000

dataGeneralizations

"Localización por puntos difuminada por un factor de 5.000m"

Caso 3: La localización por puntos existe pero no se ha proporcionado

Campo Valor

informationWitheld

"Localización por puntos escondida para proteger especies sensibles. Disponible mediante solicitud."

Caso 4: La localización por puntos no existe

Campo Valor

dataGeneralizations

"La localización por puntos no se encontró en los datos heredados"

¿Por qué tuvo lugar el evento?

Check-ID Campos Requisitos

why 1

samplingProtocol, sampleSizeValue, sampleSizeUnit, samplingEffort, eventRemarks

El nombre del método o protocolo de muestreo utilizado para crear el evento debe ser introducido en samplingProtocol. Una URL referenciando la descripción es preferible a extensas descripciones de métodos. Un protocolo de muestreo debe definir su área, duración, etc. utilizando la pareja sampleSizeValue & sampleSizeUnit, con valores para sampleSizeUnit procedentes del Vocabulario de Unidades de Medidas. Se pueden introducir descripciones más genéricas del esfuerzo o duración del muestreo en samplingEffort. Si se desconoce la información sobre el área o la duración, eventRemarks debe proporcionar una explicación de por qué.

Caso 1: Debido a un esquema de monitoreo de mariposas

Campo Valor Limitaciones

samplingProtocol

"Caminatas polares"

Debe ser un nombre corto o un URL con referencia a un método o protocolo de muestreo

sampleSizeValue

250

Debe emparejarse con sampleSizeUnit

sampleSizeUnit

"square_metre"

Debe coincidir con el Vocabulario de Unidades de Medida

samplingEffort

"Un promedio de 30 minutos caminando en el transecto"

Puede ser una descripción de texto libre

eventRemarks

"No se obtienen registros de Lepidoptera en todo el transecto"

Puede ser una descripción de texto libre

Metadatos del conjunto de datos

Los metadatos del conjunto de datos deberían contener suficiente información para facilitar la reutilización de los datos y se previene la malinterpretaciones. Los publicadores deberían también proporcionar evidencias del rigor con el que se obtuvieron los datos y agradecer a sus varios contribuidores y financiadores. En última instancia, esto puede conducir a nuevas fuentes de financiación y colaboración.

Campo Requisitos Ejemplos

Title

es un nombre conciso que describe los contenidos del conjunto de datos y que lo distingue de otros.

"Reef Life Survey: Global reef fish dataset", "Insects from light trap (1992–2009), rooftop Zoological Museum, Copenhagen"

Description

es un párrafo (resumen) corto que describe el contenido del conjunto de datos.

"Este conjunto de datos contiene registros de peces óseos y elasmobranquios colectados por buceadores de Reef Life Survey (RLS) en transectos de 50 m en arrecifes de coral rocosos poco profundos de todo el mundo. La información sobre abundancia está disponible para todos los registros encontrados dentro de unos límites de muestreo cuantitativos (franjas de 50 x 5 m durante una única inmersión a cada lado de la línea del transecto, distinguido cada uno como un Bloque), y los registros fuera de muestreo se identifican únicamente como presencias (Método 0)."

Publishing Organization

la organización responsable de la publicación (producción, lanzamiento y tenencia) de este recurso.

"Reef Life Survey"

License

debe ser una de las tres opciones legibles por máquinas (CC0 1.0, CC-BY 4.0 o CC-BY-NC 4.0), que proporcionan una forma estandarizada para definir los usos apropiados del conunto de datos.

"Este trabajo está protegido por una Liciencia Creative Commons de Reconocimiento (CC-BY) 4.0."

Creator(s)

las personas y organizaciones que crearon el conjunto de datos, en orden de prioridad. Se recomienda utilizar un identificador personal como ORCID o ResearcherID.

"John Smith, jsmith@gbif.org, http://orcid.org/0000-0002-1825-0097"

Metadata Provider(s)

las personas y organizaciones que escribieron los metadatos del conjunto de datos, en orden de prioridad. Se recomienda utilizar un identificador personal como ORCID o ResearcherID.

"John Smith, jsmith@gbif.org, http://orcid.org/0000-0002-1825-0097"

Contact(s)

las personas y organizaciones que deberían ser contactadas para obtener más información sobre el recurso o a las que se deben comunicar los problemas que presenta el conjunto de datos. Se recomienda utilizar un identificador personal como ORCID o ResearcherID.

"John Smith, jsmith@gbif.org, http://orcid.org/0000-0002-1825-0097"

Project Identifier

es un GUID u otro identificador que está cerca de ser global y único. Tenga en cuenta que esto es obligatorio para proyectos BID.

"BID-AF2015-0134-REG"

Sampling Methods

información sobre la metodología de muestreo utilizada en la creación del conjunto de datos, similar a la sección de métodos de un artículo científico. Tenga en cuenta que esto es obligatorio para conjuntos de datos de eventos de muestreo.

Ver here

Citation

cómo debería ser citado el conjunto de datos. Se recomienda encarecidamente utilizar el Formato de Citas del IPT (basado en el formato de citas preferido por DataCite’s y que cumple la Declaración Conjunta de los Principios de Citas de Datos).

"Edgar G J, Stuart-Smith R D (2014): Reef Life Survey: Global reef fish dataset. v2.0. Reef Life Survey. Dataset/Sampling event. http://doi.org/10.15468/qjgwba"