サンプリングイベントデータの公開におけるベストプラクティス - 追加予定と改訂のための注意点

バージョン 2.0

サンプリングイベントデータのベストプラクティスで追加で記載される可能性のある情報、または過去に記載された情報

サンプリングイベントデータとは?

DwC-Aでサンプリング・イベント・データを表現するには?

サンプリングイベントメタデータ

サンプリングイベントデータ

TODO: DwC-A スタースキーマの制限を回避する方法に関する勧告を提供します。例えば、同じデータセットで は、測定値と事実をイベントとオカレンスの両方に関連付けることができません。現在の対処法では、公開者が別々のデータセットを公開する必要があります。注)OBISは、この制限を克服するのに役立つ拡張(測定値と事実)のプロトタイピングを行っています。このプロトタイプ拡張機能に関する議論は、こちらのGitHubで行われています。しかし、このプロトタイプの拡張機能では、測定値または事実がオカレンスに関連するのかイベントに関連するのかを明確にできないという問題が提起されています。代替案の1つとして、OBIS 拡張で検討されているように、測定または事実の拡張に属性として eventID(および occurrenceID)を追加する代わりに resourceID(およびおそらく resourceType)を追加することが考えられます。

データファイルのフォーマットに関する推奨事項

サンプルサイズ

TODO: 適切なWKT形状または単純な緯度/経度点の位置を選択することにより、サンプリングエリアをどのように表現するかについての推奨事項を提供します。正しく行われれば、サンプリングが行われた方向も導き出すことができます。例えば、WKT形状LINESTRINGを使用して表現された海洋トロールラインは、開始点と終了点を書くための標準的な表記に基づいて、トロールの方向を決定することができます。

数量と豊富さ

サンプリングイベントを一意に特定する方法

TODO: 永続的なグローバル一意識別子を使って dwc:eventID と dwc:parentEventID を記入する方法について、ユーザーをより良く手助けできるようになりました。

  • dwc:eventID は永続的なグローバル一意識別子であるべきです。既存の安定した識別子を再利用することを忘れないで下さい。既に宣言されているイベントに対して、新しい識別子を作らないで下さい。

  • GUIDがない場合、また最後の手段として、元のfieldNumberを再利用する。

イベントの階層をどのようにとらえるか

TODO: dwc:parentEventIDの適切な使用により、イベントの階層(再帰的なデータ型)を発行する方法をより良くユーザーに案内できるようになりました。

不在データの取り込み方法

TODO: 上記のFAQから情報を転送し、dwc:occurrenceStatusを適切に使用してDwCで存在/不在データを公開する方法をユーザーに案内する。

補足マルチメディアの入れ方

TODO: データの解釈を容易にするために、補足メディアをどのように含めるかについて推奨します。例えば、植生データの場合、データを解釈する際にスキャンしたオリジナルの relevé シートへのリンクを含めると便利です。

サンプリングイベントデータの公開

識別子にGUIDを使用する

TODO: 公開者にGUIDを使用するようアドバイスし、dwc:occasionID、dwc:eventID、dwc:organismID、dwc:locationID などの該当フィールドにGUIDを作成する方法のガイダンスと一緒に提供する。例えば、http://www.geonames.org/ を使って dwc:locationID の識別子を見つける(または新たに生成する)ことが可能です。例えば、http://sws.geonames.org/10793757/ はグリーンランドの湖のGUIDです。

必要条件と推奨条件を記入する

TODO: センシティブな種の場所を難読化する方法をユーザーに案内する、など。 - 単にこれらの種をデータセットから削除する - 属レベルでのみ種同定を公開する - センシティブな種/保護種を別のデータセットで公開する - 難読化された機密データポイントをメインデータセットで公開し、難読化されていない詳細をアクセス制限付きの別データセットで公開する(両方のデータセットに全データレコードを含む)

逐語的データの保存

TODO: 逐語的な説明を入力する方法をユーザーに案内する。例えば、元のイベントに与えられたIDまたはコードはdwc:fieldNumberに、元のオカレンス観察に与えられたIDまたはコードはdwc:recordNumberに入力されるべきです。

プロジェクトデータを1つのデータセットとして公開する

TODO: 大規模プロジェクトから生み出されるデータの公開方法について、推奨事項を提示する。複数のデータセットに分割すると、メタデータを入力する作業が重複するため、現状では1つのデータセットで公開することを推奨しています。複数のデータセットを公開することにこだわる公開者は、EMLのProject.IDを使用してデータセットをリンクする必要があります。

オカレンスデータをサンプリングイベント・データとして再公開する

TODO: 既存のオカレンスデータセットをサンプリングイベント形式に移行するための論理的根拠とガイダンスを提供する。以下の質問に答える必要があります。 - サンプリングイベントのバージョンは、既存のオカレンス・バージョンを置き換えるべきでしょうか、それとも両方のバージョンを同時にオンラインにしておくべきでしょうか? - 置き換える場合、新しいサンプリングイベントのバージョンは、新しいDOIを割り当てるべきですか? - サンプリングイベントバージョンを作成するメリットは何ですか?

生体の連続的なモニタリングのモデル化

TODO: 追跡中の個体のIDを格納するためにdwc:organicIDを使用し、追跡中の各個体を表すために単一のイベント(それが記録された関連するオカレンスを含む)を使用することによって、鳥の追跡データなどの生きている個体の連続したモニタリングをモデル化する方法に関する推奨事項を提供する。

データセットに関連する問題の管理

TODO: INBOが行っているように、GitHubの課題管理システムを使ってデータセットに関連する課題を管理する方法について、推奨事項を提示する。

データセットの生成やクリーニングに用いられたスクリプトやプログラムの共有

TODO: カスタムスクリプトやプログラム(クロス表のデータ変換用など)を、INBOが行っているように、他の公開者のためにGitHubを使って一般公開する方法について勧告を行うこと。この勧告では、スクリプトをより使いやすくするために、スクリプトの実行方法に関する詳細な説明書を含めることをユーザーに奨励すること。

データセット・メタデータにサンプリングイベントデータを記述する

TODO: 公開者には、DwCへの標準化を試みる前に、サンプリングイベント、特にサンプリング方法について可能な限り文書化するようアドバイスしています。

関連するデータセットへのリンク

TODO: 公開者には、サンプリングの前に、サンプリング事象、特にサンプリング方法について可能な限り文書化するよう助言する。 公開者には、同じ研究背景から生まれた関連データセットを、ユーザーが容易に検索できるようにリンクする方法について助言する。公開者は、DwC-Aスタースキーマの制限を回避するために、別々のデータセットを公開しなければならないかもしれない。公開者は、同じサンプリングイベントから派生した別々のオカレンスデータセットを公開することもできる。現在の推奨は、Project.ID使用してそれらをリンクし、DwC に標準化することです。

関連する研究をリストアップする

TODO: 雑誌記事、プロジェクトノート、論文など、関連する出版物へのリンクを含めることで、データセットの解釈を容易にする方法についての推奨事項を提供する。

淡水産無脊椎動物調査

汽水域の無脊椎動物調査

大型植物調査

TODO: サンプリングイベントデータセットとして再公開されたDutch Vegetation Database(LVD)バージョンに基づく更新例。Relevé拡張は、入門書の公開後に大きな変更がありました。LVDと植生サンプリングイベントデータのデータモデルについての詳細は、https://gbif.blogspot.com/2016/07/probably-turbovegs-best-kept-secret.html を参照してください。