みなみの備忘録

とある大学(?)図書館員の備忘録です。

FAIRデータ原則に関する覚書き part 5: Reusable 1/1

試訳、何とか出張に間に合いました。揺れはあるだろうけど完成版ではないのでまあ良しとする。機会があれば作ります。

~~~~~

R1: (Meta)data are richly described with a plurality of accurate and relevant attributes

R1: (Meta)data are richly described with a plurality of accurate and relevant attributes - GO FAIR

これは何を意味するのでしょうか?

多くのラベルがデータに添付されている場合は、データを見つけて再利用することがはるかに簡単です。原則R1はF2に関連しますが、R1は、データが特定の状況において「実際に有用であるかどうか」を決定するユーザー(機械または人間)の能力に重点を置きます。この意思決定を助けるために、データ出版者は、発見を可能にするメタデータだけでなく、データが生成された文脈を説明する豊かなメタデータも提供する必要があります。これには、実験プロトコル、データを作成した機械またはセンサーのメーカーおよびブランド、使用されている種、薬物管理などが含まれる可能性があります。さらに言えば、R1は、データ出版者がデータ消費者の識別およびニーズの予測を試みる必要はないことを示します。我々は、メタデータに含まれる情報が一見無関係に見える場合でも、メタデータの作成者がメタデータを提供にあたりできるだけ気前がよい(注:メタデータの量や質の観点で)ことが望ましいことを示すために、”plurality”(複数の)という用語を選択しました。

 

考慮すべきいくつかの点(網羅的なリストではありません):

 ・データ範囲の記述:どのような目的のために生成/収集されましたか?

・他のユーザーが認識すべきデータに関する特記事項や制限への言及

・データの生成/収集日、研究室(ラボ)のコンディション、データを準備した人物、パラメータ設定、使用するソフトウェアの名前とバージョンの特定

・生データか処理済みデータか?

・すべての変数名が説明されているか、自明である(つまり、研究分野ごとに統制語彙で定義されている)ことの確認

・保存されたデータおよび/または再利用されたデータのバージョンの特定及び文書化

 

Links to Resources

R1はこれらの間違いを避けるために役立ちます:

https://www.youtube.com/watch?v=N2zK3sAtr-4

=====

R1.1: (Meta)data are released with a clear and accessible data usage license

R1.1: (Meta)data are released with a clear and accessible data usage license - GO FAIR

これは何を意味するのでしょうか?

“I”(注:Interoperable)の下で、我々は技術的な相互運用性の要素をカバーしました。R1.1は法的な相互運用性に関するものです。あなたのデータにはどのような使用権利が付いていますか?これは明確に説明されるべきです。曖昧さは、組織としてライセンス制限を遵守しようとする際、データの再利用を厳しく制限してしまう可能性があります。ライセンス条件を明確にすることは、より多くのライセンスを考慮した自動検索においてより重要になるでしょう。データを使用できる条件は、機械および人間にとって明白でなければなりません。

例:

MITやCreative Commonsなどの一般的に使用されるライセンスは、あなたのデータにリンクすることができます。このメタデータマークアップする方法は、DTL FAIRifierによって提供されています。(リンク:https://www.dtls.nl/fair-data/find-fair-data-tools/

 

Links to Resources

https://wiki.creativecommons.org/wiki/License_RDF

=====

R1.2: (Meta)data are associated with detailed provenance

R1.2: (Meta)data are associated with detailed provenance - GO FAIR

これは何を意味するのでしょうか?

他のユーザーがデータを再利用するには、データの元の場所(明白な起源/履歴、R1参照)、引用者、および/またはどう謝辞に記載されたいか、を知っておく必要があります。データに続けて、ワークフローの説明を含めてください:誰がそれを生成または収集したか?どのように処理されたか?これまでに公開されているか?データには、誰かが手を加えたり完成させたりした可能性のあるデータが含まれているか?理想的には、このワークフローは機械可読形式で記述されます。

例:

https://commons.wikimedia.org/wiki/File:Sampling_coral_microbiome_(27146437650).jpg

作成者の詳細を含む、クリエイティブ・コモンズのShare Alikeライセンス(継承)を使用します。これは、データ作成者がどのように引用されたいかを正確に示します。

 

Links to Resources

https://creativecommons.org/licenses/by-sa/2.0/

=====

R1.3: (Meta)data meet domain-relevant community standards

R1.3: (Meta)data meet domain-relevant community standards - GO FAIR

これは何を意味するのでしょうか?

似通ったデータであれば、データセットの再利用はより簡単です:同じタイプのデータ、標準化された方法で組織化されたデータ、確立された持続可能なファイルフォーマット、共通のテンプレート、共通の語彙を使用したドキュメント(メタデータ)など。データの保存と共有のためのコミュニティの標準やベストプラクティスが存在する場合は、それに従うのが望ましいでしょう。例えば、多くのコミュニティは、最小限の情報標準(例えば、MIAME、MIAPE)を有しています。FAIRデータは少なくともこれらの基準を満たすことが望ましいでしょう。他のコミュニティ標準はあまりフォーマルではないかもしれませんが、コミュニティによる利用(能力)を向上させる方法で(メタ)データを公開することは、FAIRnessの主要な目的です。状況によっては、提出されるデータのタイプに関する標準的なグッドプラクティスから逸脱する、有効な、特定の理由が提出者にあるかもしれません。これはメタデータ内で扱われることが望ましいでしょう。なお、品質に関する問題は、FAIR原則で扱われていないことに注意してください。データの信頼性は、閲覧者の目にあり、意図するアプリケーションに依存します。

例:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM1528447

 

Links to Resources

http://schema.datacite.org/[for general purpose, not domain-specific]

http://dublincore.org/specifications/[for general purpose, not domain-specific]

https://www.ncbi.nlm.nih.gov/geo/info/MIAME.html [microarrays]

http://cds.u-strasbg.fr/doc/catstd.htx [astrophysics]

https://www.iso.org/standard/53798.html [geographic information and services]

http://cfconventions.org/ [climate and forecast]

http://www.iucr.org/resources/cif [crystallographic information]

http://www.nexusformat.org/ [neutron, x-ray, and muon experiment data]

http://www.ddialliance.org/Specification [social, behavioral, and economic sciences]

https://sdmx.org/ [statistical data]

https://knb.ecoinformatics.org/#tools/eml [ecology]

~~~~~

最後はちょっと詰め込み過ぎましたね・・・まあいいか。