みなみの備忘録

とある図書館員(?)の備忘録です。

FAIRデータ原則に関する覚書き part 2: Findable 1/4

モチベーションがあるうちに、下記ページの試訳を。どこまで続くか分かりませんが。

まずは、"Findable"の章から。

~~~~~

Findable

FAIR Principles - GO FAIR

データを(再)利用する最初のステップは、それらを発見することです。メタデータとデータは、人間とコンピュータの両方にとって容易に見つかるべきです。機械可読なメタデータは、データセットとサービスの自動的な発見に不可欠です。したがって、これはFAIRificationプロセス(リンク:https://www.go-fair.org/technology/fairification-process/)の必須コンポーネントです。

F1: (Meta) data are assigned globally unique and persistent identifiers

F1: (Meta) data are assigned globally unique and persistent identifiers - GO FAIR

これは何を意味するのでしょうか?

原則F1は、おそらく最も重要です。なぜなら、グローバルにユニークで永続的な識別子なしにFAIRの他の側面を達成することは難しいからです。したがって、F1に準拠すると、FAIRに準拠したデータ(FAIRデータ)を公開するための長い道のり(の第一歩)が得られます(”識別子がデータ統合に役立つ10の方法: http://biorxiv.org/content/biorxiv/early/2017/03/20/117812.full.pdf”を参照してください)。

 グローバルにユニークで永続的な識別子は、メタデータのすべての要素とデータセットのすべての概念/測定値に一意の識別子を割り当てることによって、公開されたデータの意味における曖昧さを排除します。この文脈において、識別子はインターネットのリンク(例えば、特定のヒトタンパク質:http://www.uniprot.org/uniprot/P98161のような概念を定義するウェブページ(URL))を構成します。多くのデータリポジトリは、寄託されたデータセットに対して、グローバルに一意かつ永続的な識別子を自動的に生成します。

識別子は、あなたが意図したところを他人が正確に理解するのに役立ち、コンピュータが意味のある方法でデータを解釈することを可能にします(例えば、データ検索を行うコンピュータや自動的にデータを自動的に統合しようとするコンピュータ)。

識別子は、オープンサイエンスのビジョンにとってキーとなる人と機械の相互運用に不可欠です。さらに、識別子は、データを再利用するときに、他人があなたの著作を適切に引用するのに役立ちます。もちろん、識別子は(オープンサイエンスのキーの)一つに過ぎませんが、その意味は別のものです(原則I1〜I3参照)。 F1は識別子のための2つの条件を規定しています:

  1. 識別子はグローバルにユニークである必要があります(つまり、他の誰かがあなたのデータを参照することなく同じ識別子を再利用/再割り当てできないということになります)。あなたは、新しく作成された識別子の一意性を保証するアルゴリズムを持つレジストリサービスから、グローバルに一意な識別子を取得できます。
  2. 識別子は永続的でなければなりません。 ウェブサイトのリンクをアクティブに保つには時間と費用がかかるため、リンクは時間の経過とともに無効になる傾向があります。 レジストリサービスは、少なくともある程度の期間、リンクが名前解決(リゾルブ)することを保証します。

上記の条件を満たす識別子の種類とレジストリサービスの紹介)