みなみの備忘録

とあるライブラリアンの備忘録です。

FAIRデータ原則に関する覚書き part 4: Interoperable 1/1

後半戦、"I"の翻訳。何か段々説明が短く(そして読みづらく)なってきているような・・・

慣れてきたのでスピードが上がってきました。一気にI1~I3まで。

~~~~~

I1: (Meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation

I1: (Meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation - GO FAIR

これは何を意味するのでしょうか?

人間はお互いのデータを交換して解釈できるはずです(死んだ言語を使わないようにすることが望ましいですが)。しかし、これはコンピュータにも当てはまります。データの意味は、特殊な、またはアドホックアルゴリズムトランスレーター、またはマッピングを必要とせずに、マシンで読み込み可能になるべきです。ここで、相互運用性は、通常、各コンピュータシステムが少なくとも他のシステムのデータ交換フォーマットの知識を持っていることを意味します。これを実現し、データセットの自動的な検索可能性と相互運用性を確保するためには、(1) 一般的に使用される統制語彙(controlled vocabularies)、オントロジーシソーラス(グローバルに一意かつ永続的な識別子を解決する、F1参照)、(2)適切なデータモデル((メタ)データを記述し構造化する明確な枠組み)、を使用することが重要です。

例:

RDF extensible 知識表現モデルは、データセットを記述し構造化する方法です。ダブリンコアスキーマを例として参照することができます。

OWL

DAML + OIL

JSON LD

テキストマイニングと組織遺伝子発現から予測される遺伝子疾患関連については、データモデルの例を参照してください。

このページの「ドキュメンテーション」リンクのEBIのデータモデルを参照してください。http://www.ebi.ac.uk/rdf/

 

Links to Resources

https://en.wikipedia.org/wiki/Programming_language

=====

I2: (Meta)data use vocabularies that follow the FAIR principles

I2: (Meta)data use vocabularies that follow the FAIR principles - GO FAIR

これは何を意味するのでしょうか?

データセットを記述するために使用される統制語彙は、文書化され、グローバルにユニークで永続的な識別子を使用してリゾルブ可能である必要があります。このドキュメントは、データセットを使用するすべての人が簡単に見つけてアクセスできる必要があります。

例:

FAIRデータポイント(後述)を使用するとI2が保証されます。

 

Links to Resources

FAIR Data Point Specification(https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#heading=h.1obiwd95lfrw)※2018年3月現在、編集中とのこと。

=====

I3: (Meta)data include qualified references to other (meta)data

I3: (Meta)data include qualified references to other (meta)data - GO FAIR

これは何を意味するのでしょうか?

“qualified reference”は、その意図を説明する相互参照です。例えば、”X is regulator of Y”は、”X is associated with Y”、または”X see also Y”よりもはるかに意味づけされた(注:"qualified"の超訳)参照です。データに関する文脈を豊かにするために(メタ)データリソース間に可能な限り多くの「意味を持つ」リンクを作成し、適切なデータモデルを作成するのに必要な時間とエネルギーのバランスを取ることがゴールとなります。具体的には、あるデータセットが別のデータセットを元に構築されているかどうか、データを完成するために追加のデータセットが必要な場合、または補完的な情報が別のデータセットに格納されているかどうかを特定する必要があります。特に、データセット間の科学的リンク(注:引用関係のこと?)は記述する必要があります。さらに、すべてのデータセットを適切に引用する(つまり、グローバルに一意である永続識別子の利用を含みます)必要があります。

例:

FAIR Data Point (https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#heading=h.1obiwd95lfrw)※2018年3月現在、編集中とのこと。

http://www.uniprot.org/uniprot/C8V1L6.rdf

~~~~~