FAIRデータ原則に関する覚書き part 4: Interoperable 1/1
後半戦、"I"の翻訳。何か段々説明が短く(そして読みづらく)なってきているような・・・
慣れてきたのでスピードが上がってきました。一気にI1~I3まで。
~~~~~
I1: (Meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation
これは何を意味するのでしょうか?
人間はお互いのデータを交換して解釈できるはずです(死んだ言語を使わないようにすることが望ましいですが)。しかし、これはコンピュータにも当てはまります。データの意味は、特殊な、またはアドホックなアルゴリズム、トランスレーター、またはマッピングを必要とせずに、マシンで読み込み可能になるべきです。ここで、相互運用性は、通常、各コンピュータシステムが少なくとも他のシステムのデータ交換フォーマットの知識を持っていることを意味します。これを実現し、データセットの自動的な検索可能性と相互運用性を確保するためには、(1) 一般的に使用される統制語彙(controlled vocabularies)、オントロジー、シソーラス(グローバルに一意かつ永続的な識別子を解決する、F1参照)、(2)適切なデータモデル((メタ)データを記述し構造化する明確な枠組み)、を使用することが重要です。
例:
RDF extensible 知識表現モデルは、データセットを記述し構造化する方法です。ダブリンコアスキーマを例として参照することができます。
OWL
DAML + OIL
JSON LD
テキストマイニングと組織遺伝子発現から予測される遺伝子疾患関連については、データモデルの例を参照してください。
このページの「ドキュメンテーション」リンクのEBIのデータモデルを参照してください。http://www.ebi.ac.uk/rdf/
Links to Resources
https://en.wikipedia.org/wiki/Programming_language
=====
I2: (Meta)data use vocabularies that follow the FAIR principles
I2: (Meta)data use vocabularies that follow the FAIR principles - GO FAIR
これは何を意味するのでしょうか?
データセットを記述するために使用される統制語彙は、文書化され、グローバルにユニークで永続的な識別子を使用してリゾルブ可能である必要があります。このドキュメントは、データセットを使用するすべての人が簡単に見つけてアクセスできる必要があります。
例:
FAIRデータポイント(後述)を使用するとI2が保証されます。
Links to Resources
FAIR Data Point Specification(https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#heading=h.1obiwd95lfrw)※2018年3月現在、編集中とのこと。
=====
I3: (Meta)data include qualified references to other (meta)data
I3: (Meta)data include qualified references to other (meta)data - GO FAIR
これは何を意味するのでしょうか?
“qualified reference”は、その意図を説明する相互参照です。例えば、”X is regulator of Y”は、”X is associated with Y”、または”X see also Y”よりもはるかに意味づけされた(注:"qualified"の超訳)参照です。データに関する文脈を豊かにするために(メタ)データリソース間に可能な限り多くの「意味を持つ」リンクを作成し、適切なデータモデルを作成するのに必要な時間とエネルギーのバランスを取ることがゴールとなります。具体的には、あるデータセットが別のデータセットを元に構築されているかどうか、データを完成するために追加のデータセットが必要な場合、または補完的な情報が別のデータセットに格納されているかどうかを特定する必要があります。特に、データセット間の科学的リンク(注:引用関係のこと?)は記述する必要があります。さらに、すべてのデータセットを適切に引用する(つまり、グローバルに一意である永続識別子の利用を含みます)必要があります。
例:
FAIR Data Point (https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#heading=h.1obiwd95lfrw)※2018年3月現在、編集中とのこと。
http://www.uniprot.org/uniprot/C8V1L6.rdf
~~~~~
FAIRメタデータの種類
またも寄り道。データのFAIRification processで触れられていたが、
データのFAIR化の手順(FAIRification process) - みなみの備忘録
FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できるとのこと。では、どんなメタデータが必要か、ということがまとめられていたので試訳・抜粋してみました。
=====
GO FAIR metadata
・ライセンスに関する情報(どのようなアルゴリズムで、誰がどのような条件でデータにアクセスできるか)
が含まれている必要があるとのこと。また、相互運用性と再利用性のために
・データとメタデータのセマンティクスに関する情報
・データの来歴に関する情報
が含まれている必要があり、さらにメタデータはドメインに関連したコミュニティの標準に準拠している必要がある。
以上を前提に、次の層(レイヤー)で構成された多層的なメタデータのアプローチを推奨する、とのこと:
→ データとデータの実体(Entity)が含まれる。さらに、APIのバージョンやサービスライセンス等の情報を含む。
カタログのメタデータ:
→ データの組織化情報。
→ データセットの名前、説明、作者/出版社、バージョン、最終変更日、ライセンス、権利などの情報。
流通のメタデータ:
→ データセットをシリアル化(注:オブジェクトのステータス情報を保存または転送できる形式に変換するプロセス)した情報。RDFとかXMLとかCSVとか。
データレコードのメタデータ:
→ データ、関係性(relationship)、ドメイン、範囲、および制限で表される概念の情報。「データの構造とセマンティクス」って表現されている。
=====
やや複雑になってはいるが、良く言われる①記述的メタデータ、②管理用メタデータ、③構造的メタデータ、の枠組みと大きく異なることはない様子(セマンティクスの要素は大きいか)。しかし、確かにここまで書けば極めて充実したメタデータと言えようが、データ保有者はデータセットごとにこれを書く価値を見出してくれるだろうか・・・
FAIRデータ原則に関する覚書き part 3: Accessible 2/2
試訳もこれで折り返し。来年度あたりFAIR推進ワークショップとかやれないかな・・・
~~~~~
A2: Metadata should be accessible even when the data is no longer available
A2: Metadata should be accessible even when the data is no longer available - GO FAIR
これは何を意味するのでしょうか?
データセットは時間の経過とともに劣化または消滅する傾向があります。これは、データセットのオンラインプレゼンスを維持するコストが理由です。データセットの劣化または消滅が起こると、リンクは無効になり、ユーザーはもはや存在しないかもしれないデータを探す時間を浪費することになります。一般的に、メタデータの保存はずっと簡単で安価です。 したがって、原則A2は、データがもはや維持されていなくても、メタデータは維持すべきである、と述べています。A2は、F4で説明されている登録およびインデックス作成の問題に関連します。
例:
メタデータは、研究、特に複製の研究を計画する際には、それ自体に価値があります。元のデータがない場合でも、オリジナルの研究に関連する人や機関、または出版物を追跡することは非常に便利です。
データのFAIR化の手順(FAIRification process)
FAIRデータ原則の試訳を鋭意進めてる最中ですが、一番興味のあったFAIR化の話があったのでちょっと横道に。
FAIRification Process - GO FAIR
GO FAIRな方々が採用した標準的な手順、という理解で良さそう。
一応試訳はしたけれども、やや長いので抜粋で。
=====
・FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できる。
・"Interoperable"と"Reusable"はデータレベルでの取り組みが必要。
上記の理解のもと、以下7つのプロセスでデータをFAIR化できるとのこと:
~~~~~
1. 非FAIRデータの取得
2. 取得したデータの分析
→ データの概念、構造、関係性などを確認
3. データセットに適用するセマンティックモデルの定義
→ 既存のオントロジー、ボキャブラリによってデータを意味付ける
4. データをリンク可能に
→ step 3で定義したモデルが、ユーザー視点で適切かどうか確認(注:RDFっぽく言うとIRIにするかリテラルにするか、みたいな確認)
5. ライセンスの付与
→ 本来はメタデータ定義の一部だが、重要なので別枠で
→ https://www.go-fair.org/technology/go-fair-metadata/ の要素を満たすように
7. データの展開(Deploy)
~~~~~
明示されてはいないけれども、3~5のプロセスが"Interoperable"と"Reusable"に該当、6が"Findable"と"Accessible"に該当する、ということなんだろう。
手順としてはLOD作る時とほぼ同じだが、セマンティックをきちんと紐づけたりメタデータ付与したり、といったプロセスが学問分野によって変わる点がポイントか。
実装する際にFAIR化のためにひと手間かける、というのはなかなか想定しづらいので、(今日のDA学会の話題にも上がっていたけれども)ワークフローに組み込んでもらうことを考えながら推進する必要がありそう。
国内だとNBDCが積極的に推進しているので、
今度どなたかにお話を聞いてみよう。
FAIRデータ原則に関する覚書き part 3: Accessible 1.5/2
今日は学会参加。合間を縫って(?)仕事がはかどる感じがよいですね。Accessibleは1.1、1.2の枝番があるため、まとめて。
~~~~~
A1.1: The protocol is open, free and universally implementable
A1.1: The protocol is open, free and universally implementable - GO FAIR
これは何を意味するのでしょうか?
データの再利用(の可能性)を最大限にするには、プロトコルは無料(無償)でオープン(ソース)にし、データ検索を容易にするためにグローバルに実装可能でなければなりません。 コンピュータとインターネット接続を持つ人は、少なくともメタデータにアクセスできます。したがって、この基準はデータを共有するリポジトリの選択に影響を与えます。
例:
・電話(おそらく普遍的に実装可能ではないが、十分に近い)
・反例はSkypeであろう。独占的であるため、普遍的に実装可能ではない
・Microsoft Exchange Serverプロトコルも独自仕様である
Links to Resources
https://en.wikipedia.org/wiki/Skype_protocol
https://www.w3.org/Protocols/rfc959/
=====
A1.2: The protocol allows for an authentication and authorisation when required
A1.2: The protocol allows for an authentication and authorisation when required - GO FAIR
これは何を意味するのでしょうか?
これは誤解されることも多いですが、FAIRのキーとなる要素です。FAIRにおける「A」は、必ずしも「開かれた」または「無料」という意味ではありません。むしろ、データがアクセス可能である正確な条件を提供すべき、ということを意味します。したがって、強力に保護されたプライベートなデータであっても、FAIRである可能性があります。理想的には、「アクセシビリティ」は、マシンが自動的に要件を理解し、要件を自動的に実行するか、ユーザーに要件を警告するような手法(での実現)を求められます。リポジトリのユーザーアカウントを作成するようにユーザーに要求することは、しばしば理にかなっています。これは、各データセットの所有者(または貢献者)の認証を可能にし、ユーザーごとの権利を設定することができる可能性を持ちます。したがって、この基準は、データを共有するリポジトリの選択にも影響します。
例:
HMAC authentication
FTPS
Telephone
Links to Resources
https://en.wikipedia.org/wiki/Hash-based_message_authentication_code
FAIRデータ原則に関する覚書き part 3: Accessible 1/2
先週は完全に力尽きており・・・ようやく〆切がある仕事が一段落したので再開します。"Accessible"は全体的に量が少ないかも。
~~~~~
A1: (Meta)data are retrievable by their identifier using a standardised communication protocol
これは何を意味するのでしょうか?
インターネットのほとんどのユーザーは、「リンクをクリックして」データを取得します。 これは、コンピュータが実行してユーザのWebブラウザにデータをロードする”tcp”というローレベルのプロトコルに対応する、ハイレベルのインタフェースです。(現代のインターネットのバックボーンを形成するhttpやsftpはtcp上に構築され、他の通信プロトコルよりも簡単にデジタルリソースを要求し、提供していることに注意してください)原則A1では、FAIRデータの取得は、特別なツールまたはコミュニケーションの方法なしに仲介されるべき、ということを述べています。したがって、実際のデータにアクセスできる人を明確に定義し、その方法を指定します。
例:
ほとんどのデータ提供者はhttp(s)またはftpを使用します。
アクセスを回避すべき障壁としては、限定的な実装のプロトコル、不十分なドキュメンテーション、人手を介するコンポーネントが含まれます。しかしながら、例えば高度に機微なデータなど(を考えれば)、完全に機械化されたプロトコルによる安全なアクセスを提供することは不可能であるかもしれない、という点には留意が必要です。そのような場合、データへのアクセスを議論できる担当者の電子メール、電話番号、またはSkype名を提供することは完全にFAIR(の一部)です。 このコンタクトのためのプロトコルは、メタデータ内で明確で明示的でなければなりません。
FAIR accessor(Webテクノロジーの新しい組み合わせによる相互運用性とFAIRnessを参照してください:http://linkeddata.systems/Accessors/UniProtAccessor/C8V1L6)
FAIRデータ原則に関する覚書き part 2: Findable 4/4
3つ目が短かったので、昨日の分も含めて4つ目を。こっちも大した量ではない。
~~~~~
F4: (Meta)data are registered or indexed in a searchable resource
F4: (Meta)data are registered or indexed in a searchable resource - GO FAIR
これは何を意味するのでしょうか?
識別子と豊かなメタデータの記述だけでは、インターネット上での「発見可能性」は保証されません。完全に良好なデータリソースであっても、単純にリソースが存在することを誰も知らないため、使われないかもしれません。データセット、サービス、リポジトリなどの電子リソースが使えるかどうか分からない場合は、誰も(およびマシンも)それを発見できません。
インデックス作成を含め、電子リソースを発見可能にする方法はいくつも存在します。例えば、Googleはウェブページを「読む」スパイダーを送り出し、それらを自動的にインデクシングするので、Googleの検索ボックスで検索できるようになります。これはほとんどの一般的な検索ユーザーには最適ですが、学術研究データの場合は、より明確なインデクシングが必要になります。 原則F1-F3は、現在のリポジトリおよび将来のサービスによる適切な粒度のインデクシングのための中核要素を提供します。
例:
FAIRデータポイントに公開されているFAIRデータセットのメタデータは、DTL検索エンジンによるインデックス作成に使用できます。
FAIRデータセットのレジストリは、専門的・局所的な分野に関心を持つリポジトリまたはグループによって、時間が経てば出現するかもしれません。
リソースへのリンク:
FAIR Data point specification
https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#
→ 最新版はこっち https://github.com/DTL-FAIRData/FAIRDataPoint/wiki