みなみの備忘録

とあるライブラリアンの備忘録です。

FAIRメタデータの種類

またも寄り道。データのFAIRification processで触れられていたが、

データのFAIR化の手順(FAIRification process) - みなみの備忘録

FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できるとのこと。では、どんなメタデータが必要か、ということがまとめられていたので試訳・抜粋してみました。

=====

GO FAIR metadata

GO FAIR Metadata - GO FAIR

アクセシビリティのために、メタデータには

・ライセンスに関する情報(どのようなアルゴリズムで、誰がどのような条件でデータにアクセスできるか)

アクセシビリティに関するプロトコル

が含まれている必要があるとのこと。また、相互運用性と再利用性のために

・データとメタデータのセマンティクスに関する情報

・データの来歴に関する情報

が含まれている必要があり、さらにメタデータドメインに関連したコミュニティの標準に準拠している必要がある。

以上を前提に、次の層(レイヤー)で構成された多層的なメタデータのアプローチを推奨する、とのこと:

データリポジトリメタデータ

→ データとデータの実体(Entity)が含まれる。さらに、APIのバージョンやサービスライセンス等の情報を含む。

カタログのメタデータ

→ データの組織化情報。

データセットメタデータ

→ データセットの名前、説明、作者/出版社、バージョン、最終変更日、ライセンス、権利などの情報。

流通のメタデータ

→ データセットをシリアル化(注:オブジェクトのステータス情報を保存または転送できる形式に変換するプロセス)した情報。RDFとかXMLとかCSVとか。

データレコードのメタデータ

→ データ、関係性(relationship)、ドメイン、範囲、および制限で表される概念の情報。「データの構造とセマンティクス」って表現されている。

 =====

やや複雑になってはいるが、良く言われる①記述的メタデータ、②管理用メタデータ、③構造的メタデータ、の枠組みと大きく異なることはない様子(セマンティクスの要素は大きいか)。しかし、確かにここまで書けば極めて充実したメタデータと言えようが、データ保有者はデータセットごとにこれを書く価値を見出してくれるだろうか・・・

 

FAIRデータ原則に関する覚書き part 3: Accessible 2/2

試訳もこれで折り返し。来年度あたりFAIR推進ワークショップとかやれないかな・・・

~~~~~

A2: Metadata should be accessible even when the data is no longer available

A2: Metadata should be accessible even when the data is no longer available - GO FAIR

これは何を意味するのでしょうか?

データセットは時間の経過とともに劣化または消滅する傾向があります。これは、データセットのオンラインプレゼンスを維持するコストが理由です。データセットの劣化または消滅が起こると、リンクは無効になり、ユーザーはもはや存在しないかもしれないデータを探す時間を浪費することになります。一般的に、メタデータの保存はずっと簡単で安価です。 したがって、原則A2は、データがもはや維持されていなくても、メタデータは維持すべきである、と述べています。A2は、F4で説明されている登録およびインデックス作成の問題に関連します。

例:

メタデータは、研究、特に複製の研究を計画する際には、それ自体に価値があります。元のデータがない場合でも、オリジナルの研究に関連する人や機関、または出版物を追跡することは非常に便利です。

データのFAIR化の手順(FAIRification process)

FAIRデータ原則の試訳を鋭意進めてる最中ですが、一番興味のあったFAIR化の話があったのでちょっと横道に。

FAIRification Process - GO FAIR

GO FAIRな方々が採用した標準的な手順、という理解で良さそう。

一応試訳はしたけれども、やや長いので抜粋で。

=====

・FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できる。

・"Interoperable"と"Reusable"はデータレベルでの取り組みが必要。

上記の理解のもと、以下7つのプロセスでデータをFAIR化できるとのこと:

~~~~~

1. 非FAIRデータの取得

2. 取得したデータの分析

→ データの概念、構造、関係性などを確認

3. データセットに適用するセマンティックモデルの定義

→ 既存のオントロジーボキャブラリによってデータを意味付ける

4. データをリンク可能に

→ step 3で定義したモデルが、ユーザー視点で適切かどうか確認(注:RDFっぽく言うとIRIにするかリテラルにするか、みたいな確認)

5. ライセンスの付与

→ 本来はメタデータ定義の一部だが、重要なので別枠で

6. データセットメタデータ定義

→ https://www.go-fair.org/technology/go-fair-metadata/ の要素を満たすように

7. データの展開(Deploy)

~~~~~

明示されてはいないけれども、3~5のプロセスが"Interoperable"と"Reusable"に該当、6が"Findable"と"Accessible"に該当する、ということなんだろう。

手順としてはLOD作る時とほぼ同じだが、セマンティックをきちんと紐づけたりメタデータ付与したり、といったプロセスが学問分野によって変わる点がポイントか。

実装する際にFAIR化のためにひと手間かける、というのはなかなか想定しづらいので、(今日のDA学会の話題にも上がっていたけれども)ワークフローに組み込んでもらうことを考えながら推進する必要がありそう。

国内だとNBDCが積極的に推進しているので、

バイオサイエンスデータベースセンター - NBDC

今度どなたかにお話を聞いてみよう。

FAIRデータ原則に関する覚書き part 3: Accessible 1.5/2

今日は学会参加。合間を縫って(?)仕事がはかどる感じがよいですね。Accessibleは1.1、1.2の枝番があるため、まとめて。

~~~~~

A1.1: The protocol is open, free and universally implementable

A1.1: The protocol is open, free and universally implementable - GO FAIR

これは何を意味するのでしょうか?

データの再利用(の可能性)を最大限にするには、プロトコルは無料(無償)でオープン(ソース)にし、データ検索を容易にするためにグローバルに実装可能でなければなりません。 コンピュータとインターネット接続を持つ人は、少なくともメタデータにアクセスできます。したがって、この基準はデータを共有するリポジトリの選択に影響を与えます。

例:

・HTTP、FTPSMTP、...

・電話(おそらく普遍的に実装可能ではないが、十分に近い)

・反例はSkypeであろう。独占的であるため、普遍的に実装可能ではない

Microsoft Exchange Serverプロトコルも独自仕様である

 

Links to Resources

https://en.wikipedia.org/wiki/Skype_protocol

https://www.w3.org/Protocols/

https://www.w3.org/Protocols/rfc959/

=====

A1.2: The protocol allows for an authentication and authorisation when required

A1.2: The protocol allows for an authentication and authorisation when required - GO FAIR

これは何を意味するのでしょうか?

これは誤解されることも多いですが、FAIRのキーとなる要素です。FAIRにおける「A」は、必ずしも「開かれた」または「無料」という意味ではありません。むしろ、データがアクセス可能である正確な条件を提供すべき、ということを意味します。したがって、強力に保護されたプライベートなデータであっても、FAIRである可能性があります。理想的には、「アクセシビリティ」は、マシンが自動的に要件を理解し、要件を自動的に実行するか、ユーザーに要件を警告するような手法(での実現)を求められます。リポジトリのユーザーアカウントを作成するようにユーザーに要求することは、しばしば理にかなっています。これは、各データセットの所有者(または貢献者)の認証を可能にし、ユーザーごとの権利を設定することができる可能性を持ちます。したがって、この基準は、データを共有するリポジトリの選択にも影響します。

例:

HMAC authentication

HTTPS

FTPS

Telephone

 

Links to Resources

https://en.wikipedia.org/wiki/Hash-based_message_authentication_code

FAIRデータ原則に関する覚書き part 3: Accessible 1/2

先週は完全に力尽きており・・・ようやく〆切がある仕事が一段落したので再開します。"Accessible"は全体的に量が少ないかも。

~~~~~

A1: (Meta)data are retrievable by their identifier using a standardised communication protocol

A1: (Meta)data are retrievable by their identifier using a standardised communication protocol - GO FAIR

これは何を意味するのでしょうか?

インターネットのほとんどのユーザーは、「リンクをクリックして」データを取得します。 これは、コンピュータが実行してユーザのWebブラウザにデータをロードする”tcp”というローレベルのプロトコルに対応する、ハイレベルのインタフェースです。(現代のインターネットのバックボーンを形成するhttpやsftpはtcp上に構築され、他の通信プロトコルよりも簡単にデジタルリソースを要求し、提供していることに注意してください)原則A1では、FAIRデータの取得は、特別なツールまたはコミュニケーションの方法なしに仲介されるべき、ということを述べています。したがって、実際のデータにアクセスできる人を明確に定義し、その方法を指定します。

例:

ほとんどのデータ提供者はhttp(s)またはftpを使用します。

アクセスを回避すべき障壁としては、限定的な実装のプロトコル、不十分なドキュメンテーション、人手を介するコンポーネントが含まれます。しかしながら、例えば高度に機微なデータなど(を考えれば)、完全に機械化されたプロトコルによる安全なアクセスを提供することは不可能であるかもしれない、という点には留意が必要です。そのような場合、データへのアクセスを議論できる担当者の電子メール、電話番号、またはSkype名を提供することは完全にFAIR(の一部)です。 このコンタクトのためのプロトコルは、メタデータ内で明確で明示的でなければなりません。

FAIR accessor(Webテクノロジーの新しい組み合わせによる相互運用性とFAIRnessを参照してください:http://linkeddata.systems/Accessors/UniProtAccessor/C8V1L6

 

 

FAIRデータ原則に関する覚書き part 2: Findable 4/4

3つ目が短かったので、昨日の分も含めて4つ目を。こっちも大した量ではない。

~~~~~

F4: (Meta)data are registered or indexed in a searchable resource

F4: (Meta)data are registered or indexed in a searchable resource - GO FAIR

これは何を意味するのでしょうか?

識別子と豊かなメタデータの記述だけでは、インターネット上での「発見可能性」は保証されません。完全に良好なデータリソースであっても、単純にリソースが存在することを誰も知らないため、使われないかもしれません。データセット、サービス、リポジトリなどの電子リソースが使えるかどうか分からない場合は、誰も(およびマシンも)それを発見できません。

インデックス作成を含め、電子リソースを発見可能にする方法はいくつも存在します。例えば、Googleはウェブページを「読む」スパイダーを送り出し、それらを自動的にインデクシングするので、Googleの検索ボックスで検索できるようになります。これはほとんどの一般的な検索ユーザーには最適ですが、学術研究データの場合は、より明確なインデクシングが必要になります。 原則F1-F3は、現在のリポジトリおよび将来のサービスによる適切な粒度のインデクシングのための中核要素を提供します。

例:

FAIRデータポイントに公開されているFAIRデータセットメタデータは、DTL検索エンジンによるインデックス作成に使用できます。

FAIRデータセットレジストリは、専門的・局所的な分野に関心を持つリポジトリまたはグループによって、時間が経てば出現するかもしれません。

 

リソースへのリンク:

FAIR Data point specification

https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#

→ 最新版はこっち https://github.com/DTL-FAIRData/FAIRDataPoint/wiki

FAIRデータ原則に関する覚書き part 2: Findable 3/4

1日空いてしまったけれども、めげずに続けます。3つ目はかなり短かった。

~~~~~

F3: Metadata clearly and explicitly include the identifier of the data they describe

F3: Metadata clearly and explicitly include the identifier of the data they describe - GO FAIR

これは何を意味するのでしょうか?

これはシンプルで明白な原則ですが、FAIRにとって非常に重要です。記述するメタデータとデータセットは、通常、別々のファイルです。メタデータファイルとデータセットとの関連付けは、データセットに付与されたグローバルに一意かつ永続的な識別子をメタデータに記述し明示する必要があります。 F1に記載されているように、多くのリポジトリは、寄託されたデータセットに対して、この目的に使用できるグローバルに一意かつ永続的な識別子を生成します。

例:

関連付けはフォーマルな手法で行う必要があります。例えば、RDFメタデータの場合はfoaf:primaryTopic述語を使用して行うことになります。

 

リソースへのリンク

The DTL FAIRifier tool guarantees F3.(https://fair-demo.fair-dtls.surf-hosted.nl/fairifier/

~~~~~

FAIRifier toolはα版の様子。何かほとんどOpenRefineにしか見えないが・・・