データのFAIR化の手順(FAIRification process)
FAIRデータ原則の試訳を鋭意進めてる最中ですが、一番興味のあったFAIR化の話があったのでちょっと横道に。
FAIRification Process - GO FAIR
GO FAIRな方々が採用した標準的な手順、という理解で良さそう。
一応試訳はしたけれども、やや長いので抜粋で。
=====
・FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できる。
・"Interoperable"と"Reusable"はデータレベルでの取り組みが必要。
上記の理解のもと、以下7つのプロセスでデータをFAIR化できるとのこと:
~~~~~
1. 非FAIRデータの取得
2. 取得したデータの分析
→ データの概念、構造、関係性などを確認
3. データセットに適用するセマンティックモデルの定義
→ 既存のオントロジー、ボキャブラリによってデータを意味付ける
4. データをリンク可能に
→ step 3で定義したモデルが、ユーザー視点で適切かどうか確認(注:RDFっぽく言うとIRIにするかリテラルにするか、みたいな確認)
5. ライセンスの付与
→ 本来はメタデータ定義の一部だが、重要なので別枠で
→ https://www.go-fair.org/technology/go-fair-metadata/ の要素を満たすように
7. データの展開(Deploy)
~~~~~
明示されてはいないけれども、3~5のプロセスが"Interoperable"と"Reusable"に該当、6が"Findable"と"Accessible"に該当する、ということなんだろう。
手順としてはLOD作る時とほぼ同じだが、セマンティックをきちんと紐づけたりメタデータ付与したり、といったプロセスが学問分野によって変わる点がポイントか。
実装する際にFAIR化のためにひと手間かける、というのはなかなか想定しづらいので、(今日のDA学会の話題にも上がっていたけれども)ワークフローに組み込んでもらうことを考えながら推進する必要がありそう。
国内だとNBDCが積極的に推進しているので、
今度どなたかにお話を聞いてみよう。
FAIRデータ原則に関する覚書き part 3: Accessible 1.5/2
今日は学会参加。合間を縫って(?)仕事がはかどる感じがよいですね。Accessibleは1.1、1.2の枝番があるため、まとめて。
~~~~~
A1.1: The protocol is open, free and universally implementable
A1.1: The protocol is open, free and universally implementable - GO FAIR
これは何を意味するのでしょうか?
データの再利用(の可能性)を最大限にするには、プロトコルは無料(無償)でオープン(ソース)にし、データ検索を容易にするためにグローバルに実装可能でなければなりません。 コンピュータとインターネット接続を持つ人は、少なくともメタデータにアクセスできます。したがって、この基準はデータを共有するリポジトリの選択に影響を与えます。
例:
・電話(おそらく普遍的に実装可能ではないが、十分に近い)
・反例はSkypeであろう。独占的であるため、普遍的に実装可能ではない
・Microsoft Exchange Serverプロトコルも独自仕様である
Links to Resources
https://en.wikipedia.org/wiki/Skype_protocol
https://www.w3.org/Protocols/rfc959/
=====
A1.2: The protocol allows for an authentication and authorisation when required
A1.2: The protocol allows for an authentication and authorisation when required - GO FAIR
これは何を意味するのでしょうか?
これは誤解されることも多いですが、FAIRのキーとなる要素です。FAIRにおける「A」は、必ずしも「開かれた」または「無料」という意味ではありません。むしろ、データがアクセス可能である正確な条件を提供すべき、ということを意味します。したがって、強力に保護されたプライベートなデータであっても、FAIRである可能性があります。理想的には、「アクセシビリティ」は、マシンが自動的に要件を理解し、要件を自動的に実行するか、ユーザーに要件を警告するような手法(での実現)を求められます。リポジトリのユーザーアカウントを作成するようにユーザーに要求することは、しばしば理にかなっています。これは、各データセットの所有者(または貢献者)の認証を可能にし、ユーザーごとの権利を設定することができる可能性を持ちます。したがって、この基準は、データを共有するリポジトリの選択にも影響します。
例:
HMAC authentication
FTPS
Telephone
Links to Resources
https://en.wikipedia.org/wiki/Hash-based_message_authentication_code
FAIRデータ原則に関する覚書き part 3: Accessible 1/2
先週は完全に力尽きており・・・ようやく〆切がある仕事が一段落したので再開します。"Accessible"は全体的に量が少ないかも。
~~~~~
A1: (Meta)data are retrievable by their identifier using a standardised communication protocol
これは何を意味するのでしょうか?
インターネットのほとんどのユーザーは、「リンクをクリックして」データを取得します。 これは、コンピュータが実行してユーザのWebブラウザにデータをロードする”tcp”というローレベルのプロトコルに対応する、ハイレベルのインタフェースです。(現代のインターネットのバックボーンを形成するhttpやsftpはtcp上に構築され、他の通信プロトコルよりも簡単にデジタルリソースを要求し、提供していることに注意してください)原則A1では、FAIRデータの取得は、特別なツールまたはコミュニケーションの方法なしに仲介されるべき、ということを述べています。したがって、実際のデータにアクセスできる人を明確に定義し、その方法を指定します。
例:
ほとんどのデータ提供者はhttp(s)またはftpを使用します。
アクセスを回避すべき障壁としては、限定的な実装のプロトコル、不十分なドキュメンテーション、人手を介するコンポーネントが含まれます。しかしながら、例えば高度に機微なデータなど(を考えれば)、完全に機械化されたプロトコルによる安全なアクセスを提供することは不可能であるかもしれない、という点には留意が必要です。そのような場合、データへのアクセスを議論できる担当者の電子メール、電話番号、またはSkype名を提供することは完全にFAIR(の一部)です。 このコンタクトのためのプロトコルは、メタデータ内で明確で明示的でなければなりません。
FAIR accessor(Webテクノロジーの新しい組み合わせによる相互運用性とFAIRnessを参照してください:http://linkeddata.systems/Accessors/UniProtAccessor/C8V1L6)
FAIRデータ原則に関する覚書き part 2: Findable 4/4
3つ目が短かったので、昨日の分も含めて4つ目を。こっちも大した量ではない。
~~~~~
F4: (Meta)data are registered or indexed in a searchable resource
F4: (Meta)data are registered or indexed in a searchable resource - GO FAIR
これは何を意味するのでしょうか?
識別子と豊かなメタデータの記述だけでは、インターネット上での「発見可能性」は保証されません。完全に良好なデータリソースであっても、単純にリソースが存在することを誰も知らないため、使われないかもしれません。データセット、サービス、リポジトリなどの電子リソースが使えるかどうか分からない場合は、誰も(およびマシンも)それを発見できません。
インデックス作成を含め、電子リソースを発見可能にする方法はいくつも存在します。例えば、Googleはウェブページを「読む」スパイダーを送り出し、それらを自動的にインデクシングするので、Googleの検索ボックスで検索できるようになります。これはほとんどの一般的な検索ユーザーには最適ですが、学術研究データの場合は、より明確なインデクシングが必要になります。 原則F1-F3は、現在のリポジトリおよび将来のサービスによる適切な粒度のインデクシングのための中核要素を提供します。
例:
FAIRデータポイントに公開されているFAIRデータセットのメタデータは、DTL検索エンジンによるインデックス作成に使用できます。
FAIRデータセットのレジストリは、専門的・局所的な分野に関心を持つリポジトリまたはグループによって、時間が経てば出現するかもしれません。
リソースへのリンク:
FAIR Data point specification
https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#
→ 最新版はこっち https://github.com/DTL-FAIRData/FAIRDataPoint/wiki
FAIRデータ原則に関する覚書き part 2: Findable 3/4
1日空いてしまったけれども、めげずに続けます。3つ目はかなり短かった。
~~~~~
F3: Metadata clearly and explicitly include the identifier of the data they describe
F3: Metadata clearly and explicitly include the identifier of the data they describe - GO FAIR
これは何を意味するのでしょうか?
これはシンプルで明白な原則ですが、FAIRにとって非常に重要です。記述するメタデータとデータセットは、通常、別々のファイルです。メタデータファイルとデータセットとの関連付けは、データセットに付与されたグローバルに一意かつ永続的な識別子をメタデータに記述し明示する必要があります。 F1に記載されているように、多くのリポジトリは、寄託されたデータセットに対して、この目的に使用できるグローバルに一意かつ永続的な識別子を生成します。
例:
関連付けはフォーマルな手法で行う必要があります。例えば、RDFメタデータの場合はfoaf:primaryTopic述語を使用して行うことになります。
リソースへのリンク
The DTL FAIRifier tool guarantees F3.(https://fair-demo.fair-dtls.surf-hosted.nl/fairifier/)
~~~~~
FAIRifier toolはα版の様子。何かほとんどOpenRefineにしか見えないが・・・
FAIRデータ原則に関する覚書き part 2: Findable 2/4
2日目。これ最初と最後で訳語が相当揺れそう。。。まあ試訳なのでまずは続けてみます。
~~~~~
F2: Data are described with rich metadata
F2: Data are described with rich metadata - GO FAIR
これは何を意味するのでしょうか?
FAIRデジタルリソースの作成において、メタデータは、データの文脈、品質、条件、または特性に関する記述的情報を含み、広範かつ拡張可能でなければなりません(そして、そうすべきです)。豊かなメタデータにより、コンピュータはルーチンワーク、退屈な分類及びタスクの優先順位付けを自動的に行うことができるため、現在、研究者から多くの注目を集めています。
この原則の論理的根拠は、データの識別子がなくても、メタデータによって提供される情報に基づいてデータを見つけることができるはずだ、ということです。このように、F2に準拠することで、データの場所を特定し、再利用や引用を増やすことができます。
豊かなメタデータは、誰がデータを使用したいのか、どのような目的のために使用するのかを推測してはいけないことを意味します。したがって、経験則として、「このメタデータは有用ではない」と決して言うべきではありません。とにかくそれを広く提供してください!
例:
これには、「本質的な」メタデータ(例えば、画像ファイルのDICOM情報: http://www.nf.mpg.de/vinci3/doc/image-formats.htmlのように、自動的に生成・取得されたデータ)と、「文脈に依存する」メタデータ(例えば、使用されたプロトコル; 正式なプロトコルの文書のキーワードとリンクとともに、使用された測定装置; 製造業者のキーワードとリンクとともに、捕捉されたデータのユニット(関与する種を含む); 分類群IDによって明示的に、例えばhttp://www.uniprot.org/taxonomy/9606、研究にフォーカスした遺伝子/タンパク質/その他; (例えばGO Terms: http://www.geneontology.org/)、観測またはシミュレートされた天文データセットの物理的パラメータ空間、縦方向データに関連する疑問及び概念、材料の特性の計算、またはその他 実験の詳細)を含みます。”ユーザー制御メタデータ: https://www.w3.org/2007/08/video/positions/Schepers.html”を参照してください。
例文の枠組み:
Try using the DTL Metadata Editor: http://editor-v2.fair-dtls.surf-hosted.nl/#/edit(注:リンク切れ)
Marking up your dataset with DCAT: https://theodi.org/guides/marking-up-your-dataset-with-dcat
ISA framework: http://isa-tools.org/
~~~~~
最後の例文は相当に自信がない(というか原文も列挙しすぎ)。終わったら見直したい。
FAIRデータ原則に関する覚書き part 2: Findable 1/4
モチベーションがあるうちに、下記ページの試訳を。どこまで続くか分かりませんが。
まずは、"Findable"の章から。
~~~~~
Findable
データを(再)利用する最初のステップは、それらを発見することです。メタデータとデータは、人間とコンピュータの両方にとって容易に見つかるべきです。機械可読なメタデータは、データセットとサービスの自動的な発見に不可欠です。したがって、これはFAIRificationプロセス(リンク:https://www.go-fair.org/technology/fairification-process/)の必須コンポーネントです。
F1: (Meta) data are assigned globally unique and persistent identifiers
F1: (Meta) data are assigned globally unique and persistent identifiers - GO FAIR
これは何を意味するのでしょうか?
原則F1は、おそらく最も重要です。なぜなら、グローバルにユニークで永続的な識別子なしにFAIRの他の側面を達成することは難しいからです。したがって、F1に準拠すると、FAIRに準拠したデータ(FAIRデータ)を公開するための長い道のり(の第一歩)が得られます(”識別子がデータ統合に役立つ10の方法: http://biorxiv.org/content/biorxiv/early/2017/03/20/117812.full.pdf”を参照してください)。
グローバルにユニークで永続的な識別子は、メタデータのすべての要素とデータセットのすべての概念/測定値に一意の識別子を割り当てることによって、公開されたデータの意味における曖昧さを排除します。この文脈において、識別子はインターネットのリンク(例えば、特定のヒトタンパク質:http://www.uniprot.org/uniprot/P98161のような概念を定義するウェブページ(URL))を構成します。多くのデータリポジトリは、寄託されたデータセットに対して、グローバルに一意かつ永続的な識別子を自動的に生成します。
識別子は、あなたが意図したところを他人が正確に理解するのに役立ち、コンピュータが意味のある方法でデータを解釈することを可能にします(例えば、データ検索を行うコンピュータや自動的にデータを自動的に統合しようとするコンピュータ)。
識別子は、オープンサイエンスのビジョンにとってキーとなる人と機械の相互運用に不可欠です。さらに、識別子は、データを再利用するときに、他人があなたの著作を適切に引用するのに役立ちます。もちろん、識別子は(オープンサイエンスのキーの)一つに過ぎませんが、その意味は別のものです(原則I1〜I3参照)。 F1は識別子のための2つの条件を規定しています: