みなみの備忘録

とある図書館員(?)の備忘録です。

データのFAIR化の手順(FAIRification process)

FAIRデータ原則の試訳を鋭意進めてる最中ですが、一番興味のあったFAIR化の話があったのでちょっと横道に。

FAIRification Process - GO FAIR

GO FAIRな方々が採用した標準的な手順、という理解で良さそう。

一応試訳はしたけれども、やや長いので抜粋で。

=====

・FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できる。

・"Interoperable"と"Reusable"はデータレベルでの取り組みが必要。

上記の理解のもと、以下7つのプロセスでデータをFAIR化できるとのこと:

~~~~~

1. 非FAIRデータの取得

2. 取得したデータの分析

→ データの概念、構造、関係性などを確認

3. データセットに適用するセマンティックモデルの定義

→ 既存のオントロジーボキャブラリによってデータを意味付ける

4. データをリンク可能に

→ step 3で定義したモデルが、ユーザー視点で適切かどうか確認(注:RDFっぽく言うとIRIにするかリテラルにするか、みたいな確認)

5. ライセンスの付与

→ 本来はメタデータ定義の一部だが、重要なので別枠で

6. データセットメタデータ定義

→ https://www.go-fair.org/technology/go-fair-metadata/ の要素を満たすように

7. データの展開(Deploy)

~~~~~

明示されてはいないけれども、3~5のプロセスが"Interoperable"と"Reusable"に該当、6が"Findable"と"Accessible"に該当する、ということなんだろう。

手順としてはLOD作る時とほぼ同じだが、セマンティックをきちんと紐づけたりメタデータ付与したり、といったプロセスが学問分野によって変わる点がポイントか。

実装する際にFAIR化のためにひと手間かける、というのはなかなか想定しづらいので、(今日のDA学会の話題にも上がっていたけれども)ワークフローに組み込んでもらうことを考えながら推進する必要がありそう。

国内だとNBDCが積極的に推進しているので、

バイオサイエンスデータベースセンター - NBDC

今度どなたかにお話を聞いてみよう。