データのFAIR化の手順(FAIRification process)
FAIRデータ原則の試訳を鋭意進めてる最中ですが、一番興味のあったFAIR化の話があったのでちょっと横道に。
FAIRification Process - GO FAIR
GO FAIRな方々が採用した標準的な手順、という理解で良さそう。
一応試訳はしたけれども、やや長いので抜粋で。
=====
・FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できる。
・"Interoperable"と"Reusable"はデータレベルでの取り組みが必要。
上記の理解のもと、以下7つのプロセスでデータをFAIR化できるとのこと:
~~~~~
1. 非FAIRデータの取得
2. 取得したデータの分析
→ データの概念、構造、関係性などを確認
3. データセットに適用するセマンティックモデルの定義
→ 既存のオントロジー、ボキャブラリによってデータを意味付ける
4. データをリンク可能に
→ step 3で定義したモデルが、ユーザー視点で適切かどうか確認(注:RDFっぽく言うとIRIにするかリテラルにするか、みたいな確認)
5. ライセンスの付与
→ 本来はメタデータ定義の一部だが、重要なので別枠で
→ https://www.go-fair.org/technology/go-fair-metadata/ の要素を満たすように
7. データの展開(Deploy)
~~~~~
明示されてはいないけれども、3~5のプロセスが"Interoperable"と"Reusable"に該当、6が"Findable"と"Accessible"に該当する、ということなんだろう。
手順としてはLOD作る時とほぼ同じだが、セマンティックをきちんと紐づけたりメタデータ付与したり、といったプロセスが学問分野によって変わる点がポイントか。
実装する際にFAIR化のためにひと手間かける、というのはなかなか想定しづらいので、(今日のDA学会の話題にも上がっていたけれども)ワークフローに組み込んでもらうことを考えながら推進する必要がありそう。
国内だとNBDCが積極的に推進しているので、
今度どなたかにお話を聞いてみよう。