FAIRメタデータの種類
またも寄り道。データのFAIRification processで触れられていたが、
データのFAIR化の手順(FAIRification process) - みなみの備忘録
FAIRのうち、"Findable"と"Accessible"はメタデータのレベルでほぼ達成できるとのこと。では、どんなメタデータが必要か、ということがまとめられていたので試訳・抜粋してみました。
=====
GO FAIR metadata
・ライセンスに関する情報(どのようなアルゴリズムで、誰がどのような条件でデータにアクセスできるか)
が含まれている必要があるとのこと。また、相互運用性と再利用性のために
・データとメタデータのセマンティクスに関する情報
・データの来歴に関する情報
が含まれている必要があり、さらにメタデータはドメインに関連したコミュニティの標準に準拠している必要がある。
以上を前提に、次の層(レイヤー)で構成された多層的なメタデータのアプローチを推奨する、とのこと:
→ データとデータの実体(Entity)が含まれる。さらに、APIのバージョンやサービスライセンス等の情報を含む。
カタログのメタデータ:
→ データの組織化情報。
→ データセットの名前、説明、作者/出版社、バージョン、最終変更日、ライセンス、権利などの情報。
流通のメタデータ:
→ データセットをシリアル化(注:オブジェクトのステータス情報を保存または転送できる形式に変換するプロセス)した情報。RDFとかXMLとかCSVとか。
データレコードのメタデータ:
→ データ、関係性(relationship)、ドメイン、範囲、および制限で表される概念の情報。「データの構造とセマンティクス」って表現されている。
=====
やや複雑になってはいるが、良く言われる①記述的メタデータ、②管理用メタデータ、③構造的メタデータ、の枠組みと大きく異なることはない様子(セマンティクスの要素は大きいか)。しかし、確かにここまで書けば極めて充実したメタデータと言えようが、データ保有者はデータセットごとにこれを書く価値を見出してくれるだろうか・・・