みなみの備忘録

とある図書館員(?)の備忘録です。

"Data Discovery Paradigms: User Requirements and Recommendations for Data Repositories"感想

Data Science JournalのRDA results特集に、下記の研究論文が掲載されていた。

Data Discovery Paradigms: User Requirements and Recommendations for Data Repositories

本稿ではRDA Data Discovery Paradigms IGの活動成果として、データ発見、検索面からのデータリポジトリへの推奨要件をまとめている、とのこと。まとめ方は「定性的な分析をもとに、経験則による評価と専門家によるレビューを受けた」とある。微妙にデータっぽくない(?)気がしなくもないが、まあそれはさておき、79のユースケースを収集して10の要件を抽出したとのことで、ざっくりとまとめてみる。誤解や見当違いはご容赦を。

=====

1.Introduction

FAIRデータ原則の紹介に始まり、データの発見可能性を高めることの重要さが書かれている。データリポジトリがデータ発見をどのように支援するのか、という点の標準的な理解を得ること、特に横断的な基準を明確にすることが目的の様子。W3CのWGによる先行研究をもとにしつつ、

Data on the Web Best Practices

データ検索に関するユースケースを分析し、開発者だけではなくリポジトリ管理者や研究者向けに役立つ基準作りを目指した、とある。

 

2.Case Study Methodology

ケーススタディの収集先としては、Jiscほか4つのサイトから収集。インタビュー結果などの情報が点在していたものの、(当然ながら?)フォーマットはバラバラだったので、"open interview format"に従ってまとめ直したとのこと。

# googleでちょっと検索した限りでは"open interview format"なる規格のページは

# 見当たらなかったけれども、特に引用もされていないのでそういうものなのだろうか

# (知識不足の可能性は大いにある)。

上記サイトからは64のユースケースが集まったものの、中を見たらほとんどが「研究者」にフォーカスされたものだったそうで、より多様性を求めてALAやACRLなど、図書館系のサイトから追加収集を試みた。結果、追加で15のユースケースが集まり、合わせて射程をlibrarianとfunderまで拡張することにした、とのこと。
さて、集まったデータに前処理(語彙の統制など)を加えつつ、

1) データ発見に関連すること

2) データ利用者に関連すること

の観点から分析したところ、24の用語に集約できた。さらに大カテゴリとして"metadata"、"portal functionality"、"data"(注:"data"は「その他」に近い)の3つに分け、要件を整理した。そのうえで、用語ごとに"requirement"のまとめを抽出しつつ、「誰向けの要件か」という視点を加えて「9つの要件(REQ)」に再整理。(このあたり、かなり作業間の関係性がややこしい)

(9つの要件:訳は試案)
REQ 1. データ可用性(Availability)の表示
REQ 2. 人/機関/論文/引用/助成金とのデータの関連
REQ 3. 完全な注釈付きのデータ(粒度、出所(origin)、ライセンス、来歴(provenance)、作製方法、ダウンロード回数など)
REQ 4. 特定の基準に基づき、同時に複数のフィールドのデータをフィルタリングする(リリース日、地域情報、テキストコンテンツ、日付範囲、特定のイベントなど)
REQ 5. データの相互参照(同じリポジトリ/異なるリポジトリ
REQ 6. ビジュアル分析/データ検査/サムネイルのプレビュー
REQ 7. 共同作業環境におけるデータの共有(データセット全体、特定のレコード、または書誌情報)
REQ 8. 付随する教材(educational/training material)
REQ 9. 他の確立された学術ポータルと同様のポータル機能

要件の使い方としては、1) データサービスのポータルを構築・実装するうえでのチェックリスト、2) 既存のデータディスカバリサービスの機能改善、3) ユーザー視点でのパラダイム構築(の事例?)、が挙げられている。

 

3.Recommendations to data repositories on data discovery
さて、9つの要件を実現するための提言(Recommendation)として、FAIRデータ原則を引きつつ以下10個が提示されている。順番には特に意味はないとのこと。個別の紹介は長いので省略・・・機会があれば。

(10の提言:訳は試案)
REC 1. さまざまなデータ検索行動に対応するためのクエリインターフェイスを提供する
REC 2. データを検索するための複数のアクセスポイントを提供する(例:検索、件名閲覧、ファセット閲覧/フィルタリング)
REC 3. 研究者が検索サマリからデータコレクションの関連性、アクセシビリティ、および再利用性を判断しやすくする
REC 4. 個々のメタデータレコードを読みやすく、分析しやすくする
REC 5. 書誌参照(bibliographic reference)の共有とダウンロードを有効にする
REC 6. 利用統計を公開する
REC 7. 他のリポジトリとの一貫性を保つように努める
REC 8. 同じデータオブジェクトを記述するメタデータレコードを識別して集計する
REC 9. 主要なWeb検索エンジンによるメタデータレコードの索引付け(indexing)と検索を容易にする
REC10. 相互運用性のために、API検索標準とコミュニティで採用されている語彙に従う

 

4.Discussion and conclusion
主として、10の提言の射程と限界について考察されている(と理解した)。いくつかはデータリポジトリ特有のものではなく、検索システム一般向けのものも混ざっている(REQ4、REQ8、REQ9あたり)。それ以外はデータリポジトリ寄りだが、もちろん改善の実際はこの提言の範疇だけではなく、より特定のユーザーコミュニティに沿った形はありうるだろう、等々。

=====
全体の感想。主として開発者向け、ということで要件がまとめられたのはまず分かりやすくて良い。欲を言えば、データリポジトリの利用者はまず分野の研究者になるはずなので、そこにもう少し踏み込んで欲しかった(というのは求めすぎだろうか)。あと、リポジトリの機能実装を考える上で、検索サービスだけに特化した提言はなかなか参照しづらいかも・・・CoreTrustSealの一部とかになってくれると良い気がするが、連携はあるのだろうか。この辺は今後の活動に期待したい。