みなみの備忘録

とあるライブラリアンの備忘録です。

FAIRデータ原則に関する覚書き part 2: Findable 4/4

3つ目が短かったので、昨日の分も含めて4つ目を。こっちも大した量ではない。

~~~~~

F4: (Meta)data are registered or indexed in a searchable resource

F4: (Meta)data are registered or indexed in a searchable resource - GO FAIR

これは何を意味するのでしょうか?

識別子と豊かなメタデータの記述だけでは、インターネット上での「発見可能性」は保証されません。完全に良好なデータリソースであっても、単純にリソースが存在することを誰も知らないため、使われないかもしれません。データセット、サービス、リポジトリなどの電子リソースが使えるかどうか分からない場合は、誰も(およびマシンも)それを発見できません。

インデックス作成を含め、電子リソースを発見可能にする方法はいくつも存在します。例えば、Googleはウェブページを「読む」スパイダーを送り出し、それらを自動的にインデクシングするので、Googleの検索ボックスで検索できるようになります。これはほとんどの一般的な検索ユーザーには最適ですが、学術研究データの場合は、より明確なインデクシングが必要になります。 原則F1-F3は、現在のリポジトリおよび将来のサービスによる適切な粒度のインデクシングのための中核要素を提供します。

例:

FAIRデータポイントに公開されているFAIRデータセットメタデータは、DTL検索エンジンによるインデックス作成に使用できます。

FAIRデータセットレジストリは、専門的・局所的な分野に関心を持つリポジトリまたはグループによって、時間が経てば出現するかもしれません。

 

リソースへのリンク:

FAIR Data point specification

https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#

→ 最新版はこっち https://github.com/DTL-FAIRData/FAIRDataPoint/wiki

FAIRデータ原則に関する覚書き part 2: Findable 3/4

1日空いてしまったけれども、めげずに続けます。3つ目はかなり短かった。

~~~~~

F3: Metadata clearly and explicitly include the identifier of the data they describe

F3: Metadata clearly and explicitly include the identifier of the data they describe - GO FAIR

これは何を意味するのでしょうか?

これはシンプルで明白な原則ですが、FAIRにとって非常に重要です。記述するメタデータとデータセットは、通常、別々のファイルです。メタデータファイルとデータセットとの関連付けは、データセットに付与されたグローバルに一意かつ永続的な識別子をメタデータに記述し明示する必要があります。 F1に記載されているように、多くのリポジトリは、寄託されたデータセットに対して、この目的に使用できるグローバルに一意かつ永続的な識別子を生成します。

例:

関連付けはフォーマルな手法で行う必要があります。例えば、RDFメタデータの場合はfoaf:primaryTopic述語を使用して行うことになります。

 

リソースへのリンク

The DTL FAIRifier tool guarantees F3.(https://fair-demo.fair-dtls.surf-hosted.nl/fairifier/

~~~~~

FAIRifier toolはα版の様子。何かほとんどOpenRefineにしか見えないが・・・

FAIRデータ原則に関する覚書き part 2: Findable 2/4

2日目。これ最初と最後で訳語が相当揺れそう。。。まあ試訳なのでまずは続けてみます。

~~~~~

F2: Data are described with rich metadata

F2: Data are described with rich metadata - GO FAIR

これは何を意味するのでしょうか?

FAIRデジタルリソースの作成において、メタデータは、データの文脈、品質、条件、または特性に関する記述的情報を含み、広範かつ拡張可能でなければなりません(そして、そうすべきです)。豊かなメタデータにより、コンピュータはルーチンワーク、退屈な分類及びタスクの優先順位付けを自動的に行うことができるため、現在、研究者から多くの注目を集めています。

この原則の論理的根拠は、データの識別子がなくても、メタデータによって提供される情報に基づいてデータを見つけることができるはずだ、ということです。このように、F2に準拠することで、データの場所を特定し、再利用や引用を増やすことができます。

豊かなメタデータは、誰がデータを使用したいのか、どのような目的のために使用するのかを推測してはいけないことを意味します。したがって、経験則として、「このメタデータは有用ではない」と決して言うべきではありません。とにかくそれを広く提供してください!

例:

これには、「本質的な」メタデータ(例えば、画像ファイルのDICOM情報: http://www.nf.mpg.de/vinci3/doc/image-formats.htmlのように、自動的に生成・取得されたデータ)と、「文脈に依存する」メタデータ(例えば、使用されたプロトコル; 正式なプロトコルの文書のキーワードとリンクとともに、使用された測定装置; 製造業者のキーワードとリンクとともに、捕捉されたデータのユニット(関与する種を含む); 分類群IDによって明示的に、例えばhttp://www.uniprot.org/taxonomy/9606、研究にフォーカスした遺伝子/タンパク質/その他; (例えばGO Terms: http://www.geneontology.org/)、観測またはシミュレートされた天文データセットの物理的パラメータ空間、縦方向データに関連する疑問及び概念、材料の特性の計算、またはその他 実験の詳細)を含みます。”ユーザー制御メタデータ: https://www.w3.org/2007/08/video/positions/Schepers.html”を参照してください。

 

例文の枠組み:

Try using the DTL Metadata Editor: http://editor-v2.fair-dtls.surf-hosted.nl/#/edit(注:リンク切れ)

Marking up your dataset with DCAT: https://theodi.org/guides/marking-up-your-dataset-with-dcat

ISA framework: http://isa-tools.org/

~~~~~

最後の例文は相当に自信がない(というか原文も列挙しすぎ)。終わったら見直したい。

FAIRデータ原則に関する覚書き part 2: Findable 1/4

モチベーションがあるうちに、下記ページの試訳を。どこまで続くか分かりませんが。

まずは、"Findable"の章から。

~~~~~

Findable

FAIR Principles - GO FAIR

データを(再)利用する最初のステップは、それらを発見することです。メタデータとデータは、人間とコンピュータの両方にとって容易に見つかるべきです。機械可読なメタデータは、データセットとサービスの自動的な発見に不可欠です。したがって、これはFAIRificationプロセス(リンク:https://www.go-fair.org/technology/fairification-process/)の必須コンポーネントです。

F1: (Meta) data are assigned globally unique and persistent identifiers

F1: (Meta) data are assigned globally unique and persistent identifiers - GO FAIR

これは何を意味するのでしょうか?

原則F1は、おそらく最も重要です。なぜなら、グローバルにユニークで永続的な識別子なしにFAIRの他の側面を達成することは難しいからです。したがって、F1に準拠すると、FAIRに準拠したデータ(FAIRデータ)を公開するための長い道のり(の第一歩)が得られます(”識別子がデータ統合に役立つ10の方法: http://biorxiv.org/content/biorxiv/early/2017/03/20/117812.full.pdf”を参照してください)。

 グローバルにユニークで永続的な識別子は、メタデータのすべての要素とデータセットのすべての概念/測定値に一意の識別子を割り当てることによって、公開されたデータの意味における曖昧さを排除します。この文脈において、識別子はインターネットのリンク(例えば、特定のヒトタンパク質:http://www.uniprot.org/uniprot/P98161のような概念を定義するウェブページ(URL))を構成します。多くのデータリポジトリは、寄託されたデータセットに対して、グローバルに一意かつ永続的な識別子を自動的に生成します。

識別子は、あなたが意図したところを他人が正確に理解するのに役立ち、コンピュータが意味のある方法でデータを解釈することを可能にします(例えば、データ検索を行うコンピュータや自動的にデータを自動的に統合しようとするコンピュータ)。

識別子は、オープンサイエンスのビジョンにとってキーとなる人と機械の相互運用に不可欠です。さらに、識別子は、データを再利用するときに、他人があなたの著作を適切に引用するのに役立ちます。もちろん、識別子は(オープンサイエンスのキーの)一つに過ぎませんが、その意味は別のものです(原則I1〜I3参照)。 F1は識別子のための2つの条件を規定しています:

  1. 識別子はグローバルにユニークである必要があります(つまり、他の誰かがあなたのデータを参照することなく同じ識別子を再利用/再割り当てできないということになります)。あなたは、新しく作成された識別子の一意性を保証するアルゴリズムを持つレジストリサービスから、グローバルに一意な識別子を取得できます。
  2. 識別子は永続的でなければなりません。 ウェブサイトのリンクをアクティブに保つには時間と費用がかかるため、リンクは時間の経過とともに無効になる傾向があります。 レジストリサービスは、少なくともある程度の期間、リンクが名前解決(リゾルブ)することを保証します。

上記の条件を満たす識別子の種類とレジストリサービスの紹介)

FAIRデータ原則に関する覚書き part1

また時間が空いてしまった。。。

FAIRデータ原則に関するこんなサイトが立ち上がっているのをこの前見つけ、

https://www.go-fair.org/

来月開催予定のRDAに行かせてもらえることになったため、予習も兼ねてFAIRデータ原則を見直すことに(復習か?)。

手始めに、下記を翻訳してみたので覚書として。断るまでもありませんが、訳の精度に一切の保証はありません。

・FAIRデータ原則の実装: 図書館の役割

http://libereurope.eu/wp-content/uploads/2017/12/LIBER-FAIR-Data.pdf

LIBER(ヨーロッパの研究図書館連合)作成、2017年12月公開。

~~~~~

1. FAIRデータ原則とは何ですか?

FAIRデータ原則は、データを見つけやすく、アクセスしやすくするための基本原則であり、それは相互運用可能で再利用可能です。これらの原則は、科学的データ管理およびスチュワードシップを提供し、現在のデジタル環境のすべてのステークホルダーに関連しています。これらの原則は、データ提供者とデータ公開者に対して、最大限の使用を促進するために直接位置づけられます。

研究図書館は、FAIRデータ原則を研究データサービスの育成と拡張の枠組みとして利用することができます。

2. FAIRデータはなぜ重要なのですか?

デジタルサイエンスの進歩は、デジタルデータのタイムリーな共有とアクセシビリティに支えられています。したがって、インフラとサービスの進歩に対する必要性(それは、オープンサイエンスへの科学的な実践の体系的な変更を可能にします)は、現在、研究機関と助成機関の両方によって強く支持されています。FAIRの原則はこれらの発展を強化します。その結果、研究機関、資金提供者、出版社は、研究データ管理に対する要求を大幅に強化し、再利用のための研究データを公開しています。 欧州委員会(European Commission)のオープンリサーチデータのパイロットでは、資金を提供された研究者がデータを確実に管理し、その後共有することを奨励するため、FAIRの原則が適用されています。

3. 図書館はどのように始めることができますか?

図書館は、リソースを記述し、アクセスを提供し、コレクションを構築し、デジタルリソースの長期的な管理を支援する強い伝統を持っています。その知識と専門性を(研究データにおいても)構築するために、図書館は研究データをFAIRに沿った形にすることに自信を持っていなければなりません。図書館はどのようにしてFAIR原則を始めることができるのでしょうか?

  • FAIR原則を地元の研究機関やITスタッフに周知する。
  • データ管理計画とデジタル保存の実践・ポリシーにFAIR原則を組み込む。
  • 研究データを選別し、豊かにし、取得し、保存する機会を求めることは、データを検索可能に、アクセス可能に、相互運用可能に、再利用可能にするでしょう。出発点としては、個別の研究者たち、または研究グループが持つデータの収集が良いでしょう。
  • 分野別のメタデータ、語彙、およびデータをFAIRにするためのツールについて、サブジェクトライブラリアンとデータライブラリアンをトレーニングする。
  • 研究者たちが、FAIR原則を体現する保管場所(アーカイブズ)にデータを保管するよう奨励する。
  • 自機関のデータ収集とデータ管理の実践を、FAIR原則に照らして評価する。

~~~~~

感想として、訳してみたものの具体的にデータをどうすればよい(success criteriaのような)、という話があんまり見えなかった、というイメージ。冒頭に示したFAIR推進サイトでは結構細かく原則の説明があるようなので、明日からそっちに当たってみよう。ということでpart 1として今日はここまで。

9/25 「北米の大学図書館における研究データサービスに関する講演会」参加メモ

9/25にNIIで開催された「北米の大学図書館における研究データサービスに関する講演会」に参加しました。
総勢20名弱、内部の人(研究者含む)が半分くらいいたような。
講演者はイリノイ大学のHeidi Imkerさん。ご自身でも仰っていたようにかなりの早口。。。
時期的に、前回のミシガン大学と比較しながら聞けたのは非常に有り難かった。

9/7 国際ワークショップ@東大社研(データライブラリアンシップ)に参加しました - みなみの備忘録

さて、講演内容はまず図書館がRDMに取り組む理由からスタート。
1) 消極的(?)な理由として、(学内における)図書館の立ち位置の維持、助成金の確保など。
2) 理念的には、専門性の拡大、データ主導研究のデザイン。
3) サービス面では、研究者のフォロー。資料面だけではなく、研究生活、雇用面も含めて。
の3点が挙げられていた。素晴らしい。
さらにARL (Association of Research Libraries) の背景の紹介があり、124館あるARL librariesのサービス導入状況の説明。DMPのレビュー、コンサル、導入、データ保存・共有が一般的とのこと。Johns Hopkins universityが10年前には既にデータ保存サービスを始めていた、とのことで、非常に先進的な取り組みとして紹介されていた。
# 上記を聞きながら、国内事例で良く挙げられる千葉大学の萩庭さく葉コレクション

# を想像したけれども。。。Johns Hopkinsはサービスとして連続性を保っている

# んだろうか。穿ち過ぎ?
政策的な背景としては、OSTP Memo、アメリカの助成機関によるポリシー策定など。NIHのdata sharing planは初めて聞いた。

https://www.niaid.nih.gov/research/sample-data-sharing-plan

500$以下の研究助成に適用される、ということだが、「管理」まではしなくても良いから「共有」はすべき、ということだろうか?
(→ まだちゃんと読めていないので、元をご参照ください)

~~~~

続いて、出版社の状況をさらっと。"data transparency"ということで、Scienceの記事の紹介。

Promoting an open research culture | Science

# 購読タイトルなので、読めない方はこちら:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299/

# "Promoting an open research culture"がPay Wallありとはこれいかに。
透明性や再現性の問題は科学の特徴として重要だけれども、増え続けるevidence dataの問題は難しい、くらいの意味(超訳)。
研究者は、といえば、イリノイ大学ではPI (Principal Investigator)が図書館にDMPのレビューを頼んできたそうな。そこを取っ掛かりに、インタビュー等を通じて研究データサービスを展開し始めた様子。

~~~~

上記を枕に、ここからはイリノイ大学の研究データサービスについて。IT関連部署、部局等様々なステークホルダーと協働して、データの管理と保存を主眼に展開している様子。ミシガン大学との比較で、Analyze、Visualizationなどは対象外と言い切っているのは興味深い。どれだけ研究者の考えることをシンプルにできるか、というのが大きなテーマか?
"Core Service Area"としてはConsultation, DMPs, Workshops, Data Publishingの4点が挙げられており、データ管理計画の支援(Consultation)が最も大きな比重を占めている模様。Data Publishingサービスとなるリポジトリ(Illinois Data Bank: 

https://databank.illinois.edu/) は、"Supercomputing Center, Information Technology, Legal Council, Vice Chancellor for Research, Library Preservation Unit, Librarians"の協働作業だとか。。。ちょっと業務分担の想像がつかないものの、協働して課題に当たる姿勢は素晴らしい。見習いたい。

# なお、データの流通が気になって質問したところ、メタデータについてはdataciteに

# 準拠しており、もっぱらDOI取得のために付与されている様子。メタデータだけを

# 何かに活用する、ということは想定していないっぽい。もっとも、分析やビジュアル

# 化をサービス外としている以上、これは当然の帰結か。

 

所感。やや政策によって進めさせられている感はあるものの、図書館機能を研究データサービスに適用させるため、非常に練られた計画のもとで進めている印象を受けた。ヨーロッパの研究図書館でもソフト面(データ管理計画等)を中心に展開している様子だし、

ヨーロッパのresearch libraryによるResearch Data Services調査 - みなみの備忘録

日本でもデータに関するコンサルサービスでも展開できると良いのだけれど。

9/7 国際ワークショップ@東大社研(データライブラリアンシップ)に参加しました

東大社研で開催されたデータライブラリアンWSに参加しました。

公開セミナー/ワークショップ | Center for Social Research and Data Archives (CSRDA)

参加人数は30名前後、図書館関係者も結構いた様子。

はじめに、東大の前田先生から趣旨と背景の説明が簡単にあった。
iassistやDSAといった社会科学系のデータコミュニティの話と、最近の動向としてWDS-DSA trustworthy data repositoriesの紹介。「データを扱うようになって、理系と文系の垣根がなくなってきている」という指摘は面白かった。
さて、今回の講演者は米ミシガン大学のJungwon Yangさん。"Data Librarianship"という演題で、ご本人は社会科学系サービス全般に関する責任者とのこと。
ミシガン大学の簡単な紹介に続いて、本題のdata librarianのお話。Jungwonさんの分類では、データサービスを提供するlibrarian(=data librarian)には3種類ある。

・subject librarian/specialists
・geo-spatial analysts/data visualization librarians
・research data management librarians

一つ目、subject librarian/specialistsについて。
業務内容としてはconsultation / teaching, collection management。前職ではcollection managementが業務の80%を占めていたが、ミシガンに移って比率が逆転した。
理由として、コレクション構築はIT技術によってほぼ自動化されたことが挙げられていた。背景にはMARCつき納品の普及なども。
また、ミシガンの場合、州の方針によって図書館が教育を提供する業務を担っているとか(アメリカは連邦制のため、各州によって図書館に関する方針が異なる)。研究者は、教育に関する内容をほぼ図書館に振っているとのこと。
こういった内容を背景に、subject librarianはconsultation / teachingに業務の比重を大きく割いている。図書館が学部学生と研究者の仲介役となるため、(両者に対応することができるスキルという意味で?)2つの学位が事実上必須となっているとのこと。
データとの関わり、という観点では、1990年代から計量的な分析に関する問い合わせが増えてきたため、(問い合わせに対応する、というだけではなく)図書館側からgovernment data分析などのサービスを提供するモチベーションが生じた、とのこと。
subject librarianは、研究者や学生がデータを探しに来た際、専門分野の視点からの徹底的な調査に加え、データの入手にお金がかかる場合は図書館がデータを買ってあげることもあるとか。選書の延長として考えられなくもないが、これは結構驚いた。独自予算の強みだけではなく、図書館に対する信頼の蓄積があることの現れ、ともいえそう。

~~~~~

二つ目、geo-spatial analysts/data visualization librariansについて。
昨今流行っている(?)データビジュアライゼーションを行っているとのこと。data carpentryという表現をされていたが、膨大なデータをpythonSQLを活用して組織化し、整理し、manipulateするそうな。

アメリカではIT専門家も「ライブラリアン」として活動されているので、実行できること自体は理解できたが、このサービスが「図書館のサービス」としてどう位置づけられるのか、が良く分からなかった。
→ 聞いてみたところ、"we have no limits"とのこと。資金力も能力のある人もいる、という自負の現れだろうが、残念ながら「なぜ図書館がやるのか」という質問に対する回答は得られなかった。
**後で調べたら、このサービスはワークショップの開催、関係するデータ収集のフォローが内容の様子。
https://www.lib.umich.edu/data-visualization
Jungwonさんは「研究・教育支援として図書館がやっている」というニュアンスで話されていたが、(イベント時に出来る人がやっているのかもしれないが)これは流石にサービスの紹介としてはミスリードだろう。**

~~~~~

三つ目、research data management librariansについて。
「データライブラリアン」と言われる人は一般にこの業務を指すが、本来はデータライブラリアンの一部、という前置きから。まあ「データ」をresearch dataに限定する理由は確かにない。広まった理由としては、NSFやNIHの要求に書かれているからだろう、とのことだった。
research data librarianの役割としては、データ管理計画の策定支援、データキュレーション、データ公開・保存などの業務。また、最近公開したリポジトリのサービスとして、ミシガン大学図書館のデータリポジトリ"deep blue data"の紹介があった。

https://deepblue.lib.umich.edu/data


ただ、リポジトリはあくまでtemporaryなデータ置き場として位置づけており、publishできるものだけを扱う対象とのこと。永年保存はICPSR (ミシガン大学が主導する社会科学系のデータリポジトリ)やその他ドメインサブジェクトリポジトリに置くことを推奨しているそうな。

https://www.icpsr.umich.edu/icpsrweb/


research processの各範囲において、ライブラリアンのスキルを活かせる可能性がある、とのお話で〆られていた。

全体のまとめでは、subject librarianの役割の変化について強調されていた。研究者とresearch data librarianを繋ぐliaisonとしての役割も担っていくことになる、とのこと。subject librarianとresearch data librarianの連携が、データの一次的な利活用→共有、保存、というプロセスを表現することになるのだろうか。

感想としては、以前に聞いたパデューの事例とそう大きな差はない、というのが正直なところ(もちろん日本ではちょっと展開が考えられない規模のサービスなのだが)。逆に、データサービスの特徴を際立たせるためか、全体的に「従来の図書館サービスを超えた」サービスにフォーカスしすぎている点がやや残念だった。質疑でも出ていたが、「研究支援」とか「教育支援」の文脈を離れてしまうと、「それ研究者の仕事じゃないの?」ってことになってしまう。もっとも、下手に線引きして可能性を潰してしまうのはもっとマズいけれども。。。