FAIRデータ原則に関する覚書き part 3: Accessible 1/2
先週は完全に力尽きており・・・ようやく〆切がある仕事が一段落したので再開します。"Accessible"は全体的に量が少ないかも。
~~~~~
A1: (Meta)data are retrievable by their identifier using a standardised communication protocol
これは何を意味するのでしょうか?
インターネットのほとんどのユーザーは、「リンクをクリックして」データを取得します。 これは、コンピュータが実行してユーザのWebブラウザにデータをロードする”tcp”というローレベルのプロトコルに対応する、ハイレベルのインタフェースです。(現代のインターネットのバックボーンを形成するhttpやsftpはtcp上に構築され、他の通信プロトコルよりも簡単にデジタルリソースを要求し、提供していることに注意してください)原則A1では、FAIRデータの取得は、特別なツールまたはコミュニケーションの方法なしに仲介されるべき、ということを述べています。したがって、実際のデータにアクセスできる人を明確に定義し、その方法を指定します。
例:
ほとんどのデータ提供者はhttp(s)またはftpを使用します。
アクセスを回避すべき障壁としては、限定的な実装のプロトコル、不十分なドキュメンテーション、人手を介するコンポーネントが含まれます。しかしながら、例えば高度に機微なデータなど(を考えれば)、完全に機械化されたプロトコルによる安全なアクセスを提供することは不可能であるかもしれない、という点には留意が必要です。そのような場合、データへのアクセスを議論できる担当者の電子メール、電話番号、またはSkype名を提供することは完全にFAIR(の一部)です。 このコンタクトのためのプロトコルは、メタデータ内で明確で明示的でなければなりません。
FAIR accessor(Webテクノロジーの新しい組み合わせによる相互運用性とFAIRnessを参照してください:http://linkeddata.systems/Accessors/UniProtAccessor/C8V1L6)
FAIRデータ原則に関する覚書き part 2: Findable 4/4
3つ目が短かったので、昨日の分も含めて4つ目を。こっちも大した量ではない。
~~~~~
F4: (Meta)data are registered or indexed in a searchable resource
F4: (Meta)data are registered or indexed in a searchable resource - GO FAIR
これは何を意味するのでしょうか?
識別子と豊かなメタデータの記述だけでは、インターネット上での「発見可能性」は保証されません。完全に良好なデータリソースであっても、単純にリソースが存在することを誰も知らないため、使われないかもしれません。データセット、サービス、リポジトリなどの電子リソースが使えるかどうか分からない場合は、誰も(およびマシンも)それを発見できません。
インデックス作成を含め、電子リソースを発見可能にする方法はいくつも存在します。例えば、Googleはウェブページを「読む」スパイダーを送り出し、それらを自動的にインデクシングするので、Googleの検索ボックスで検索できるようになります。これはほとんどの一般的な検索ユーザーには最適ですが、学術研究データの場合は、より明確なインデクシングが必要になります。 原則F1-F3は、現在のリポジトリおよび将来のサービスによる適切な粒度のインデクシングのための中核要素を提供します。
例:
FAIRデータポイントに公開されているFAIRデータセットのメタデータは、DTL検索エンジンによるインデックス作成に使用できます。
FAIRデータセットのレジストリは、専門的・局所的な分野に関心を持つリポジトリまたはグループによって、時間が経てば出現するかもしれません。
リソースへのリンク:
FAIR Data point specification
https://docs.google.com/document/d/1WZE9oTUn_aPSRZhOur1GjWZ5vYxLsKJQqzmpWMxNpcs/edit#
→ 最新版はこっち https://github.com/DTL-FAIRData/FAIRDataPoint/wiki
FAIRデータ原則に関する覚書き part 2: Findable 3/4
1日空いてしまったけれども、めげずに続けます。3つ目はかなり短かった。
~~~~~
F3: Metadata clearly and explicitly include the identifier of the data they describe
F3: Metadata clearly and explicitly include the identifier of the data they describe - GO FAIR
これは何を意味するのでしょうか?
これはシンプルで明白な原則ですが、FAIRにとって非常に重要です。記述するメタデータとデータセットは、通常、別々のファイルです。メタデータファイルとデータセットとの関連付けは、データセットに付与されたグローバルに一意かつ永続的な識別子をメタデータに記述し明示する必要があります。 F1に記載されているように、多くのリポジトリは、寄託されたデータセットに対して、この目的に使用できるグローバルに一意かつ永続的な識別子を生成します。
例:
関連付けはフォーマルな手法で行う必要があります。例えば、RDFメタデータの場合はfoaf:primaryTopic述語を使用して行うことになります。
リソースへのリンク
The DTL FAIRifier tool guarantees F3.(https://fair-demo.fair-dtls.surf-hosted.nl/fairifier/)
~~~~~
FAIRifier toolはα版の様子。何かほとんどOpenRefineにしか見えないが・・・
FAIRデータ原則に関する覚書き part 2: Findable 2/4
2日目。これ最初と最後で訳語が相当揺れそう。。。まあ試訳なのでまずは続けてみます。
~~~~~
F2: Data are described with rich metadata
F2: Data are described with rich metadata - GO FAIR
これは何を意味するのでしょうか?
FAIRデジタルリソースの作成において、メタデータは、データの文脈、品質、条件、または特性に関する記述的情報を含み、広範かつ拡張可能でなければなりません(そして、そうすべきです)。豊かなメタデータにより、コンピュータはルーチンワーク、退屈な分類及びタスクの優先順位付けを自動的に行うことができるため、現在、研究者から多くの注目を集めています。
この原則の論理的根拠は、データの識別子がなくても、メタデータによって提供される情報に基づいてデータを見つけることができるはずだ、ということです。このように、F2に準拠することで、データの場所を特定し、再利用や引用を増やすことができます。
豊かなメタデータは、誰がデータを使用したいのか、どのような目的のために使用するのかを推測してはいけないことを意味します。したがって、経験則として、「このメタデータは有用ではない」と決して言うべきではありません。とにかくそれを広く提供してください!
例:
これには、「本質的な」メタデータ(例えば、画像ファイルのDICOM情報: http://www.nf.mpg.de/vinci3/doc/image-formats.htmlのように、自動的に生成・取得されたデータ)と、「文脈に依存する」メタデータ(例えば、使用されたプロトコル; 正式なプロトコルの文書のキーワードとリンクとともに、使用された測定装置; 製造業者のキーワードとリンクとともに、捕捉されたデータのユニット(関与する種を含む); 分類群IDによって明示的に、例えばhttp://www.uniprot.org/taxonomy/9606、研究にフォーカスした遺伝子/タンパク質/その他; (例えばGO Terms: http://www.geneontology.org/)、観測またはシミュレートされた天文データセットの物理的パラメータ空間、縦方向データに関連する疑問及び概念、材料の特性の計算、またはその他 実験の詳細)を含みます。”ユーザー制御メタデータ: https://www.w3.org/2007/08/video/positions/Schepers.html”を参照してください。
例文の枠組み:
Try using the DTL Metadata Editor: http://editor-v2.fair-dtls.surf-hosted.nl/#/edit(注:リンク切れ)
Marking up your dataset with DCAT: https://theodi.org/guides/marking-up-your-dataset-with-dcat
ISA framework: http://isa-tools.org/
~~~~~
最後の例文は相当に自信がない(というか原文も列挙しすぎ)。終わったら見直したい。
FAIRデータ原則に関する覚書き part 2: Findable 1/4
モチベーションがあるうちに、下記ページの試訳を。どこまで続くか分かりませんが。
まずは、"Findable"の章から。
~~~~~
Findable
データを(再)利用する最初のステップは、それらを発見することです。メタデータとデータは、人間とコンピュータの両方にとって容易に見つかるべきです。機械可読なメタデータは、データセットとサービスの自動的な発見に不可欠です。したがって、これはFAIRificationプロセス(リンク:https://www.go-fair.org/technology/fairification-process/)の必須コンポーネントです。
F1: (Meta) data are assigned globally unique and persistent identifiers
F1: (Meta) data are assigned globally unique and persistent identifiers - GO FAIR
これは何を意味するのでしょうか?
原則F1は、おそらく最も重要です。なぜなら、グローバルにユニークで永続的な識別子なしにFAIRの他の側面を達成することは難しいからです。したがって、F1に準拠すると、FAIRに準拠したデータ(FAIRデータ)を公開するための長い道のり(の第一歩)が得られます(”識別子がデータ統合に役立つ10の方法: http://biorxiv.org/content/biorxiv/early/2017/03/20/117812.full.pdf”を参照してください)。
グローバルにユニークで永続的な識別子は、メタデータのすべての要素とデータセットのすべての概念/測定値に一意の識別子を割り当てることによって、公開されたデータの意味における曖昧さを排除します。この文脈において、識別子はインターネットのリンク(例えば、特定のヒトタンパク質:http://www.uniprot.org/uniprot/P98161のような概念を定義するウェブページ(URL))を構成します。多くのデータリポジトリは、寄託されたデータセットに対して、グローバルに一意かつ永続的な識別子を自動的に生成します。
識別子は、あなたが意図したところを他人が正確に理解するのに役立ち、コンピュータが意味のある方法でデータを解釈することを可能にします(例えば、データ検索を行うコンピュータや自動的にデータを自動的に統合しようとするコンピュータ)。
識別子は、オープンサイエンスのビジョンにとってキーとなる人と機械の相互運用に不可欠です。さらに、識別子は、データを再利用するときに、他人があなたの著作を適切に引用するのに役立ちます。もちろん、識別子は(オープンサイエンスのキーの)一つに過ぎませんが、その意味は別のものです(原則I1〜I3参照)。 F1は識別子のための2つの条件を規定しています:
FAIRデータ原則に関する覚書き part1
また時間が空いてしまった。。。
FAIRデータ原則に関するこんなサイトが立ち上がっているのをこの前見つけ、
来月開催予定のRDAに行かせてもらえることになったため、予習も兼ねてFAIRデータ原則を見直すことに(復習か?)。
手始めに、下記を翻訳してみたので覚書として。断るまでもありませんが、訳の精度に一切の保証はありません。
・FAIRデータ原則の実装: 図書館の役割
http://libereurope.eu/wp-content/uploads/2017/12/LIBER-FAIR-Data.pdf
LIBER(ヨーロッパの研究図書館連合)作成、2017年12月公開。
~~~~~
1. FAIRデータ原則とは何ですか?
FAIRデータ原則は、データを見つけやすく、アクセスしやすくするための基本原則であり、それは相互運用可能で再利用可能です。これらの原則は、科学的データ管理およびスチュワードシップを提供し、現在のデジタル環境のすべてのステークホルダーに関連しています。これらの原則は、データ提供者とデータ公開者に対して、最大限の使用を促進するために直接位置づけられます。
研究図書館は、FAIRデータ原則を研究データサービスの育成と拡張の枠組みとして利用することができます。
2. FAIRデータはなぜ重要なのですか?
デジタルサイエンスの進歩は、デジタルデータのタイムリーな共有とアクセシビリティに支えられています。したがって、インフラとサービスの進歩に対する必要性(それは、オープンサイエンスへの科学的な実践の体系的な変更を可能にします)は、現在、研究機関と助成機関の両方によって強く支持されています。FAIRの原則はこれらの発展を強化します。その結果、研究機関、資金提供者、出版社は、研究データ管理に対する要求を大幅に強化し、再利用のための研究データを公開しています。 欧州委員会(European Commission)のオープンリサーチデータのパイロットでは、資金を提供された研究者がデータを確実に管理し、その後共有することを奨励するため、FAIRの原則が適用されています。
3. 図書館はどのように始めることができますか?
図書館は、リソースを記述し、アクセスを提供し、コレクションを構築し、デジタルリソースの長期的な管理を支援する強い伝統を持っています。その知識と専門性を(研究データにおいても)構築するために、図書館は研究データをFAIRに沿った形にすることに自信を持っていなければなりません。図書館はどのようにしてFAIR原則を始めることができるのでしょうか?
- FAIR原則を地元の研究機関やITスタッフに周知する。
- データ管理計画とデジタル保存の実践・ポリシーにFAIR原則を組み込む。
- 研究データを選別し、豊かにし、取得し、保存する機会を求めることは、データを検索可能に、アクセス可能に、相互運用可能に、再利用可能にするでしょう。出発点としては、個別の研究者たち、または研究グループが持つデータの収集が良いでしょう。
- 分野別のメタデータ、語彙、およびデータをFAIRにするためのツールについて、サブジェクトライブラリアンとデータライブラリアンをトレーニングする。
- 研究者たちが、FAIR原則を体現する保管場所(アーカイブズ)にデータを保管するよう奨励する。
- 自機関のデータ収集とデータ管理の実践を、FAIR原則に照らして評価する。
~~~~~
感想として、訳してみたものの具体的にデータをどうすればよい(success criteriaのような)、という話があんまり見えなかった、というイメージ。冒頭に示したFAIR推進サイトでは結構細かく原則の説明があるようなので、明日からそっちに当たってみよう。ということでpart 1として今日はここまで。
9/25 「北米の大学図書館における研究データサービスに関する講演会」参加メモ
9/25にNIIで開催された「北米の大学図書館における研究データサービスに関する講演会」に参加しました。
総勢20名弱、内部の人(研究者含む)が半分くらいいたような。
講演者はイリノイ大学のHeidi Imkerさん。ご自身でも仰っていたようにかなりの早口。。。
時期的に、前回のミシガン大学と比較しながら聞けたのは非常に有り難かった。
9/7 国際ワークショップ@東大社研(データライブラリアンシップ)に参加しました - みなみの備忘録
さて、講演内容はまず図書館がRDMに取り組む理由からスタート。
1) 消極的(?)な理由として、(学内における)図書館の立ち位置の維持、助成金の確保など。
2) 理念的には、専門性の拡大、データ主導研究のデザイン。
3) サービス面では、研究者のフォロー。資料面だけではなく、研究生活、雇用面も含めて。
の3点が挙げられていた。素晴らしい。
さらにARL (Association of Research Libraries) の背景の紹介があり、124館あるARL librariesのサービス導入状況の説明。DMPのレビュー、コンサル、導入、データ保存・共有が一般的とのこと。Johns Hopkins universityが10年前には既にデータ保存サービスを始めていた、とのことで、非常に先進的な取り組みとして紹介されていた。
# 上記を聞きながら、国内事例で良く挙げられる千葉大学の萩庭さく葉コレクション
# を想像したけれども。。。Johns Hopkinsはサービスとして連続性を保っている
# んだろうか。穿ち過ぎ?
政策的な背景としては、OSTP Memo、アメリカの助成機関によるポリシー策定など。NIHのdata sharing planは初めて聞いた。
https://www.niaid.nih.gov/research/sample-data-sharing-plan
500$以下の研究助成に適用される、ということだが、「管理」まではしなくても良いから「共有」はすべき、ということだろうか?
(→ まだちゃんと読めていないので、元をご参照ください)
~~~~
続いて、出版社の状況をさらっと。"data transparency"ということで、Scienceの記事の紹介。
Promoting an open research culture | Science
# 購読タイトルなので、読めない方はこちら:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299/
# "Promoting an open research culture"がPay Wallありとはこれいかに。
透明性や再現性の問題は科学の特徴として重要だけれども、増え続けるevidence dataの問題は難しい、くらいの意味(超訳)。
研究者は、といえば、イリノイ大学ではPI (Principal Investigator)が図書館にDMPのレビューを頼んできたそうな。そこを取っ掛かりに、インタビュー等を通じて研究データサービスを展開し始めた様子。
~~~~
上記を枕に、ここからはイリノイ大学の研究データサービスについて。IT関連部署、部局等様々なステークホルダーと協働して、データの管理と保存を主眼に展開している様子。ミシガン大学との比較で、Analyze、Visualizationなどは対象外と言い切っているのは興味深い。どれだけ研究者の考えることをシンプルにできるか、というのが大きなテーマか?
"Core Service Area"としてはConsultation, DMPs, Workshops, Data Publishingの4点が挙げられており、データ管理計画の支援(Consultation)が最も大きな比重を占めている模様。Data Publishingサービスとなるリポジトリ(Illinois Data Bank:
https://databank.illinois.edu/) は、"Supercomputing Center, Information Technology, Legal Council, Vice Chancellor for Research, Library Preservation Unit, Librarians"の協働作業だとか。。。ちょっと業務分担の想像がつかないものの、協働して課題に当たる姿勢は素晴らしい。見習いたい。
# なお、データの流通が気になって質問したところ、メタデータについてはdataciteに
# 準拠しており、もっぱらDOI取得のために付与されている様子。メタデータだけを
# 何かに活用する、ということは想定していないっぽい。もっとも、分析やビジュアル
# 化をサービス外としている以上、これは当然の帰結か。
所感。やや政策によって進めさせられている感はあるものの、図書館機能を研究データサービスに適用させるため、非常に練られた計画のもとで進めている印象を受けた。ヨーロッパの研究図書館でもソフト面(データ管理計画等)を中心に展開している様子だし、
ヨーロッパのresearch libraryによるResearch Data Services調査 - みなみの備忘録
日本でもデータに関するコンサルサービスでも展開できると良いのだけれど。