みなみの備忘録

とあるライブラリアンの備忘録です。

11/20 "A data citation roadmap for scientific publishers"論文メモ

11/20に出版された"Scientific Data"の論文に、なかなか興味深いものがあったので読んでみた。

A data citation roadmap for scientific publishers | Scientific Data

共著者の所属がElsevier、Springer、PLOS、eLife、Wiley等々、著名な出版社が8つも並んでいる。アツい連携(所属的に)。

続きを読む

10/20 JSPS人社系シンポジウム参加メモ

JSPSの人文学・社会科学データインフラストラクチャー構築プログラム シンポジウム ―データの活用による人文学・社会科学の飛躍的発展―(於政策研究大学院大学)に参加しました。

課題設定による先導的人文学・社会科学研究推進事業|日本学術振興会

"今後5年をめどに、日本学術振興会を中核に人文学・社会科学の分野における学術的調査データのうち、重要かつ研究者の利用に供することが有用である電子化された調査データの保存・管理等の取組を行う人文学・社会科学分野の拠点を形成"とのことで、今回はハーバード大学のRobert Putnam教授の講演を拝聴しつつインフラのあり方を考える、とのこと。
政治学分野の大物が来日されるとのことで、登壇者もほぼ政治学分野、聴衆も大分偏っていた様子。そんな折、文科省研究振興局の挨拶では、「インフラの話は自然科学系中心になりがちだったところ、人社系は今回が最初で最後のチャンスだと思って活動をお願いしたい」との強烈なメッセージが・・・

~~~~~
Putnam教授の基調講演では、"How did we get here? : the curious case of social change in 20th Century America"とのタイトルで、ご自身の活用事例に基づいたデータアーカイブの重要性が述べられた。
現在のアメリカの様々な問題(経済格差、政治的分極化、社会的孤立、文化的ナルシシズム)対策へのヒントを得るために、1900年初頭からの様々なデータから傾向を見た、というもの。使用したデータや指標そのものの妥当性についてはコメントできる知見を持ち合わせていないものの、過去のデータが再利用される事例として興味深く拝見した。ある一つの「信頼できる指標」を考えるのではなく、複数の指標からその傾向を判断する≒質より量的なデータの使い方は印象的でした(理解が違ってたらすみません)。

第2部のパネルディスカッションでは、モデレーターの前田先生(東大社研)からの導入として、①現在を理解するための過去データの重要性、②社会科学のデータリポジトリに求められる役割の変化(アーカイブ→サービス)、③データを保存・共有する意義(オリジナルの重要性、データ収集のコスト、異なる角度からのデータ分析、再利用性、公共性)、などが紹介された。Putnam教授の講演でも示唆されていたが、データは不完全である以上、複数のデータソースで確認する必要性を強調されていたような。
その後、久米先生(早稲田大学)、稲葉先生(日本大学)、佐藤先生(東北大学)、鹿毛先生(東京大学)からそれぞれコメントがあった。Putnam教授との関わりに引き付けながらコメントを、と事前に宿題が出ていたとのこと。個別のコメントは記しきれないが、全体的にデータアーカイブの話ではなくデータ利活用のことが中心になっていた(もっとも、Putnam教授の講演もアーカイブの具体的なところには特に触れていなかったが)。
~~~~~
全体的な感想としては、プログラムの趣旨とはやや異なり(?)、データをアーカイブし共有する意識が全体的に薄い印象を受けた。登壇者からも、インフラの維持には資金が必要、などの、あえて言えば当たり前のコメントが目立つ。研究者の主たる関心はデータ分析とそこから得られる知見なので当然といえば当然だが、モデレーターとの意識の差が妙に際立ったという印象を受けた。
このプログラムでは人社系データの国内拠点機関を設けて推進していくとのことだが、保存、共有を担う人材がこのプログラムで担保されるのかどうか、引き続き注目していきたい。

10/1 転職しました。

やや時間が経ってしまいましたが、10月に転職しました。

といっても全然別業界という訳ではなく、国立大学系の研究所から民間の研究所へ。変わったのは、所属研究者が自然科学系メインから社会科学系の方々になったこと、自分の所属部署が事務系から研究系になったこと。データライブラリアンという肩書もいただきました。

以下には極めて個人的な備忘を(多分に顔見知りの方々向け)。

====

現職の採用が決まったのは7月下旬だったけれども、結局あまり余裕もなく後片付けに追われる毎日。やはり手広くやりすぎていた(反省はしていない)。勤務最終週になったものの片づけも何とか終わり、かつ後任が来てくださることになったので、とりあえずは良しとする。

8月以降、直接お会いした方々には聞かれるままに転職の理由を話していました。といっても前職に不満があった訳ではなくむしろ逆で、あれほどやりたいように自由に動けた職場はほとんどない、と今でも思う。だからこそ事務のロジックで動く人事異動の存在が非常に面倒で、長くいられないのなら自分で探す、という気持ちになったのは確かで、そこに極めてタイミング良く自分が追っかけていた仕事があった。

とはいえ、そんな周辺の事情だけで決断できた訳でもなく。改めて文章に起こしてみると、自分の追っかけてきたテーマの終着点を他人に委ねたくない、という気持ちが強かったかも。他のテーマで、納得できないままに職務の線引きをされて評価されてしまう状況は嫌というほど見てきている。まだ収束には早い気がするし、できれば自分が最後まで見届けたい。

ということで、今後ももう少しこの方向で掘り下げてみたいと思います(さらに記事の内容がマニアック化する可能性大ですが。。。)とりあえず今日はここまで。

7/24 データの推奨フォーマットに関するメモ

リポジトリのデータ保存ポリシー作成の一環として、データを搭載する際の推奨フォーマットについて調べたのでメモ。

概論

File formats and standards - Digital Preservation Handbook

Digital Preservation Coalition (DPC) が提供するハンドブックより。流石に詳しい。内容の種別ごとに組織化した上で、保存する際に留意すべきポイント(対象のフォーマット、オープンソースの可否、文書化・標準化、メタデータ等)を逐次まとめてある。また、マイグレーション等で使用する際のツールやユースケースにも触れられており、適当に抜き出していくだけで自機関のものが作れそう。

 

国レベル?でのまとめ

Recommended Formats Statement – table of contents | Resources (Preservation, Library of Congress)

Library of Congressによる推奨フォーマットのステートメント。コンテンツの種類別で7章に分かれ、"print"、"digital"ほか媒体ごとに提供されている。非常に詳細。

 

https://www.ukdataservice.ac.uk/manage-data/format/recommended-formats

UK Data Serviceによる推奨フォーマットまとめ。こちらはLCに比べれば大雑把な種別だが、"Acceptable formats"を提供しているのが面白い。

 

電子情報の長期利用保証に関する調査研究|国立国会図書館-National Diet Library

国立国会図書館提供。他のまとめと異なりHTMLでは提供されていないようだが、調査研究・報告書(平成18年度~平成22年度)に近しいまとめがあった。なお、ウェブサイトの保存だけは別枠:

13.保存用ファイルフォーマット WARC | ウェブアーカイブのしくみ|国立国会図書館インターネット資料収集保存事業

 

 各機関が提供する推奨フォーマット情報

File Format Recommendations: Libraries - Northwestern University

Best practices for file formats | Stanford Libraries

書きやすそう、と感じたものを絞ったらアメリカの事例だけに・・・

StanfordのほうはLCの記述を引用して済ませており、非常にコンパクトな印象。

 

ファイルフォーマットのレジストリ

・PRONOM | Welcome

UKのNational Archivesが提供するファイルフォーマットのレジストリ。後述のDROIDと親和性がある模様(あまり詳しくは調べてない)。

 

MIME Type

https://www.iana.org/assignments/media-types/media-types.xhtml

Internet Assigned Numbers Authority (IANA) が提供するMedia Typeリスト。JPCOAR schemaのファイルフォーマットはこちらを推奨している。

フォーマット | JPCOARスキーマガイドライン

 

関連ツール

File profiling tool (DROID) - The National Archives

ファイルフォーマットの識別ツール。UKのNational Archivesから無料で提供されている。

 

JHOVE | JSTOR/Harvard Object Validation Environment

こちらはオープンソースのもの。DROIDのソースを一部で利用している様子。
~~~~~

まだまだありそうだけど、とりあえず。
あと個人的に検討すべき課題としては、推奨フォーマットのリストを外部に提示する際に、リポジトリのキュレーション基準と結びつけるべきかどうか、が残っている。

リストを提示したとして、データ登録者の選択を尊重してそのまま登録するのを許可するのか、推奨フォーマットでの登録を促すのかはまだ決めきれない。
将来的なマイグレーションのタイミングで行えれば良いのだろうけど、労力を考えると微妙。。。
ごく最近の取り組みで、Wellcome Trust財団とSpringer Natureによる出版物に紐づくデータ共有のパイロットがあるけれども、

blog.wellcomeopenresearch.org


共有の段階からどの程度を求めるのか、に対する一つの指標になりそう。注目しておきたい。

6/18 図書館×メタデータ・組織化セッション

JOSS2018ではもう一つ、図書館関係セッションの座長をさせていただきました。

セッション詳細 6月18日(月)|Japan Open Science Summit 2018(JOSS2018)

ご登壇の皆さま、ご参加の皆さまには改めて御礼を。
こっちはメタデータ・組織化がテーマ。データ管理の実務を語っていただきつつ、図書館員が貢献できるところはどこかを考える構成。社会科学、自然科学、材料科学の実務+JPCOARスキーマの可能性を語ってもらいました。超マニアックなテーマ(?)と自負していたものの、会場が埋まっていて結構焦りました。。。
例によって資料は別途公開予定なので、個人的な感想と考察を。
=====
研究データの流通というときはメタデータの作成がまず初めに意識されるものの、実データの組織化が非常に重要、というのが最近の認識。所蔵・アクセス先が分かれば使い方も自動的に分かる紙やPDFと違い、データはフォーマットが基本バラバラなので、横断検索を意識する場合、せめて流通先のデータは利用者にとって適切なフォーマットになっていないと厳しい。
FAIRification processの図を趣旨説明で持ってきたのもそういった点からだが、

www.go-fair.org


今回はそこまで踏み込めなかったのがちょっと残念。標準化業務の一環として、多分こっちも図書館員の仕事として見込めるはず。FAIR手順の具体化については今後も着目したい。

 

ディスカッションでは、大向先生の整理のおかげで

ドメインメタデータ作成支援(ドメイン指向)

②データとデータのミッシングリンクの作成(繋がり指向)

の2点に論点が絞られ、結構具体的な業務イメージが出来てきた印象。研究者により近い支援として①を推したいけれども、②はサービス展開として非常に重要。実現可能性がありそうな持っていきかたとしては、

ドメインメタデータ作成支援(ドメイン指向)

  •  大学院生との連携の枠組みの一環として、特定分野のメタデータ作成を図書館員+大学院生で行う。某大学が目録作成業務で似たような体制を取っていたはずで前例があり、天野さんが指摘されていた「トレーニング」にも合致しそう。

②データとデータのミッシングリンクの作成(繋がり指向)

くらいかな、と妄想したり。もっとも、①については分野別図書館なら図書館員だけでも出来るはず(というか今自分でやってる)。メタデータの数によるけど。
それと、ディスカッションの最後、図書館員に対する信頼への質問は核心をついたものだと思っている。能力と態度を示していない相手と協働することはなかなか難しいが、(質問は前後するけれども)琉球大学の大谷さん(登壇者)が「図書館員として」JPCOARスキーマの適用可能性を他の登壇者に聞いていたのはその点で非常に大きい、と思う。
後は各機関内での実践相手をどう見つけるか、どう売り込むか。データリポジトリのネットワークが出来てくるとその辺のマッチングも考えられそう、とか思っていたところ翌日のセッションでネットワーク作りが始まっていたので、

 

・研究データ管理を考える~データリポジトリのサービスとCoreTrustSeal認証~
(研究データ利活用協議会リポジトリ小委員会)

セッション詳細 6月19日(火)|Japan Open Science Summit 2018(JOSS2018)

相乗効果を期待したいところ。

6/18 ライセンス検討小委員会セッションメモ

6/18のライセンス検討セッション、何とか無事に終了しました。

セッション詳細 6月18日(月)|Japan Open Science Summit 2018(JOSS2018)

ご登壇いただいた皆様、参加していただいた皆様に大変感謝します。
当日のスライドや概要報告は追ってJOSSのサイトで公開される予定なので、ここでは個人的なメモ(というか反省と考察)を。

=====

セッションの趣旨としては、「研究者が」研究データの共有、公開を進めるために必要なガイドラインの策定。検討のcriteriaとしては、以下の3つを立てて登壇者に検討してもらい、会場も交えてディスカッションを行う、というもの。
近隣分野の登壇者から出たcriteriaへの回答としては、ざっくりまとめると

1.データ公開の可能性
→ (手法として)手順自体の標準化、公開状況(公開率)の共有、(アグリゲートサービスを前提とした)公開用データの作成

2.ルールの標準化
→ 約款で対応、政府標準利用規約+手引書の作成、ガイドライン作成(パブリックドメイン作品/メタデータ利用ガイドライン(Europeana))。

3.表記方法
→ CCライセンスに準ずる(Europeanaガイドラインに明示)。

というもの。
ディスカッションはかなり荒れ模様・・・司会の実力不足を痛感。申し訳ない。
出た意見としては、研究者間のオープン化に対する意識の差、(分野ごとの)用語の使い方に対する微妙なずれ、メタデータ基準、インセンティブ、法律 vs 慣習、ライセンスのコミュニティ、open by defaultとの関係、といったところ。
ただ、非常に様々な視点からのコメントがあり、検討材料が一気に増えたのも事実。取り急ぎ自分なりに整理、考察してみた(「研究データ」と大きく括りすぎ&数値データによりすぎ問題は一旦置いておいて)。

【研究データのフェーズごとの整理】
まず、今対象にする「研究データ」は、公開されておらず、「研究者の手元にある」データが中心。

  1. 作成当初のデータの取扱いについては民間データと同じ立ち位置で、(役に立つか分からないが)作成してみた段階なので、ここでの共有・公開は難しいしあまり意味もない(競合研究者にとっては意味があるが、共有・公開の視点ではなおのこと検討の余地がない)。
  2. 標準的な形で整理したりメタデータを付与したデータは使い勝手があがる。この段階のデータは共有、公開することによって活用が見込まれるが、この段階では研究者の業績の問題と衝突する。「共同研究の推進」、「公開による利活用促進の評価」という形で、貢献度を別の形で示す取り組みはあるものの、データ分析が研究者の主たる業務である以上この段階で強制力を働かせることは相当工夫がいる。単なる強制では、研究環境自体の崩壊につながりかねない。
  3. 論文の根拠データについては、既に政策、コミュニティの両面から強制力が働きつつある。この段階ではオープンデータやデジタルアーカイブの知見が非常に役立つ。事例の共有や見える化ガイドラインの整備が有効だろう。

【公開に向けて】
・・・こうやってつらつらと書いてくると、3. 論文根拠データ以外の研究データは生貝先生の言う通り「open by default」の準備段階、というのがしっくりくる(そもそも公開できる=人に見せて意味が分かる程度になっていない、という観点でも)。
ただ、公開に向けて努力しなければならないという原則を踏まえれば、準備段階から公開段階へ移行するための仕掛けが論文以外に必要。良く使われる手法としては取得からの年限を区切って公開してしまう手法だが、管理者よりの手法であることは否めない。これのカウンターとして(研究者の自律性を尊重する手法として)インセンティブの議論が位置づけられる訳だが、妙な既得権になっては困るのでこれまた難しい。

【公開条件:研究者の視点から】
ここでやっと本題だが、では、公開に当たってどのような条件があると公開が進むのか。対象は2. 整理済みデータ、かつ未公開のものになり、上記でいうインセンティブの議論と密接に絡む。
データを中心に考え直すと、現状存在するインセンティブは「論文」による業績化。なので、とりあえず論文と同等の効果が認められればよいだろう、というのが一つの指標になる。ということで、引用だとか業績として認めるだとかいう議論が出てくるが、論文には「分析による考察」という知的労働が含まれるので、同業者として全く同じ業績とは認めづらいだろう。似通ったスタンスであるプレプリントとの兼ね合いやアンケート結果を見ても、「引用」が妥当な線か。

【公開条件:データ管理者の視点から】
博士論文(あるいは知財権)の手法に倣えば、論文発表に必要な程度の公開猶予期間をまず確保しつつ、延長を認める(あるいは出しても問題ない形に加工したデータの提出を認める)、という手法になるだろうか。延長にも限度を定めておく必要はあるものの、準備の程度に差があるデータを一律に公開フェーズへ動かすことが出来るのは有力な手段だろう。

【公開条件:市民の視点から】
データ取得に対して納税している、という視点をきちんと明確にするべきなので、オープンデータ的に「出せるものはすぐ出す、出せないなら理由を」ということになる。ただ、現状研究者の業績評価システムと見事に衝突しているので、研究者コミュニティ維持の観点からも一定程度のエンバーゴはやむを得ない、というところまでは理解が得られる(と勝手に推測)。既存の制度に倣えば、データのカタログ公開+データの公開請求(及び非公開事由の開示)制度の準備、カタログ内での延長理由の提示、あたりでフォローするところまでは容易にイメージできる。
補足として、データの保存範囲については保存コストを明示できると良さそう。この範囲までなら100万円、全部保存したら1000万円とか。データを出せる範囲、出せない範囲を納得してもらう、というのも公開の際に重要な視点。

※その意味でも、既に大分時間が経っている研究データ開示に対して、具体的な利活用のオファーがあると話が進みやすい気がするけれども。本当に使いたい人はいるのだろうか。。。

・・・単なる自分用のメモになってしまったものの、とりあえずアップします。
続きはまたそのうちに。

FAIRデータ原則に関する覚書き part 5: Reusable 1/1

試訳、何とか出張に間に合いました。揺れはあるだろうけど完成版ではないのでまあ良しとする。機会があれば作ります。

~~~~~

R1: (Meta)data are richly described with a plurality of accurate and relevant attributes

R1: (Meta)data are richly described with a plurality of accurate and relevant attributes - GO FAIR

これは何を意味するのでしょうか?

多くのラベルがデータに添付されている場合は、データを見つけて再利用することがはるかに簡単です。原則R1はF2に関連しますが、R1は、データが特定の状況において「実際に有用であるかどうか」を決定するユーザー(機械または人間)の能力に重点を置きます。この意思決定を助けるために、データ出版者は、発見を可能にするメタデータだけでなく、データが生成された文脈を説明する豊かなメタデータも提供する必要があります。これには、実験プロトコル、データを作成した機械またはセンサーのメーカーおよびブランド、使用されている種、薬物管理などが含まれる可能性があります。さらに言えば、R1は、データ出版者がデータ消費者の識別およびニーズの予測を試みる必要はないことを示します。我々は、メタデータに含まれる情報が一見無関係に見える場合でも、メタデータの作成者がメタデータを提供にあたりできるだけ気前がよい(注:メタデータの量や質の観点で)ことが望ましいことを示すために、”plurality”(複数の)という用語を選択しました。

 

考慮すべきいくつかの点(網羅的なリストではありません):

 ・データ範囲の記述:どのような目的のために生成/収集されましたか?

・他のユーザーが認識すべきデータに関する特記事項や制限への言及

・データの生成/収集日、研究室(ラボ)のコンディション、データを準備した人物、パラメータ設定、使用するソフトウェアの名前とバージョンの特定

・生データか処理済みデータか?

・すべての変数名が説明されているか、自明である(つまり、研究分野ごとに統制語彙で定義されている)ことの確認

・保存されたデータおよび/または再利用されたデータのバージョンの特定及び文書化

 

Links to Resources

R1はこれらの間違いを避けるために役立ちます:

https://www.youtube.com/watch?v=N2zK3sAtr-4

=====

R1.1: (Meta)data are released with a clear and accessible data usage license

R1.1: (Meta)data are released with a clear and accessible data usage license - GO FAIR

これは何を意味するのでしょうか?

“I”(注:Interoperable)の下で、我々は技術的な相互運用性の要素をカバーしました。R1.1は法的な相互運用性に関するものです。あなたのデータにはどのような使用権利が付いていますか?これは明確に説明されるべきです。曖昧さは、組織としてライセンス制限を遵守しようとする際、データの再利用を厳しく制限してしまう可能性があります。ライセンス条件を明確にすることは、より多くのライセンスを考慮した自動検索においてより重要になるでしょう。データを使用できる条件は、機械および人間にとって明白でなければなりません。

例:

MITやCreative Commonsなどの一般的に使用されるライセンスは、あなたのデータにリンクすることができます。このメタデータマークアップする方法は、DTL FAIRifierによって提供されています。(リンク:https://www.dtls.nl/fair-data/find-fair-data-tools/

 

Links to Resources

https://wiki.creativecommons.org/wiki/License_RDF

=====

R1.2: (Meta)data are associated with detailed provenance

R1.2: (Meta)data are associated with detailed provenance - GO FAIR

これは何を意味するのでしょうか?

他のユーザーがデータを再利用するには、データの元の場所(明白な起源/履歴、R1参照)、引用者、および/またはどう謝辞に記載されたいか、を知っておく必要があります。データに続けて、ワークフローの説明を含めてください:誰がそれを生成または収集したか?どのように処理されたか?これまでに公開されているか?データには、誰かが手を加えたり完成させたりした可能性のあるデータが含まれているか?理想的には、このワークフローは機械可読形式で記述されます。

例:

https://commons.wikimedia.org/wiki/File:Sampling_coral_microbiome_(27146437650).jpg

作成者の詳細を含む、クリエイティブ・コモンズのShare Alikeライセンス(継承)を使用します。これは、データ作成者がどのように引用されたいかを正確に示します。

 

Links to Resources

https://creativecommons.org/licenses/by-sa/2.0/

=====

R1.3: (Meta)data meet domain-relevant community standards

R1.3: (Meta)data meet domain-relevant community standards - GO FAIR

これは何を意味するのでしょうか?

似通ったデータであれば、データセットの再利用はより簡単です:同じタイプのデータ、標準化された方法で組織化されたデータ、確立された持続可能なファイルフォーマット、共通のテンプレート、共通の語彙を使用したドキュメント(メタデータ)など。データの保存と共有のためのコミュニティの標準やベストプラクティスが存在する場合は、それに従うのが望ましいでしょう。例えば、多くのコミュニティは、最小限の情報標準(例えば、MIAME、MIAPE)を有しています。FAIRデータは少なくともこれらの基準を満たすことが望ましいでしょう。他のコミュニティ標準はあまりフォーマルではないかもしれませんが、コミュニティによる利用(能力)を向上させる方法で(メタ)データを公開することは、FAIRnessの主要な目的です。状況によっては、提出されるデータのタイプに関する標準的なグッドプラクティスから逸脱する、有効な、特定の理由が提出者にあるかもしれません。これはメタデータ内で扱われることが望ましいでしょう。なお、品質に関する問題は、FAIR原則で扱われていないことに注意してください。データの信頼性は、閲覧者の目にあり、意図するアプリケーションに依存します。

例:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM1528447

 

Links to Resources

http://schema.datacite.org/[for general purpose, not domain-specific]

http://dublincore.org/specifications/[for general purpose, not domain-specific]

https://www.ncbi.nlm.nih.gov/geo/info/MIAME.html [microarrays]

http://cds.u-strasbg.fr/doc/catstd.htx [astrophysics]

https://www.iso.org/standard/53798.html [geographic information and services]

http://cfconventions.org/ [climate and forecast]

http://www.iucr.org/resources/cif [crystallographic information]

http://www.nexusformat.org/ [neutron, x-ray, and muon experiment data]

http://www.ddialliance.org/Specification [social, behavioral, and economic sciences]

https://sdmx.org/ [statistical data]

https://knb.ecoinformatics.org/#tools/eml [ecology]

~~~~~

最後はちょっと詰め込み過ぎましたね・・・まあいいか。