みなみの備忘録

とあるライブラリアンの備忘録です。

1/25 東アジアデータ・アーカイブ国際ワークショップ参加メモ

久々に外勤&出張が続きました。九大のシンポジウムは追ってまとめるとして、取り急ぎ先週末に参加した東大社研のワークショップのメモを。

・東アジアデータ・アーカイブ国際ワークショップ

https://csrda.iss.u-tokyo.ac.jp/international/pdf/20190125workshop_poster.pdf(直リンク注意)

東アジアのデータ・アーカイブに関する国際ワークショップ、ということで中国、韓国、台湾などの担当者が来日していた様子。今回は都合上、1/25(金)の1日のみ参加。ミシガン大学のJared Lyle氏(ICPSRのarchivist)による、ICPSRの評価と認証に関する実践報告があった。資料は下記で公開されている:

Data Repository Assessment & Certification: Experiences and Lessons Learned

=====

以下、内容の概略。

1) ICPSRの背景
 ICPSRの歴史のほか、利用状況やサービス展開の紹介があった。保有しているデータの中には、80,000回を超える引用があったデータも存在するとのことで・・・さすが。ICPSRではデータのライフサイクルに沿ったガイダンスを行っており、倫理審査やデータ管理計画作成のためのテンプレートを提供しているとのこと。

 

2) 評価の重要性と様々な指標の実践
 2013年のOSTP指令や、災害への危機意識の高まりから、信頼性や透明性の向上、手続きの改善、(各種ポリシーやシステムに関して)コミュニティ標準への準拠とともに、ドメインリポジトリの有用性を関係各所に示す必要が生じてきた。ということで、ICPSRでは2005年よりCRL test audit、TRAC/ISO、DSA、WDSなど様々な評価指標を試してきており、その知見を活かして、昨今立ち上がったCoreTrustSeal認証も実践してみた、というところで今回の報告につながる。分野違いのはずだが、WDSまで手を出していたとは・・・

 

3) 各指標の比較(労力とリソースの観点から)
 前述した指標の概要、およびそこから得られた知見の説明があった。労力とリソースの観点からは、CoreTrustSeal認証が、取得に必要な手間(注:必要な専門職員と整備すべきポリシーの両方を含む)が最も少なくてすみ、他の認証よりも経済的とのこと。もっとも、CoreTrustSealが2) に示す要素の向上・改善に役立つかどうかは、さらにこれから検証する必要があるとの補足あり。
ちなみに、CoreTrustSeal認証用の文章を執筆するために要した時間は、Metadata and Preservation Director(つまり彼)が2日掛かりとのこと。他の認証だとこれじゃ済まない(他の関係者の協力だとか追加調査が必要になるとか)、との話だが、まあまあな負担では・・・

 

質疑応答では、評価を取得するために行った実作業やポリシーの整備、ICPSRが使用しているシステムやそのメンテナンス、データおよびメタデータを整備するためにかかっているコストなどの質問が寄せられていた。総じて、役割分担が明確なのでそれほど負担ではない(⇔単純にリポジトリに関わっている人数が多い)という風に受け取れたが、おそらく外部からの目が厳しい分、そうならざるを得ない、ということなんだろう。実践を内外にいろいろな形で示していくことの重要性を再認識(にしても、CTSはもう少し簡単にならないものか・・・)

2018年の振り返り

大分遅くなりましたが、明けましておめでとうございます。
2018年はいつになくいろいろあったので、周りの方々を真似て振り返りなどを。

~~~~~

1月

「情報管理」誌に共著記事が載った。
JPCOARスキーマの策定:日本の学術成果の円滑な国際的流通を目指して

夜中の12時にもなってから九州の某氏とrelationTypeの意味がどうの、と議論していたのは良い思い出。
電子リソース管理システムの資金調達、在庫管理システム&画像公開システム導入・開発とシステムづくめの日々。

2月

RDUFのライセンス小委員会アンケート開始。直前まで設問作りをしていたような(委員の皆さま調整不足ですみません。。。)

研究データ利活用協議会(RDUF)研究データのライセンス検討プロジェクト小委員会、研究データのライセンスに関するアンケート調査を実施中 | カレントアウェアネス・ポータル

ORCIDコンソーシアム検討会での文書翻訳に関わらせていただいたり、

http://orcid-jp.net/2018/02/23/orcid%E6%96%87%E6%9B%B8%E5%92%8C%E8%A8%B3%EF%BC%9Aroles-and-responsibilities-of-orcid-
consortia/

Alma導入に向けて暗躍してみたり(これは残念ながら実らず)。
この頃FAIRデータ原則が妙に気になり、翻訳に手をつけたりしていた様子。

FAIRデータ原則に関する覚書き part1 - みなみの備忘録

3月

RDA plenary meetingに参加するため中旬からドイツへ。ゲッティンゲンとベルリンを回った。
「情報管理」誌が3月で休刊とのことで、編集委員を務める某誌近辺が俄かにざわつく。

「情報管理」誌休刊のお知らせ 
1月から引きずっていたシステム関係の案件は年度最終日までもつれ込んだ記憶が・・・

4月

「薬学図書館」に報告書が掲載された。
電子リソース管理システム Intota ERM 導入報告. vol.63(2) p.128-133
その他、関わっていたタスクフォースの報告書も無事掲載。めでたい。
次期JAIRO Cloud開発共同タスクフォース報告 : 次世代リポジトリの機能に関する提案

http://id.nii.ac.jp/1458/00000091/
職場の英文誌のGDPR対応が本格化(そもそも遅い)。某誌編集委員会メンバーの出入りがようやく落ち着いた。

5月

親機関のデータ融合プロジェクトが本格的に始動。メタデータチーム担当者として活動することに。
所掌する各種委員会の準備に追われつつ、周りの大学に触発されてMendeley機関版の導入を企画。合間を縫ってJpGU2018に参加したり。
下旬には現職の履歴書を書いて提出していた模様。

6月

思えば最大の山場だったJOSS2018の開催。

Japan Open Science Summit 2018(JOSS2018)
セッションを二つ企画することになり、4月からかなり調整に時間を取られる。特にメタデータセッションは全体の構成に最後まで悩んだ。

6/18 ライセンス検討小委員会セッションメモ - みなみの備忘録

6/18 図書館×メタデータ・組織化セッション - みなみの備忘録

下旬に書類面接通過の連絡があり、10数年振りの面接に挑む。月末のサンメディアセミナーではブースの出展など。

7月

1日に開催されたJSPSのワークショップに参加。インフォーマルな打ち合わせにもお誘いいただき、「ライブラリアン」の肩書きで紹介されたのが印象に残っている。

課題設定による先導的人文学・社会科学研究推進事業|日本学術振興会
中旬には二次面接があり、回答があるまで落ち着かない日々が・・・
8月に一般公開を控えつつも、仕事の引き継ぎや整理を考え始める。

8月

上旬は毎年恒例の一般公開に引き続き、自然科学系アーカイブズ研究会へ参加。3月にやっていたシステム導入の紹介をした。
帰ってきたところで転職の話を人事に恐る恐る説明するも、あっさり承認されて妙な脱力感(まあいいのか)。
下旬には研究データ管理の新教材試用プロジェクトの説明をした。

9月

退職準備が本格化する中、発表や説明会の機会が妙に集中。中旬は毎日のように前に立って喋っていた記憶が。
ここにきてOA方針の運用指針を決める話が動きだし、最後のひと働きを余儀なく(?)される。まあいいけど。
後任が最終週に決まってとにかく良かった。

10月

初日から台風の影響で遅刻。満員電車の洗礼にあう。
ライブラリアンが二人採用されたことをここで初めて知る(そして同じ業界にも関わらずほぼ初対面でした)。
前職時代に引き受けていた諸々の外部活動と並行しつつも、新部署ということで毎日のようにブレスト。新鮮。
後半には7月に開催されたJSPSのプログラムの続きに参加した。

10/20 JSPS人社系シンポジウム参加メモ - みなみの備忘録

下旬には学術情報委員会の傍聴や総合展にも参加。思ったより受け入れてもらえて何か落ち着いた。
転職を機に各方面から苦情(?)が来ていたFacebookの写真を更新するも、今度はフォトショがどうの修正がどうのと・・・(愚痴

11月

職場の業務が本格的に始動。また(?)リポジトリを立ち上げることになり、一周まわって戻ってきた感じ。
某誌の記事がもとで新聞に載った話は驚いた。改めておめでとうございます。

新聞沙汰になったことなど - よしなしごと

所属するRDUF小委員会で作成していたガイドラインの草案が固まり、総勢60人くらいへレビューを依頼。正直かなり緊張した。
休止していた運動も週一ペースでゆるゆる再開。

12月

社会調査方法の勉強に悪戦苦闘しつつも、何とかライブラリアンとしてやるべきことが見えてきた(気がするだけかもしれないが)。
担当特集号の最終チェック(特に座談会)がかなりのエフォートを占めていた記憶。どうにかfixできて何よりでした。
そして某誌の記事の新聞沙汰第2号(しかも同じ特集から)。改めておめでとうございます。

「粗悪学術誌掲載で博士号 8大学院、業績として認定」についての補足+元ネタ原稿について - かたつむりは電子図書館の夢をみるか(はてなブログ版)
職場の忘年会に参加したのは何気に5年ぶりくらい(前職ではそもそもやってなかった・・
クリスマスの夕刻にブレストしてプレゼントをもらった(宿題が出た)のは思い出になりそう(笑)。

=====

書き出してみると、結構引用先がないことに気が付きました。備忘録としてはちょっと活動不足ですね・・・今年はもう少し更新できると良い(希望)。
気が向いたら追記するかもしれません。あしからず。

11/20 "A data citation roadmap for scientific publishers"論文メモ

11/20に出版された"Scientific Data"の論文に、なかなか興味深いものがあったので読んでみた。

A data citation roadmap for scientific publishers | Scientific Data

共著者の所属がElsevier、Springer、PLOS、eLife、Wiley等々、著名な出版社が8つも並んでいる。アツい連携(所属的に)。

続きを読む

10/20 JSPS人社系シンポジウム参加メモ

JSPSの人文学・社会科学データインフラストラクチャー構築プログラム シンポジウム ―データの活用による人文学・社会科学の飛躍的発展―(於政策研究大学院大学)に参加しました。

課題設定による先導的人文学・社会科学研究推進事業|日本学術振興会

"今後5年をめどに、日本学術振興会を中核に人文学・社会科学の分野における学術的調査データのうち、重要かつ研究者の利用に供することが有用である電子化された調査データの保存・管理等の取組を行う人文学・社会科学分野の拠点を形成"とのことで、今回はハーバード大学のRobert Putnam教授の講演を拝聴しつつインフラのあり方を考える、とのこと。
政治学分野の大物が来日されるとのことで、登壇者もほぼ政治学分野、聴衆も大分偏っていた様子。そんな折、文科省研究振興局の挨拶では、「インフラの話は自然科学系中心になりがちだったところ、人社系は今回が最初で最後のチャンスだと思って活動をお願いしたい」との強烈なメッセージが・・・

~~~~~
Putnam教授の基調講演では、"How did we get here? : the curious case of social change in 20th Century America"とのタイトルで、ご自身の活用事例に基づいたデータアーカイブの重要性が述べられた。
現在のアメリカの様々な問題(経済格差、政治的分極化、社会的孤立、文化的ナルシシズム)対策へのヒントを得るために、1900年初頭からの様々なデータから傾向を見た、というもの。使用したデータや指標そのものの妥当性についてはコメントできる知見を持ち合わせていないものの、過去のデータが再利用される事例として興味深く拝見した。ある一つの「信頼できる指標」を考えるのではなく、複数の指標からその傾向を判断する≒質より量的なデータの使い方は印象的でした(理解が違ってたらすみません)。

第2部のパネルディスカッションでは、モデレーターの前田先生(東大社研)からの導入として、①現在を理解するための過去データの重要性、②社会科学のデータリポジトリに求められる役割の変化(アーカイブ→サービス)、③データを保存・共有する意義(オリジナルの重要性、データ収集のコスト、異なる角度からのデータ分析、再利用性、公共性)、などが紹介された。Putnam教授の講演でも示唆されていたが、データは不完全である以上、複数のデータソースで確認する必要性を強調されていたような。
その後、久米先生(早稲田大学)、稲葉先生(日本大学)、佐藤先生(東北大学)、鹿毛先生(東京大学)からそれぞれコメントがあった。Putnam教授との関わりに引き付けながらコメントを、と事前に宿題が出ていたとのこと。個別のコメントは記しきれないが、全体的にデータアーカイブの話ではなくデータ利活用のことが中心になっていた(もっとも、Putnam教授の講演もアーカイブの具体的なところには特に触れていなかったが)。
~~~~~
全体的な感想としては、プログラムの趣旨とはやや異なり(?)、データをアーカイブし共有する意識が全体的に薄い印象を受けた。登壇者からも、インフラの維持には資金が必要、などの、あえて言えば当たり前のコメントが目立つ。研究者の主たる関心はデータ分析とそこから得られる知見なので当然といえば当然だが、モデレーターとの意識の差が妙に際立ったという印象を受けた。
このプログラムでは人社系データの国内拠点機関を設けて推進していくとのことだが、保存、共有を担う人材がこのプログラムで担保されるのかどうか、引き続き注目していきたい。

10/1 転職しました。

やや時間が経ってしまいましたが、10月に転職しました。

といっても全然別業界という訳ではなく、国立大学系の研究所から民間の研究所へ。変わったのは、所属研究者が自然科学系メインから社会科学系の方々になったこと、自分の所属部署が事務系から研究系になったこと。データライブラリアンという肩書もいただきました。

以下には極めて個人的な備忘を(多分に顔見知りの方々向け)。

====

現職の採用が決まったのは7月下旬だったけれども、結局あまり余裕もなく後片付けに追われる毎日。やはり手広くやりすぎていた(反省はしていない)。勤務最終週になったものの片づけも何とか終わり、かつ後任が来てくださることになったので、とりあえずは良しとする。

8月以降、直接お会いした方々には聞かれるままに転職の理由を話していました。といっても前職に不満があった訳ではなくむしろ逆で、あれほどやりたいように自由に動けた職場はほとんどない、と今でも思う。だからこそ事務のロジックで動く人事異動の存在が非常に面倒で、長くいられないのなら自分で探す、という気持ちになったのは確かで、そこに極めてタイミング良く自分が追っかけていた仕事があった。

とはいえ、そんな周辺の事情だけで決断できた訳でもなく。改めて文章に起こしてみると、自分の追っかけてきたテーマの終着点を他人に委ねたくない、という気持ちが強かったかも。他のテーマで、納得できないままに職務の線引きをされて評価されてしまう状況は嫌というほど見てきている。まだ収束には早い気がするし、できれば自分が最後まで見届けたい。

ということで、今後ももう少しこの方向で掘り下げてみたいと思います(さらに記事の内容がマニアック化する可能性大ですが。。。)とりあえず今日はここまで。

7/24 データの推奨フォーマットに関するメモ

リポジトリのデータ保存ポリシー作成の一環として、データを搭載する際の推奨フォーマットについて調べたのでメモ。

概論

File formats and standards - Digital Preservation Handbook

Digital Preservation Coalition (DPC) が提供するハンドブックより。流石に詳しい。内容の種別ごとに組織化した上で、保存する際に留意すべきポイント(対象のフォーマット、オープンソースの可否、文書化・標準化、メタデータ等)を逐次まとめてある。また、マイグレーション等で使用する際のツールやユースケースにも触れられており、適当に抜き出していくだけで自機関のものが作れそう。

 

国レベル?でのまとめ

Recommended Formats Statement – table of contents | Resources (Preservation, Library of Congress)

Library of Congressによる推奨フォーマットのステートメント。コンテンツの種類別で7章に分かれ、"print"、"digital"ほか媒体ごとに提供されている。非常に詳細。

 

https://www.ukdataservice.ac.uk/manage-data/format/recommended-formats

UK Data Serviceによる推奨フォーマットまとめ。こちらはLCに比べれば大雑把な種別だが、"Acceptable formats"を提供しているのが面白い。

 

電子情報の長期利用保証に関する調査研究|国立国会図書館-National Diet Library

国立国会図書館提供。他のまとめと異なりHTMLでは提供されていないようだが、調査研究・報告書(平成18年度~平成22年度)に近しいまとめがあった。なお、ウェブサイトの保存だけは別枠:

13.保存用ファイルフォーマット WARC | ウェブアーカイブのしくみ|国立国会図書館インターネット資料収集保存事業

 

 各機関が提供する推奨フォーマット情報

File Format Recommendations: Libraries - Northwestern University

Best practices for file formats | Stanford Libraries

書きやすそう、と感じたものを絞ったらアメリカの事例だけに・・・

StanfordのほうはLCの記述を引用して済ませており、非常にコンパクトな印象。

 

ファイルフォーマットのレジストリ

・PRONOM | Welcome

UKのNational Archivesが提供するファイルフォーマットのレジストリ。後述のDROIDと親和性がある模様(あまり詳しくは調べてない)。

 

MIME Type

https://www.iana.org/assignments/media-types/media-types.xhtml

Internet Assigned Numbers Authority (IANA) が提供するMedia Typeリスト。JPCOAR schemaのファイルフォーマットはこちらを推奨している。

フォーマット | JPCOARスキーマガイドライン

 

関連ツール

File profiling tool (DROID) - The National Archives

ファイルフォーマットの識別ツール。UKのNational Archivesから無料で提供されている。

 

JHOVE | JSTOR/Harvard Object Validation Environment

こちらはオープンソースのもの。DROIDのソースを一部で利用している様子。
~~~~~

まだまだありそうだけど、とりあえず。
あと個人的に検討すべき課題としては、推奨フォーマットのリストを外部に提示する際に、リポジトリのキュレーション基準と結びつけるべきかどうか、が残っている。

リストを提示したとして、データ登録者の選択を尊重してそのまま登録するのを許可するのか、推奨フォーマットでの登録を促すのかはまだ決めきれない。
将来的なマイグレーションのタイミングで行えれば良いのだろうけど、労力を考えると微妙。。。
ごく最近の取り組みで、Wellcome Trust財団とSpringer Natureによる出版物に紐づくデータ共有のパイロットがあるけれども、

blog.wellcomeopenresearch.org


共有の段階からどの程度を求めるのか、に対する一つの指標になりそう。注目しておきたい。

6/18 図書館×メタデータ・組織化セッション

JOSS2018ではもう一つ、図書館関係セッションの座長をさせていただきました。

セッション詳細 6月18日(月)|Japan Open Science Summit 2018(JOSS2018)

ご登壇の皆さま、ご参加の皆さまには改めて御礼を。
こっちはメタデータ・組織化がテーマ。データ管理の実務を語っていただきつつ、図書館員が貢献できるところはどこかを考える構成。社会科学、自然科学、材料科学の実務+JPCOARスキーマの可能性を語ってもらいました。超マニアックなテーマ(?)と自負していたものの、会場が埋まっていて結構焦りました。。。
例によって資料は別途公開予定なので、個人的な感想と考察を。
=====
研究データの流通というときはメタデータの作成がまず初めに意識されるものの、実データの組織化が非常に重要、というのが最近の認識。所蔵・アクセス先が分かれば使い方も自動的に分かる紙やPDFと違い、データはフォーマットが基本バラバラなので、横断検索を意識する場合、せめて流通先のデータは利用者にとって適切なフォーマットになっていないと厳しい。
FAIRification processの図を趣旨説明で持ってきたのもそういった点からだが、

www.go-fair.org


今回はそこまで踏み込めなかったのがちょっと残念。標準化業務の一環として、多分こっちも図書館員の仕事として見込めるはず。FAIR手順の具体化については今後も着目したい。

 

ディスカッションでは、大向先生の整理のおかげで

ドメインメタデータ作成支援(ドメイン指向)

②データとデータのミッシングリンクの作成(繋がり指向)

の2点に論点が絞られ、結構具体的な業務イメージが出来てきた印象。研究者により近い支援として①を推したいけれども、②はサービス展開として非常に重要。実現可能性がありそうな持っていきかたとしては、

ドメインメタデータ作成支援(ドメイン指向)

  •  大学院生との連携の枠組みの一環として、特定分野のメタデータ作成を図書館員+大学院生で行う。某大学が目録作成業務で似たような体制を取っていたはずで前例があり、天野さんが指摘されていた「トレーニング」にも合致しそう。

②データとデータのミッシングリンクの作成(繋がり指向)

くらいかな、と妄想したり。もっとも、①については分野別図書館なら図書館員だけでも出来るはず(というか今自分でやってる)。メタデータの数によるけど。
それと、ディスカッションの最後、図書館員に対する信頼への質問は核心をついたものだと思っている。能力と態度を示していない相手と協働することはなかなか難しいが、(質問は前後するけれども)琉球大学の大谷さん(登壇者)が「図書館員として」JPCOARスキーマの適用可能性を他の登壇者に聞いていたのはその点で非常に大きい、と思う。
後は各機関内での実践相手をどう見つけるか、どう売り込むか。データリポジトリのネットワークが出来てくるとその辺のマッチングも考えられそう、とか思っていたところ翌日のセッションでネットワーク作りが始まっていたので、

 

・研究データ管理を考える~データリポジトリのサービスとCoreTrustSeal認証~
(研究データ利活用協議会リポジトリ小委員会)

セッション詳細 6月19日(火)|Japan Open Science Summit 2018(JOSS2018)

相乗効果を期待したいところ。