みなみの備忘録

とある大学(?)図書館員の備忘録です。

9/25 「北米の大学図書館における研究データサービスに関する講演会」参加メモ

9/25にNIIで開催された「北米の大学図書館における研究データサービスに関する講演会」に参加しました。
総勢20名弱、内部の人(研究者含む)が半分くらいいたような。
講演者はイリノイ大学のHeidi Imkerさん。ご自身でも仰っていたようにかなりの早口。。。
時期的に、前回のミシガン大学と比較しながら聞けたのは非常に有り難かった。

9/7 国際ワークショップ@東大社研(データライブラリアンシップ)に参加しました - みなみの備忘録

さて、講演内容はまず図書館がRDMに取り組む理由からスタート。
1) 消極的(?)な理由として、(学内における)図書館の立ち位置の維持、助成金の確保など。
2) 理念的には、専門性の拡大、データ主導研究のデザイン。
3) サービス面では、研究者のフォロー。資料面だけではなく、研究生活、雇用面も含めて。
の3点が挙げられていた。素晴らしい。
さらにARL (Association of Research Libraries) の背景の紹介があり、124館あるARL librariesのサービス導入状況の説明。DMPのレビュー、コンサル、導入、データ保存・共有が一般的とのこと。Johns Hopkins universityが10年前には既にデータ保存サービスを始めていた、とのことで、非常に先進的な取り組みとして紹介されていた。
# 上記を聞きながら、国内事例で良く挙げられる千葉大学の萩庭さく葉コレクション

# を想像したけれども。。。Johns Hopkinsはサービスとして連続性を保っている

# んだろうか。穿ち過ぎ?
政策的な背景としては、OSTP Memo、アメリカの助成機関によるポリシー策定など。NIHのdata sharing planは初めて聞いた。

https://www.niaid.nih.gov/research/sample-data-sharing-plan

500$以下の研究助成に適用される、ということだが、「管理」まではしなくても良いから「共有」はすべき、ということだろうか?
(→ まだちゃんと読めていないので、元をご参照ください)

~~~~

続いて、出版社の状況をさらっと。"data transparency"ということで、Scienceの記事の紹介。

Promoting an open research culture | Science

# 購読タイトルなので、読めない方はこちら:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299/

# "Promoting an open research culture"がPay Wallありとはこれいかに。
透明性や再現性の問題は科学の特徴として重要だけれども、増え続けるevidence dataの問題は難しい、くらいの意味(超訳)。
研究者は、といえば、イリノイ大学ではPI (Principal Investigator)が図書館にDMPのレビューを頼んできたそうな。そこを取っ掛かりに、インタビュー等を通じて研究データサービスを展開し始めた様子。

~~~~

上記を枕に、ここからはイリノイ大学の研究データサービスについて。IT関連部署、部局等様々なステークホルダーと協働して、データの管理と保存を主眼に展開している様子。ミシガン大学との比較で、Analyze、Visualizationなどは対象外と言い切っているのは興味深い。どれだけ研究者の考えることをシンプルにできるか、というのが大きなテーマか?
"Core Service Area"としてはConsultation, DMPs, Workshops, Data Publishingの4点が挙げられており、データ管理計画の支援(Consultation)が最も大きな比重を占めている模様。Data Publishingサービスとなるリポジトリ(Illinois Data Bank: 

https://databank.illinois.edu/) は、"Supercomputing Center, Information Technology, Legal Council, Vice Chancellor for Research, Library Preservation Unit, Librarians"の協働作業だとか。。。ちょっと業務分担の想像がつかないものの、協働して課題に当たる姿勢は素晴らしい。見習いたい。

# なお、データの流通が気になって質問したところ、メタデータについてはdataciteに

# 準拠しており、もっぱらDOI取得のために付与されている様子。メタデータだけを

# 何かに活用する、ということは想定していないっぽい。もっとも、分析やビジュアル

# 化をサービス外としている以上、これは当然の帰結か。

 

所感。やや政策によって進めさせられている感はあるものの、図書館機能を研究データサービスに適用させるため、非常に練られた計画のもとで進めている印象を受けた。ヨーロッパの研究図書館でもソフト面(データ管理計画等)を中心に展開している様子だし、

ヨーロッパのresearch libraryによるResearch Data Services調査 - みなみの備忘録

日本でもデータに関するコンサルサービスでも展開できると良いのだけれど。

9/7 国際ワークショップ@東大社研(データライブラリアンシップ)に参加しました

東大社研で開催されたデータライブラリアンWSに参加しました。

公開セミナー/ワークショップ | Center for Social Research and Data Archives (CSRDA)

参加人数は30名前後、図書館関係者も結構いた様子。

はじめに、東大の前田先生から趣旨と背景の説明が簡単にあった。
iassistやDSAといった社会科学系のデータコミュニティの話と、最近の動向としてWDS-DSA trustworthy data repositoriesの紹介。「データを扱うようになって、理系と文系の垣根がなくなってきている」という指摘は面白かった。
さて、今回の講演者は米ミシガン大学のJungwon Yangさん。"Data Librarianship"という演題で、ご本人は社会科学系サービス全般に関する責任者とのこと。
ミシガン大学の簡単な紹介に続いて、本題のdata librarianのお話。Jungwonさんの分類では、データサービスを提供するlibrarian(=data librarian)には3種類ある。

・subject librarian/specialists
・geo-spatial analysts/data visualization librarians
・research data management librarians

一つ目、subject librarian/specialistsについて。
業務内容としてはconsultation / teaching, collection management。前職ではcollection managementが業務の80%を占めていたが、ミシガンに移って比率が逆転した。
理由として、コレクション構築はIT技術によってほぼ自動化されたことが挙げられていた。背景にはMARCつき納品の普及なども。
また、ミシガンの場合、州の方針によって図書館が教育を提供する業務を担っているとか(アメリカは連邦制のため、各州によって図書館に関する方針が異なる)。研究者は、教育に関する内容をほぼ図書館に振っているとのこと。
こういった内容を背景に、subject librarianはconsultation / teachingに業務の比重を大きく割いている。図書館が学部学生と研究者の仲介役となるため、(両者に対応することができるスキルという意味で?)2つの学位が事実上必須となっているとのこと。
データとの関わり、という観点では、1990年代から計量的な分析に関する問い合わせが増えてきたため、(問い合わせに対応する、というだけではなく)図書館側からgovernment data分析などのサービスを提供するモチベーションが生じた、とのこと。
subject librarianは、研究者や学生がデータを探しに来た際、専門分野の視点からの徹底的な調査に加え、データの入手にお金がかかる場合は図書館がデータを買ってあげることもあるとか。選書の延長として考えられなくもないが、これは結構驚いた。独自予算の強みだけではなく、図書館に対する信頼の蓄積があることの現れ、ともいえそう。

~~~~~

二つ目、geo-spatial analysts/data visualization librariansについて。
昨今流行っている(?)データビジュアライゼーションを行っているとのこと。data carpentryという表現をされていたが、膨大なデータをpythonSQLを活用して組織化し、整理し、manipulateするそうな。

アメリカではIT専門家も「ライブラリアン」として活動されているので、実行できること自体は理解できたが、このサービスが「図書館のサービス」としてどう位置づけられるのか、が良く分からなかった。
→ 聞いてみたところ、"we have no limits"とのこと。資金力も能力のある人もいる、という自負の現れだろうが、残念ながら「なぜ図書館がやるのか」という質問に対する回答は得られなかった。
**後で調べたら、このサービスはワークショップの開催、関係するデータ収集のフォローが内容の様子。
https://www.lib.umich.edu/data-visualization
Jungwonさんは「研究・教育支援として図書館がやっている」というニュアンスで話されていたが、(イベント時に出来る人がやっているのかもしれないが)これは流石にサービスの紹介としてはミスリードだろう。**

~~~~~

三つ目、research data management librariansについて。
「データライブラリアン」と言われる人は一般にこの業務を指すが、本来はデータライブラリアンの一部、という前置きから。まあ「データ」をresearch dataに限定する理由は確かにない。広まった理由としては、NSFやNIHの要求に書かれているからだろう、とのことだった。
research data librarianの役割としては、データ管理計画の策定支援、データキュレーション、データ公開・保存などの業務。また、最近公開したリポジトリのサービスとして、ミシガン大学図書館のデータリポジトリ"deep blue data"の紹介があった。

https://deepblue.lib.umich.edu/data


ただ、リポジトリはあくまでtemporaryなデータ置き場として位置づけており、publishできるものだけを扱う対象とのこと。永年保存はICPSR (ミシガン大学が主導する社会科学系のデータリポジトリ)やその他ドメインサブジェクトリポジトリに置くことを推奨しているそうな。

https://www.icpsr.umich.edu/icpsrweb/


research processの各範囲において、ライブラリアンのスキルを活かせる可能性がある、とのお話で〆られていた。

全体のまとめでは、subject librarianの役割の変化について強調されていた。研究者とresearch data librarianを繋ぐliaisonとしての役割も担っていくことになる、とのこと。subject librarianとresearch data librarianの連携が、データの一次的な利活用→共有、保存、というプロセスを表現することになるのだろうか。

感想としては、以前に聞いたパデューの事例とそう大きな差はない、というのが正直なところ(もちろん日本ではちょっと展開が考えられない規模のサービスなのだが)。逆に、データサービスの特徴を際立たせるためか、全体的に「従来の図書館サービスを超えた」サービスにフォーカスしすぎている点がやや残念だった。質疑でも出ていたが、「研究支援」とか「教育支援」の文脈を離れてしまうと、「それ研究者の仕事じゃないの?」ってことになってしまう。もっとも、下手に線引きして可能性を潰してしまうのはもっとマズいけれども。。。

7/27 IIIFハンズオンセミナー&第4回CODHセミナー参加メモ

気づけば前回のメモから2か月。随分空いてしまった。。。

今日はNIIで開催された2件のイベントに参加しました。

IIIF_WS - 次世代人文学開発センター 人文情報学拠点

第4回CODHセミナー デジタルアーカイブにおける画像公開の新しいトレンド~IIIFが拓く画像アクセスの標準化と高度化~ | 人文学オープンデータ共同利用センター

 

午前中はIIIFハンズオンワークショップ。人文情報学研究所の永崎先生によるIIIF基本講座。初めにUSBが配られ、今回のPPT資料のみならず、サンプルコードやビューワー(Mirador)まで大量にもらった。。。本当に無料でいいのかこのWS。

①IIIFが以下に便利か、を知ってもらい、②今後IIIFを説明する際の参考資料として、さらに③今後自分でコードを書いてみたい人のために使えるもの、とのことなので、普及活動する機会があれば使います。はい。

午後はCODHセミナー、NIIの北本先生取りまとめのもと、一人8分でLTのような発表がたくさん。IIIFの活用事例がこんなに出てくるものか、と驚いた。

さて、資料は後日ウェブで公開されるとのことなので、ここからはざっくりとまとめだけを。

IIIF (International Image Interoperability Framework) は、画像の相互運用のために提案された「規格」、やや意訳すればプロトコルのようなものの様子。IIIFに沿った形で画像を準備しておき、APIを介してIIIFに対応したビューワーで閲覧することで、異なる種類の画像、異なる場所に置かれている画像を自分のビューワー上で重ね合わせたり、ズームさせたり、画像処理を加えたり、あるいは該当箇所にアノテーション(注記)をつけて共有することができるようになる。これらの機能を使いこなして始めてIIIFの意義が出てくる、と言えそう。

こういった機能が重要視される背景に、西洋の図書事情だったり(西洋に限らず)研究の手法があるとのこと。綺麗な絵があると、図書から切り取って別途保存している例が多数あり、絵は別々の機関に保存されていることもある。また、同じ創作者の作品かどうかを同定するために、人の顔の部分だけをひたすら比較する必要があったりするため、美術系の研究者はコピーを取ってハサミで切って貼り付けて様式を研究したとか。。。

様々な機関に保存されている資料を集めるのは非常に困難なので、これをビューワー上で行えるようにするため考え出されたもの、と理解した。また、新しい技術をほぼ使っておらず、既存の技術とオープンソースの組み合わせで規格が実現できるため、ローコストであることも特徴、とのこと。

規格なので、出来るだけ多くの人がIIIFに沿って画像を公開すること、かつビューワー側も使いやすく様々な機能が提供されること、が普及のカギになると思われる。実例は沢山ありすぎて紹介しきれないが、個人的には井村さんのDrupal+IIIFの管理が面白そうに感じた。Drupalで画像のメタデータ管理(自前の検索用)、画像は別途のサーバにおいてIIIF対応させる、という手法。今度詳しく聞いてみたい。

4/20 "A Primer on the Certifications of a Trusted Digital Repository"メモ

 

先日参加した会議で、表題の記事を紹介された。

https://datascience.nih.gov/Trusted_Digital_Repository

※以前メモした記事の続きのような位置づけ。

11/24 「データリポジトリに求められる要件」記事メモ - みなみの備忘録

データの重要性が増すにつれ、インフラであるデジタルリポジトリの信頼性が問われているが、「信頼性」の基準はどう定められているか、を平易に解説したもの。評価軸は下記の4つで、

  • Organization
  • Management of intellectual entities and representations
  • Infrastructure
  • Security

この要素を含む認証基準が"Core", "Extended", "Formal"(Bronze, Silver, Goldとも)の3段階で紹介されている。先日メモしたWDS-DSAの基準は"Core"に位置づけられる模様。

# ISO基準の認証("Formal"に該当)だと$10,000も取られるらしい。。。

# これ認証欲しい場合ってどんなサービス展開になるんだろう。

また、4つ目のオプションという扱いで、アメリカ・カナダのCenter for Research Librariesが規定したTrustworthy Repositories Audit & Certification: Criteria and Checklist (TRAC)にも触れられている。

TRAC Metrics | CRL

日本でリポジトリの認証に関する議論は寡聞にしてまだ聞かないけれど、Coreレベルの実装は考えておかないと組織的なデータ保存は進まないかも、と思ったり思わなかったり。NIIの研究データ基盤構想に盛り込まれていると嬉しいけど、どうなんだろうか。

日本学術会議、第23期学術の大型研究計画に関するマスタープランを公開 電子ジャーナル・バックファイル等へのアクセス基盤整備、オープンサイエンス推進のための研究データ基盤について言及 | カレントアウェアネス・ポータル

5/18 日本学術会議フォーラム「危機に瀕する学術情報の現状とその将来」メモ

今日は日本学術会議で開催されたフォーラムへ。図書館外でジャーナルの購読料問題を真正面から扱ったものはあまり見たことがなく、斬新でした。

日本学術会議フォーラム「危機に瀕する学術情報の現状とその将来」

http://www.scj.go.jp/ja/event/pdf2/239-s-0518.pdf

フォーラムの報告は「学術の動向」9月号に掲載されるということなので、個人的に面白かった点だけ。

~~~~~

・講演:「学術誌の安定的・持続的アクセスに向けて」

NIIの安達先生。学術雑誌の高騰の話から、去年のSPARC Japanセミナーで尾城さんが喋られていたflippingの話が中心に。「ビッグディールで行き詰った現状を打開するには、ゲームチェンジしかない」と熱く語っておられた。

国際学術情報流通基盤整備事業 │ イベント情報 │ H28 │ 2016年度第1回「オープンアクセスへの道」

マクロな視点で見ると、現在の日本の購読料を全部OA料金に振り替えれば40%くらいお釣りがくる、とのことだが、当然赤字になる大学もあり各機関での調整はなかなか難しそう。分野の差も結構あるだろう、という点にも言及されていた。

また、個人的に気になったのは、Web of Scienceのデータ中心で計算しているところ。主要な出版社だけでもflippingできれば潮目が変わる、ということなんだろうが、各機関でどれだけの説得力を示せるのか、は正直分からなかった(研究評価と同じような問題?)。

 

・講演:「デジタル時代の科学出版:オープン、ネットワーク化、データ駆動」

Elsevier社のAnders Karlssonさん。講演自体は英語だったものの、日本語で挨拶されており、討論も日本語で参加されたり端々で好感が持てる。

始めの段階から驚いたのが、Elsevierはinformation "analytics" companyだった、ということ(当たり前?)。publisherがメインじゃなかったのか。。。

Elsevier | An Information Analytics Company | Empowering Knowledge

ご講演で印象に残った点としては、購読モデルとAPCモデルの差のお話。

Subscriptionは読者のためのモデル、APCは論文を発信するためのモデルなので、両者は根本的に異なる、併存させてゆっくりとscholarly communicationを変化させていくべきだ、という主張をされていた。確かに、論文を読む比率と書く比率は分野によって大分異なるはずで、論文が主要な成果物ではない研究者も沢山いる。他の登壇者も、やはりOAより研究の質の話を中心にされていた、ということも鑑みれば、完全なflippingはまだ先の話かも。。。

もう一つは、(Elsevierが描く)オープンサイエンスの図。研究のライフサイクルのフェーズごとに出版がなされる、ということで、既存のジャーナル、データジャーナルのほか、「材料と方法のジャーナル」、「ソフトウェアジャーナル」なるものが書かれていた。斬新。

実例はあるのか、と思って探してみたところ、何かそれっぽいものがあったので備忘的に。(注:見出しだけで中は見てないので信用しないでください)

www.journals.elsevier.com

www.journals.elsevier.com

その他、出版社版に50日間無料でリンクできる仕組み(Share link)とか、いろいろな工夫が窺えた。うーん、非常に優秀ですな。。。

3/23 音声レコーディングメモ

3月下旬、音声レコーディングに立ち会う機会がありました。

原稿を作成してプロの方に読んでもらうのだが、これがなかなか難しい。

次回(があるのか分からないが)のために備忘メモ。

・読み原稿はできるだけ短文にすること。一文が長いと(聞く側の都合だけではなく、読む側にとっても)分かりにくい。

・スライド付きの場合でも、喋りで補うのは最小限に。基本はスライドの記述をほぼそのまま読み上げてもらうくらいに作りこんでおく。聞き手のスタンスとして、今どこについて喋っているのか混乱する。

・表は細かく説明しない。後で見るときのポイントだけでよい。

・図は見方の流れを説明するように。ポンチ絵は出来るだけ避けよう。

・強調すべきポイント、特徴的な発音については、事前に読み原稿へ書いておくこと。自然な文章になるように練ってきてもらえる。

2/28 第4回オープンサイエンスデータ推進ワークショップ参加メモ(後編)


後編です。前編はこちら:http://minamin.hatenablog.jp/entry/2017/03/06/175853
4人目は京大の天野さんから、機関リポジトリ推進委員会で開発中のRDM(研究データ管理)トレーニングツール紹介。既に、

AXIES2016(https://axies.jp/ja/conf/conf2016/8r18v2/general-session

第3回SPARC Japanセミナー2016(http://www.nii.ac.jp/sparc/event/2016/pdf/20170214_8.pdf

で一部紹介されているが、アップデートも兼ねてとのこと。
RDMの中核要素を①RDMインフラ、②ヒューマンリソース、③組織体制、④コミュニティ、とした上で、研究支援職という立場から日本語で教材の提供を行いたい、というお話。MOOCで提供予定。
本ブログの中の人も開発に参加しているためコメントしづらいが、国内でのRDMの基礎(たたき台)となる資料はやっぱり必要で、こういった取り組みを元により多くの人が活動に参加してくれれば嬉しいところ。


5人目、こちらも京大の能勢先生からRDMの実践例。
データ取得と解析の具体的な事例紹介は非常に面白かった。1データセットにdoiを付与するまでにどれだけの手間がかかり、維持管理の心配もしなければならない、というくだりは実感が湧いた。
RDMは、一般の研究者にとっては無用な手間が増えるだけ」と思ってしまうのはもっともなので、研究者のみなさんがそう思ってしまう前に何とかしなければならないところ。
能勢先生からはデータ公開やRDMに対する評価体制の構築、利用が容易なシステム構築や図書館との連携などが対策案として挙げられていたが、意外にも(?)フロアの反応は違った角度からきていた。曰く、「初めからそういうものと思って学生に教育を進めるべきでは?」というもの。規範、慣習になる方向性。
確かに、まず取っつきやすいのはこれから研究者になる人だろうし、そこから潮目が変わることも十分に考えられる(そこまで社会的に待ってもらえるか、は別問題として)。
具体的な働きかけを考える際には意識しておきたい。


6人目、NIIの込山先生。NIIの研究データ管理基盤紹介。
研究公正とオープンサイエンスの両立、という問題意識から、既存の図書館員ではカバーできないと思われる、研究プロジェクトを対象としてフォローしたいとのこと。助成機関とも連携して進めており、まずlong tailデータを対象としつつ、Open Science FrameworkをNIIドメインにして開発中。
https://osf.io/
開発元のCenter of Open Scienceとも協働関係をきちんと築いており、NIIで開発したプラグインを提供している、のくだりは(継続性の観点で)結構重要に感じた。
現在は6機関(北大、名大、京大、九大、阪大、NII)で使い勝手のトライアル実施中とのことで、早い実装に大変期待。
なお本家との違いとして、公開基盤としては既にJAIRO Cloudがあるため、公開機能は削っているそう。あくまで非公開部分のデータを管理する基盤、という位置づけになるようだが、どっちがいいんだろうか??


7人目は極地研の門倉先生、極域環境データサイエンスセンターの紹介。
来年度から情報・システム研究機構内で立ち上がるデータサイエンス共同利用基盤施設のうち、極域環境データサイエンスセンターの紹介。ちなみにセンターは現在6つある様子。
https://ds.rois.ac.jp/
極地研の中のデータベースは沢山あるが、各々の分野限定であることや公開の進み方にばらつきがあり、マンパワー、ハードウェア、ソフトウェアのリソースも様々である、という問題意識から、総合的な検索・可視化・解析システムの設計・構築がしたい、という目標のお話だった。最近のトピックであるデータジャーナルの紹介はさらっと流していたが、質問はそこに向かってしまう。。。
https://pdr.repo.nii.ac.jp/
内容は予算の取り方的なお話だったので割愛するが、関心度の高さがうかがえた。


8人目はBernd Ritschelさん、超高層科学分野でのLOD vocabularyについて。
SPASEのメタデータスキーマをSKOS形式に変換するために、vocabularyの整備を行っているとのこと。
http://www.spase-group.org/
※去年、なぜかJAIRO Cloudにこのスキーマ名が搭載されていて驚いた。実装された訳ではなかったみたいだけども。。。
IUGONET、ESPAS、GFZ ISDCといった関連分野のスキーマを統合したいとのことだが、わざわざLODを使う理由が良く分からなかった(ので質問してみたけれど、やっぱり良く分からなかった)。
新しい技術を試すのは有意義だと思うけれども、これだけ分野が近いんだから直接マッピングしたほうが早いし定義のずれも最小限で済むのでは、というのが正直な感想。


9人目はJSTの小賀坂さん、JSTにおけるオープンサイエンス対応。講演部分はこれで最後。
2/14のSPARC Japanセミナーと同じ内容、という前置きで話されたが、
http://www.nii.ac.jp/sparc/event/2016/20170214.html
最後のほうにJST未来社会創造事業の紹介が増えていた。公募テーマ、領域を研究者と一緒に作っていく新たな取組みとのこと。
前回も気になったPID switchboard Japan(次期JaLCシステム構想)がどういう構想のものなのか、についてはやっぱり分からず。
THORとはどう違うんだろう。


最後にNISTEPの林さん、まとめコメント。毎回その場で一日の全体像を振り返りつつメッセージにまとめる、という達人芸を披露されているが、今回はさらに全て英語で行うという離れ業。
Data sharingの文化を醸成していくことによってData drivenな研究を進めたい、では現在とのギャップをどう埋めるのか、という視点で話をされていた(と理解した)。
印象に残ったのは、「あったらいいね(may-have services)」ではなく「なくてはならない(must-have services)」を作ることが重要、というメッセージ。今回の講演からは、collaborate and co-designがキーワードの一つと言えそう、とのことだった(ここは少々聞き取りが怪しいかも)。
図書館絡みでも既に事例はいくつか出てきてはいるので、来年度の展開に期待したい。