みなみの備忘録

とあるライブラリアンの備忘録です。

2019/9/1 転職しました。

1年も経たずにこのタイトルで記事を書くことになろうとは。とはいえ、職場ブログでも既に挨拶文を書いてしまったので、自分用にも忘れないうちに書き留めておきます。

=====

そもそもの再転職の契機は大学院への進学が具体化したこと。もともとうっすら希望はあったものの、自分は何を研究したいのか、突き詰めたいのかがいまいち見えていなかった。とあるイベントの際に某先生とお話していた際、「希望があるなら相談に乗るよ」と言ってもらったことがきっかけで、3月頃にまずは自分の活動予定をまとめ、見てもらいながら構想を練っていく。その作業が存外に楽しく、また今後のキャリア展開に方向性を模索していたこともあり、何とか形にして試してみたいという気に。

これまた某先生の計らいで指導教官になっていただける方も見つかり、10月入学を目標に急ピッチで準備開始。家庭内の決裁(?)は下りたものの、ラボの立ち上げ時ということもあり、職場の決裁がかなり厳しい見通しだった。データライブラリアン職には思い入れもあり、採用いただいた上司にも相談したり結構悩んだ記憶が・・・

そんな中、これまた某先生からの伝手で、現職の募集を知ることに(もはや某先生の厚意には頭が上がりません・・・)。1年も経たない中での決断になったものの、これまで悩んできた経緯もあり、求める研究支援職は転職先の上長と一緒なら作れる気もする、ということで、割とすんなり応募自体は決められた。面接のタイミングで、大学院に行きながら働かせてくれ、という要望を通してくれた皆様には本当に感謝です。

=====

さて、何で博士がとりたくなったのか。前々職の大学図書館では感じなかった肩書の重みは、前職の様々な場面で感じました。特に、データ専門職の認知度が極めて低い現状では、自分が出来ることを思うように伝えられない機会も多く、「図書館での実績」への認識はさらに低い(残念ながら)。第三者としての研究支援職を確立するスタートに立つためには、まず研究者と同じ立ち位置にいく必要がある、が現在の考えです。まあ自分に到達できる能力があるのか、という視点が構想に含まれていない欠点はありますが・・・ともあれ、出来るところまで頑張ろうと思います。

データライブラリアン業務の私的中間整理

 いろいろ一区切りつきそうなので、データライブラリアンについての私的中間整理。下記のほか、
https://b.hatena.ne.jp/y_minami/data%20librarian/
某所による調査報告書、各種セミナーやワークショップ参加記録も参照(とりあえず列挙はしない)。
 働き始めてからも、結局データライブラリアンは何をするのか、しないのかの境界が良く分からずにいたので、何とか自分の方針を立てたいというのが本記事の動機です。
=====
 上記にもある文献を見ていくと、「データライブラリアン」の名のもとにおよそデータに関わる仕事が雑多に集められている様子(国内開催のセッションやワークショップに参加した感想も大体同じ)。このままでは収拾が付かないので、データライブラリアン≒データライブラリーで働く人、としてコレクションに紐づけてとりあえず考えることにする。そうすると、実務レベルでは
①コレクション管理
②窓口サービス(≒レファレンス)
の視点から業務が組み立てられるので、一応これに沿って検討。

~~~~~~

①コレクション管理
 いわゆるデータ管理業務に相当。オープンサイエンスの文脈で重要度が増し、分野横断的に要求が集まりつつある。多分専門分野の知識よりも事務能力のほうが重要。
 既存の業務の延長で考えると、収集指針に沿って集められたデータを
1) 寄託先のリポジトリ決定
2) データの破損チェック、フォーマット変換
3) メタデータ作成
4) ライセンスの設定
5) Accession No.(+PID)の付与
6) 公開
の手順で行っている(もちろん実際はもっと細かいが、大体のプロセスとして)。1) によって実質的に2)~4) は選択肢が制限されてしまうため、研究者の導線に沿った形で、どこに保存されるのが望ましいのかを分野別に考える必要がある。お手軽に選べる基準というかガイドラインが欲しいところ(今のところ一番近いのはDataCiteのRepository Finderか?)

https://repositoryfinder.datacite.org/
 また、業務体系としては「データマネジメント知識体系ガイド(DAMA-DMBOK)」が今のところ一番網羅的に思えるが、実務レベルに落とし込むにはもう少しアカデミア向けに寄せる必要がありそう。

 

②窓口サービス(≒レファレンス)
 データのレファレンスの場面では、どうやら何らかの知見を引き出す手前までを求められている様子。当初は社会科学系を中心にこういった役割が認知されており、最近になって徐々に広まったのではと思っている(聞き及ぶ話の中で社会科学系が一番古かっただけで、根拠はまだ探してない)。こっちは分野別の知識がある程度大事。
 ナビゲート対象としては、
1) データ所在(→ 自前のデータリポジトリのほか、データ交換などしているリポジトリを中心に。その他探すポイントや視点、検索プロセス、ツール)
2) ソフトウェア(→ 分野でよく使われる種類と使い方支援)
3) 解析手法(→ 分析コードや分析スキルを持つ人の紹介)
となるか。研究分野ごとによく使われるものに特化していく必要はあるものの、データの発見・処理プロセスの概念図や、データ解析にありがちなミスは標準的な前提として紹介できると良いかも。

KDD Process/Overview

Common Data Mistakes to Avoid | Geckoboard

 

 さて、こういった実務レベルを踏まえると、研究管理計画支援だとかデータポリシーの話は「③責任者に期待される役割」として位置付けられそう。
・基本的なデータ管理方法の案内(研究管理計画への支援)
・データポリシー制定(収集+組織化方針)
・各フェーズでのマニュアル・ガイドライン制定(ライブラリーがやること、外部に出すべきこと)

~~~~~
 ということで、「データライブラリアン」業務をざっくり整理してみました。暫定的な結論としては、異なるスキルを持つ担当者が最低2人必要そう、という感じか(責任者は一旦置いておく)。この整理が適切かどうか、を見ていく上で、さらに一歩進めて実装が可能かどうかも一応考える。まだ妄想レベルなので今後違うこと書いてもご容赦ください。。。
 日本において、①と②はどちらも研究室レベルで独自に行われてきているので、即戦力としては実質的に業務を担ってきた大学院生やポスドクだろう。業務の標準化、という点で既存のリポジトリ担当者(データリポジトリ、機関リポジトリ)をアサインしつつ、リポジトリ運営部署にリサーチ・アシスタントを配置(あるいは集約)し、「データライブラリアン」の名前をつければ認知度的にも良さそう。
 ③実務レベルを超えた責任者としての役割は職員が担うべきだが、分野固有の知識もないと厳しい場面も多い。②のサービスを経験したRAがURAとして担当すると既存の枠組みとしては良さそうに思えるが、実態としてURAがデータリポジトリに関わる場面をあまり見ておらず、結構距離があるものと予想(というか興味ない方が多いのかも・・・)。図書館に開発室が併設されているような大学であれば、RA→図書館付き専門職員などのキャリアパスが示せると担い手も現れそうな気がするけれども、どうだろうか(そして自分的にそこを目指して良いのかどうか??)

6/21 日本データベース学会セミナー参加メモ

日本データベース学会が主催したセミナー「アカデミアや企業における研究開発のためのデータの収集・提供・利用」@お茶大に参加しました。

http://db-event.jpn.org/dbsj2019/%E6%8B%9B%E5%BE%85%E8%AC%9B%E6%BC%94/

同日のJ-STAGEセミナーに参加できず悲しい気持ちになっていたところに、急遽前日になって飛び込んできたお話。現在進行形で非常にありがたいテーマ。
=====
 本テーマは連続講義の予定で、初回となる本セミナーでは研究開発におけるデータの収集・提供・利用の流れを概観したうえで、データの収集方法や研究開発方法は適切かどうか、研究成果は誰がどのように利用できるのか、を考える上での法的枠組みの解説を行うとのこと。何でも去年から喜連川先生が学会の会長に就任したとのことで、冒頭でデータにまつわる法的枠組みの複雑さについて言及。データベース学会で?と思っていたが、このテーマ設定に妙に納得してしまった。
 さて、ご講演の内容について。データ収集の場面における規制は、データの種類及びデータの取得方法から判断することが可能であり、

i) 法律による規制

ii) 契約による規制

iii) 法律+契約による規制

の3パターンがありうるとのことで(スライドでは iv) 規制なし を含めた4パターン)、対象となる法律は知的財産法(特に特許と著作権)、不正競争防止法、にほぼ限定できるとのこと。
 データの種類について明確なカテゴリ分けはなかった(と思った)が、画像データや機械学習の際の学習用データなどが例として挙げられていた。ケースバイケース、という意味なんだろう。また、データの取得方法については1) 自分で取得、2) 契約によって取得、3) 契約以外によって取得、などの区分が挙げられていた(ここちょっと曖昧)が、この問題は結局のところ契約の有無に帰結する様子。「学習用データを作成するために、前処理としてコピーガードを外してよいか?」など、具体的な事例に基づいた解説は大変勉強になった。

~~~~~~

 後半では、データを用いた研究成果は誰がどのように利用できるのかについての解説。データを利用した研究成果を①データ、②データベース、③プログラム、④パラメータ、⑤ノウハウ、の5種類に分け、

研究成果 = 知的財産 → 知的財産権の対象となる知的財産 or 知的財産権の対象とならない知的財産
対象になるもの:法律が適用される   対象にならないもの:契約で縛る必要あり

という整理が示されていた(あの表はどこかで公開されて欲しい)。「知的財産権の対象とならない知的財産」としては、特許を取得していないアイディアなど。事実データ以外にも保護をきちんと考えるべき対象がありましたね・・・
法的保護があるものはそれで良しとして、契約によって規制の上書きが(ほぼ完全に)出来ることが明確になった点は個人的な収穫。契約によって法的枠組みを変更する際の良くあるパターンとしては、
知財権の譲渡(有償)
・ライセンス(独占・非独占
・発生しない知的財産(データ・データベース・パラメータ・ノウハウ等)
の3パターンとのこと。秘密保持契約書とかだと利用範囲や利用期間を縛ることも良く書かれているようなので、

参考:経産省サイト 営業秘密~営業秘密を守り活用する~
https://www.meti.go.jp/policy/economy/chizai/chiteki/trade-secret.html
素人視点ではデータの種別から判断して使い分けるよりも、法的保護のある/なしに関わらず、すべてオーバーレイする気持ちで契約書を作っておくと安心だろう。

=====

所感。研究データに特化されてはいないものの、相当に近い位置で法的権利関係が整理されたのは寡聞にして初めて。大変勉強になった。研究データの場合はどうか、と思い、先日のライセンスセッションで出たような質問をしてみたが、

https://minamin.hatenablog.jp/entry/2019/05/30/235307

想定するデータ像に齟齬があったようで、残念ながらうまくかみ合わなかった(ので窘められてしまった。。。)。個別の研究の実態に合わせた形での整理はやっぱりまだまだ必要なんだろう。

5/27 JOSS2019 ライセンス小委員会セッションメモ

久々のメモ。今年もご縁があり、JOSS2019の企画を担当させていただきました。 

http://joss.rcos.nii.ac.jp/session/0527/

前回:6/18 ライセンス検討小委員会セッションメモ - みなみの備忘録

今回のセッションは、小委員会で作成したガイドライン草案をたたき台に様々な状況下でのデータの利用条件を議論しよう、という趣旨でした。前回よりも実務に近づいた分、非常に具体的なケースからのコメントを多くいただきつつ、「研究データ」の定義やデータポリシーとの関係(ライセンスで制御すべきか否か)といった枠組みにも立ち返って議論がなされた印象。個人的には大変面白かった(聴衆の方々の意向と離れていたら申し訳ないが・・)。
例によって各登壇者のスライドやセッションまとめは後日公開予定なので、ここでは個人的にポイントだった部分を掘り下げる感じで。ほとんど自分用のメモなので、読みづらいと思いますがご容赦を。

=====

公開/非公開
- データの公開/非公開の境目の判断
登壇者のコメントは、多くがここに重点が置かれていた印象。明言された訳ではなかったものの、やはり窓口及び水際管理をする部署は必須、という共通理解ができつつあるように感じた。現在共有・公開されているデータは、言ってみればコミュニティによる認証(や圧力?)が中心となって進んできた面があり、個別判断を個人に負わせるのは(ガイドラインがあっても)やはり難しい。ガイドラインは窓口・管理担当者の手引書に位置付けていくのが無難かも(もちろん研究者側にやってほしいことは別途抽出していく必要はあるが)。
そのうえで、権利問題がクリアにしやすいこと、条件表示の書き方や問い合わせ対応も含めて豊富な事例があること、が実務的にはカギになりそう。(あとはデータを出してはいけないリポジトリリスト(仮)。いつか見たい。)


- データの種別
取り扱う対象のデータについては、議論の展開も鑑みると
1) 公開が推奨/義務化されるもの(DMPに記載あり、論文のエビデンスデータなど)
2) 公開するとメリットが得られるもの(アクセス数、引用数等)
を仕分ける必要がありそう。スタンスの違いによる議論のずれが、ディスカッションではやや気になった。

 

- エンバーゴ
後はエンバーゴ期間か。「公開しないデータを保存することはあり得ない」という視点から、「廃棄」の選択肢が明確に現れたのにはハッとした。こういう観点でも、アーカイブ資料と同一に考えられるんですね。

 

利用条件
- 多様性
利用条件については、改めて多様な要望があることを認識。「公開」フェーズではデータの性質に依存する面が大きいが、「共有」フェーズで寄託者の意向が強く反映され、それがそのまま公開に持ち越される、が現在の理解。「研究利用」に限定すればある程度は絞れるかもしれないが、教育に使いたい、経済的価値が出てきた、などの要望も研究と不可分なので悩ましい。。。そもそも寄託者にコンタクトが出来なくなった問題も。実態ベースでの整理がやっぱり必要。これは別枠で何とかしよう。

 

- フィードバック
コメントにもあったフィードバックの要望については、後日に某氏と議論した結果出てきたアナロジー※により、「ライセンスの対象にしないほうがよい」という確信を得る。データは公開としても、再利用にはいずれにせよメタデータやデータペーパーによる補完が必要となるはず。そちらの情報をコントロールする方向でフィードバック問題には対応すると良いのでは。


- データポリシーとの関係性
データの公開/非公開や利用条件はコミュニティによる影響を強く受け、それがデータポリシーにも反映してくる。コミュニティの意向が明確な分野であれば個別のライセンスは不要になるだろうし、幅がある(というか関心が薄い)分野であれば個別ライセンスの意義が大きくなる。そのグラデーションをうまく区切っていくのがガイドラインの役割になる・・・かな。

=====

感想。昨年から何回かの公開議論を経て、「分野の事情」といった大雑把な括りから、もう少し深く考えられるようになった気がする。寄託者の要求も基本的にはデータが活用されることによって応えられると考えれば、もうちょっと共有段階から落とし込むべきなんだろう。ただ、公開の議論と共有の議論、近しいようで関係者のモチベーションが大分違うんですよね。。。

 

※BBSのキリ番コメント強制。あるいは、「本命チョコはルールで縛ってもらえるものじゃない」

2/18 RDUF総会及び公開シンポジウムメモ

こちらも大分遅くなりました。2/18に開催されたRDUF総会及び公開シンポジウム@JSTの参加メモ。

イベント | 研究データ利活用協議会 RDUF (Research Data Utilization Forum)

資料は後日ウェブサイトで公開されるはずなので、例によって気になった発表のメモを。

=====

1.RDUF総会(13:15~14:15)

会員からの活動報告として、以下5点の報告があった。

 

1) 海洋研究開発機構JAMSTEC

 データへのDOI管理システムを構築するため、研究者へのアンケート調査を通じ、関連システム機能の強化及びDOI付与ガイドラインの整備を行っているとのこと。アンケートではデータの更新頻度だけではなく、データ保存のミラー状況も聞いたとか・・・各研究者の意識の高さが窺われる。

 

2) 高輝度光科学研究センター(Spring-8
 オープンデータへの参画促進のため、Spring-8内で公開データ、アクセス制限付きのデータを統合的に管理し、ユーザーへWeb UI及びスクリプト処理によるデータ取得を提供する予定とのこと。公開用のデータにはオープンデータへのリンクを含めており、外部ウェブサイトとの連携を志向。オープンデータのメタデータも収集対象にしているところはウェブ的で面白い。データリポジトリは選別された情報の収集に価値があると思う。

 

3) 科学技術・学術政策研究所(NISTEP)
 統合イノベーション戦略の施策へのRDUF活動実装に関する取り組みが紹介された。各小委員会の活動を実装するための道筋整備が今後の課題とのこと。

 

4) 東洋大学(芦野氏)
 こちらは機関としての取り組みではなく、個人の活動成果。CODATA Working Groupにおける活動として、Responsible Research Data Management (RRDM)のほか、社会科学データへの展開を見据えた議論が紹介された。CODATAでも、データポリシーやデータサイテーションに関する議論が重みを増してきているとのこと。しかし、FAIRもそうだが(FAIRerとか)、派生語が多すぎてついていけてない・・・そのうち集約されることに期待(人任せ)。

 

5) 名古屋大学(能勢氏)
 こちらも4) 同様、個人の活動成果。太陽地球科学分野におけるデータ引用の取り組みとして、学会誌でのデータDOIの認知・受容状況に関する報告があった。データへのDOI付与自体は概ね査読者に受け入れられているが、書式の違いやDOIの表示形式につき同一の分野内でも揺れが生じている状況とのこと。そういえば、最近読んだ政治学系のレビュー論文(doi:10.1017/S0003055418000801)でもdataverseへのdoiリンクを発見した。データ公開の文化があるところでは割と当たり前に受容されつつあるんだろうか。

 

2.公開シンポジウム(14:30~18:00)

公開シンポジウムは招待講演のほか、既存の小委員会の活動報告及び新規小委員会の紹介など。100人以上はいたはず。

 

1) 招待講演
 弘前大学の村下氏による、医療情報の活用に関するCOIプロジェクトの紹介があった。大学サイド主導の企画のもと、企業が持つ健康に関するデータを利活用可能な形で取得し、地域にも還元していく枠組みとのことで、およそ大学っぽくない(注:称賛です)交渉や駆け引きの一端を垣間見た。質疑応答では、データの公開ポリシーや社会ステークホルダーの巻き込み方、他企業の関係などポリシー面での実情が中心。
 この事例でもそうだが、産業でのデータ流通の場面においては、データを提供したり、共有したりする各フェーズで必ず対価が求められる(成果のフィードバック、金銭の提供など)。提供条件の「相場」を定めていくことも重要だが、最終的にOpen by Defaultを目指す研究機関との隔たりはそれなりに大きく、何らかの形で対等な関係にならないとオープンなデータ提供は進みそうにない、というのが感想。Openの範疇で要求しうる「対価」はクレジットだけなので、まずはデータ引用の文化が重要としても、加工・公開コストの問題は残っている。恐らく個別のデータ提供条件の整備では解決せず、オープンデータを推進する大学/研究機関への寄附だとか助成機関からの補助金交付だとか、より広い文脈でサイクルを回す解決策にならざるを得ないのだろう、とは勝手な憶測。

 

2) 平成30年度小委員会活動報告
 既存の小委員会(データ管理計画、ライセンス、リポジトリ)の活動報告。報告にも関わらず、各40分(報告30分+質疑10分)の長丁場。自分も何とか担当部分の報告を終えた(残務が終わった訳ではない)。ご質問くださった方どうもありがとうございます。

 このテーマ(ライセンス)、図らずも産業界の方からの反響が大きく、研究データ利活用に関心のある人はむしろ学術コミュニティ外に多いことを実感した次第。来年度も継続できると良いな。

"Data Discovery Paradigms: User Requirements and Recommendations for Data Repositories"感想

Data Science JournalのRDA results特集に、下記の研究論文が掲載されていた。

Data Discovery Paradigms: User Requirements and Recommendations for Data Repositories

本稿ではRDA Data Discovery Paradigms IGの活動成果として、データ発見、検索面からのデータリポジトリへの推奨要件をまとめている、とのこと。まとめ方は「定性的な分析をもとに、経験則による評価と専門家によるレビューを受けた」とある。微妙にデータっぽくない(?)気がしなくもないが、まあそれはさておき、79のユースケースを収集して10の要件を抽出したとのことで、ざっくりとまとめてみる。誤解や見当違いはご容赦を。

=====

1.Introduction

FAIRデータ原則の紹介に始まり、データの発見可能性を高めることの重要さが書かれている。データリポジトリがデータ発見をどのように支援するのか、という点の標準的な理解を得ること、特に横断的な基準を明確にすることが目的の様子。W3CのWGによる先行研究をもとにしつつ、

Data on the Web Best Practices

データ検索に関するユースケースを分析し、開発者だけではなくリポジトリ管理者や研究者向けに役立つ基準作りを目指した、とある。

 

2.Case Study Methodology

ケーススタディの収集先としては、Jiscほか4つのサイトから収集。インタビュー結果などの情報が点在していたものの、(当然ながら?)フォーマットはバラバラだったので、"open interview format"に従ってまとめ直したとのこと。

# googleでちょっと検索した限りでは"open interview format"なる規格のページは

# 見当たらなかったけれども、特に引用もされていないのでそういうものなのだろうか

# (知識不足の可能性は大いにある)。

上記サイトからは64のユースケースが集まったものの、中を見たらほとんどが「研究者」にフォーカスされたものだったそうで、より多様性を求めてALAやACRLなど、図書館系のサイトから追加収集を試みた。結果、追加で15のユースケースが集まり、合わせて射程をlibrarianとfunderまで拡張することにした、とのこと。
さて、集まったデータに前処理(語彙の統制など)を加えつつ、

1) データ発見に関連すること

2) データ利用者に関連すること

の観点から分析したところ、24の用語に集約できた。さらに大カテゴリとして"metadata"、"portal functionality"、"data"(注:"data"は「その他」に近い)の3つに分け、要件を整理した。そのうえで、用語ごとに"requirement"のまとめを抽出しつつ、「誰向けの要件か」という視点を加えて「9つの要件(REQ)」に再整理。(このあたり、かなり作業間の関係性がややこしい)

(9つの要件:訳は試案)
REQ 1. データ可用性(Availability)の表示
REQ 2. 人/機関/論文/引用/助成金とのデータの関連
REQ 3. 完全な注釈付きのデータ(粒度、出所(origin)、ライセンス、来歴(provenance)、作製方法、ダウンロード回数など)
REQ 4. 特定の基準に基づき、同時に複数のフィールドのデータをフィルタリングする(リリース日、地域情報、テキストコンテンツ、日付範囲、特定のイベントなど)
REQ 5. データの相互参照(同じリポジトリ/異なるリポジトリ
REQ 6. ビジュアル分析/データ検査/サムネイルのプレビュー
REQ 7. 共同作業環境におけるデータの共有(データセット全体、特定のレコード、または書誌情報)
REQ 8. 付随する教材(educational/training material)
REQ 9. 他の確立された学術ポータルと同様のポータル機能

要件の使い方としては、1) データサービスのポータルを構築・実装するうえでのチェックリスト、2) 既存のデータディスカバリサービスの機能改善、3) ユーザー視点でのパラダイム構築(の事例?)、が挙げられている。

 

3.Recommendations to data repositories on data discovery
さて、9つの要件を実現するための提言(Recommendation)として、FAIRデータ原則を引きつつ以下10個が提示されている。順番には特に意味はないとのこと。個別の紹介は長いので省略・・・機会があれば。

(10の提言:訳は試案)
REC 1. さまざまなデータ検索行動に対応するためのクエリインターフェイスを提供する
REC 2. データを検索するための複数のアクセスポイントを提供する(例:検索、件名閲覧、ファセット閲覧/フィルタリング)
REC 3. 研究者が検索サマリからデータコレクションの関連性、アクセシビリティ、および再利用性を判断しやすくする
REC 4. 個々のメタデータレコードを読みやすく、分析しやすくする
REC 5. 書誌参照(bibliographic reference)の共有とダウンロードを有効にする
REC 6. 利用統計を公開する
REC 7. 他のリポジトリとの一貫性を保つように努める
REC 8. 同じデータオブジェクトを記述するメタデータレコードを識別して集計する
REC 9. 主要なWeb検索エンジンによるメタデータレコードの索引付け(indexing)と検索を容易にする
REC10. 相互運用性のために、API検索標準とコミュニティで採用されている語彙に従う

 

4.Discussion and conclusion
主として、10の提言の射程と限界について考察されている(と理解した)。いくつかはデータリポジトリ特有のものではなく、検索システム一般向けのものも混ざっている(REQ4、REQ8、REQ9あたり)。それ以外はデータリポジトリ寄りだが、もちろん改善の実際はこの提言の範疇だけではなく、より特定のユーザーコミュニティに沿った形はありうるだろう、等々。

=====
全体の感想。主として開発者向け、ということで要件がまとめられたのはまず分かりやすくて良い。欲を言えば、データリポジトリの利用者はまず分野の研究者になるはずなので、そこにもう少し踏み込んで欲しかった(というのは求めすぎだろうか)。あと、リポジトリの機能実装を考える上で、検索サービスだけに特化した提言はなかなか参照しづらいかも・・・CoreTrustSealの一部とかになってくれると良い気がするが、連携はあるのだろうか。この辺は今後の活動に期待したい。

1/30 「オープンデータと大学」シンポジウムメモ

2月があっという間に過ぎて行った。。。いろいろ書いておくべきことがあるけれども、まずは前回積み残しのものから。

シンポジウム「オープンデータと大学」 | 九州大学大学院統合新領域学府ライブラリーサイエンス専攻

1月末に九大図書館で開催されたシンポジウムに登壇させていただきました。他の方々の講演内容はスライドが公開(※)されていたり、ライブラリーサイエンス専攻の年報に掲載されたりするらしいのでそちらに譲るとして(というか皆さんの資料以上のことは特に書けない)、ディスカッションで印象に残ったことのメモ(+後で考えたこと)を。

※なお、公開スライドはわざわざ自分だけCC-BYにしてもらいました(アピール)

~~~~~

・オープンデータの進め方

→ オープンデータを進めるに当たっては学内での協力を当然求めていくことになるが、変にインセンティブを出すと反発が起きかねないかも、という懸念(という趣旨と理解した)。

 → データは、誰に向き合うのかによって公開可否やアピールポイントが異なってくるので、場合分けして議論を詰めていく必要あり。大学院生にはこれから当然になりつつある流儀として伝えていくべきだろうし、経営層にはオープン化が大学の競争力を削ぐものではなく、むしろ研究者に魅力的な環境を提供する基盤があることをアピールできるものとして伝えていく必要があるだろう。

 

・大学評価とオープンデータ(あるいはオープンサイエンス)

→ オープン化の指標が必要では、という問いを含んだものとして理解。個人的には、オープン化の度合いが大学評価に組み込まれることには抵抗感がある。というのも、データは産業的な価値から公開可否が決まる面があり、あまり使われないデータはよりオープンに向かう(ことで存在意義をアピールする必要がある)が、閾値を超えると逆に囲い込みの対象となってしまう。大学評価の観点では、クローズであっても良い研究や産学連携に繋がるのであれば歓迎だろう。デジタルアーカイブの文脈では評価もセットで検討されているようだが、

 

我が国におけるデジタルアーカイブ推進の方向性

https://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_kyougikai/houkokusho.pdf

 

このあたりは公共オープンデータや既に法的期限切れのデータと分けて考える必要がある、との認識は変わっていない。その意味では、大学や研究機関の公共性は「競争力(特に国際的な)」で制限される、という言い方ができるかもしれない。

 

・「大学」自体のオープンデータについて

→ 大学はオープン化の潮流に対して何をするのか、という問題意識。もちろん、公共機関としての大学データ公開は、文書管理の問題として現れてくる。大学の社会的責任を果たす上で文書オープン化は有効だが大概の場合お金は付いていないので、そこに資金を集めるための方策が必要。勝手な思いつきとしては、市民に向けたデータを公開するためなので、クラウドファンディングも選択肢になるのでは、と思ったり。大学の元関係者(友の会的な)からの出資が見込めるかも。

 

・専門家養成のシステムについて

→ データの専門家が必要か、という問いに対してはもちろんyesだが、養成システムが必要かどうか、(改めて考えると)悩ましい。当日のスライドとはやや違った方向性になるが、というのも、養成システムは既に各所にあって(例えばSE関係の研修)、単にその技能を持つ人たちに職が開かれていないだけ、と思い始めている。大学内でも、職に魅力があればやりたいと思っている人材はいるだろうし、自分でスキルを身に着けてくる人もいるだろう。足りないのはポジションだけなのでは、というのは行き過ぎだろうか。

~~~~~

今回のディスカッションの反省。実のところ、「自分たちがなぜ推進すべきなのか」という問題に対して「説明責任」だとか社会の潮流の観点でしかうまく説明できなかった。ほとんどの場合、大学/研究機関にとってオープン化はまだ「外部のため」でしかないのは薄々感じていて、自分ごとに引き付けるために必要な、オープン化を進めることで自機関に何かが返ってきたり、自機関の研究者に資すると言い切れるポイントが具体化しづらい。うーん、何かないですかね。