みなみの備忘録

とあるライブラリアンの備忘録です。

7/24 データの推奨フォーマットに関するメモ

リポジトリのデータ保存ポリシー作成の一環として、データを搭載する際の推奨フォーマットについて調べたのでメモ。

概論

File formats and standards - Digital Preservation Handbook

Digital Preservation Coalition (DPC) が提供するハンドブックより。流石に詳しい。内容の種別ごとに組織化した上で、保存する際に留意すべきポイント(対象のフォーマット、オープンソースの可否、文書化・標準化、メタデータ等)を逐次まとめてある。また、マイグレーション等で使用する際のツールやユースケースにも触れられており、適当に抜き出していくだけで自機関のものが作れそう。

 

国レベル?でのまとめ

Recommended Formats Statement – table of contents | Resources (Preservation, Library of Congress)

Library of Congressによる推奨フォーマットのステートメント。コンテンツの種類別で7章に分かれ、"print"、"digital"ほか媒体ごとに提供されている。非常に詳細。

 

https://www.ukdataservice.ac.uk/manage-data/format/recommended-formats

UK Data Serviceによる推奨フォーマットまとめ。こちらはLCに比べれば大雑把な種別だが、"Acceptable formats"を提供しているのが面白い。

 

電子情報の長期利用保証に関する調査研究|国立国会図書館-National Diet Library

国立国会図書館提供。他のまとめと異なりHTMLでは提供されていないようだが、調査研究・報告書(平成18年度~平成22年度)に近しいまとめがあった。なお、ウェブサイトの保存だけは別枠:

13.保存用ファイルフォーマット WARC | ウェブアーカイブのしくみ|国立国会図書館インターネット資料収集保存事業

 

 各機関が提供する推奨フォーマット情報

File Format Recommendations: Libraries - Northwestern University

Best practices for file formats | Stanford Libraries

書きやすそう、と感じたものを絞ったらアメリカの事例だけに・・・

StanfordのほうはLCの記述を引用して済ませており、非常にコンパクトな印象。

 

ファイルフォーマットのレジストリ

・PRONOM | Welcome

UKのNational Archivesが提供するファイルフォーマットのレジストリ。後述のDROIDと親和性がある模様(あまり詳しくは調べてない)。

 

MIME Type

https://www.iana.org/assignments/media-types/media-types.xhtml

Internet Assigned Numbers Authority (IANA) が提供するMedia Typeリスト。JPCOAR schemaのファイルフォーマットはこちらを推奨している。

フォーマット | JPCOARスキーマガイドライン

 

関連ツール

File profiling tool (DROID) - The National Archives

ファイルフォーマットの識別ツール。UKのNational Archivesから無料で提供されている。

 

JHOVE | JSTOR/Harvard Object Validation Environment

こちらはオープンソースのもの。DROIDのソースを一部で利用している様子。
~~~~~

まだまだありそうだけど、とりあえず。
あと個人的に検討すべき課題としては、推奨フォーマットのリストを外部に提示する際に、リポジトリのキュレーション基準と結びつけるべきかどうか、が残っている。

リストを提示したとして、データ登録者の選択を尊重してそのまま登録するのを許可するのか、推奨フォーマットでの登録を促すのかはまだ決めきれない。
将来的なマイグレーションのタイミングで行えれば良いのだろうけど、労力を考えると微妙。。。
ごく最近の取り組みで、Wellcome Trust財団とSpringer Natureによる出版物に紐づくデータ共有のパイロットがあるけれども、

blog.wellcomeopenresearch.org


共有の段階からどの程度を求めるのか、に対する一つの指標になりそう。注目しておきたい。