7/24 データの推奨フォーマットに関するメモ
リポジトリのデータ保存ポリシー作成の一環として、データを搭載する際の推奨フォーマットについて調べたのでメモ。
概論
File formats and standards - Digital Preservation Handbook
Digital Preservation Coalition (DPC) が提供するハンドブックより。流石に詳しい。内容の種別ごとに組織化した上で、保存する際に留意すべきポイント(対象のフォーマット、オープンソースの可否、文書化・標準化、メタデータ等)を逐次まとめてある。また、マイグレーション等で使用する際のツールやユースケースにも触れられており、適当に抜き出していくだけで自機関のものが作れそう。
国レベル?でのまとめ
Recommended Formats Statement – table of contents | Resources (Preservation, Library of Congress)
Library of Congressによる推奨フォーマットのステートメント。コンテンツの種類別で7章に分かれ、"print"、"digital"ほか媒体ごとに提供されている。非常に詳細。
https://www.ukdataservice.ac.uk/manage-data/format/recommended-formats
UK Data Serviceによる推奨フォーマットまとめ。こちらはLCに比べれば大雑把な種別だが、"Acceptable formats"を提供しているのが面白い。
電子情報の長期利用保証に関する調査研究|国立国会図書館-National Diet Library
国立国会図書館提供。他のまとめと異なりHTMLでは提供されていないようだが、調査研究・報告書(平成18年度~平成22年度)に近しいまとめがあった。なお、ウェブサイトの保存だけは別枠:
13.保存用ファイルフォーマット WARC | ウェブアーカイブのしくみ|国立国会図書館インターネット資料収集保存事業
各機関が提供する推奨フォーマット情報
File Format Recommendations: Libraries - Northwestern University
Best practices for file formats | Stanford Libraries
書きやすそう、と感じたものを絞ったらアメリカの事例だけに・・・
StanfordのほうはLCの記述を引用して済ませており、非常にコンパクトな印象。
ファイルフォーマットのレジストリ
UKのNational Archivesが提供するファイルフォーマットのレジストリ。後述のDROIDと親和性がある模様(あまり詳しくは調べてない)。
・MIME Type
https://www.iana.org/assignments/media-types/media-types.xhtml
Internet Assigned Numbers Authority (IANA) が提供するMedia Typeリスト。JPCOAR schemaのファイルフォーマットはこちらを推奨している。
関連ツール
File profiling tool (DROID) - The National Archives
ファイルフォーマットの識別ツール。UKのNational Archivesから無料で提供されている。
JHOVE | JSTOR/Harvard Object Validation Environment
こちらはオープンソースのもの。DROIDのソースを一部で利用している様子。
~~~~~
まだまだありそうだけど、とりあえず。
あと個人的に検討すべき課題としては、推奨フォーマットのリストを外部に提示する際に、リポジトリのキュレーション基準と結びつけるべきかどうか、が残っている。
リストを提示したとして、データ登録者の選択を尊重してそのまま登録するのを許可するのか、推奨フォーマットでの登録を促すのかはまだ決めきれない。
将来的なマイグレーションのタイミングで行えれば良いのだろうけど、労力を考えると微妙。。。
ごく最近の取り組みで、Wellcome Trust財団とSpringer Natureによる出版物に紐づくデータ共有のパイロットがあるけれども、
共有の段階からどの程度を求めるのか、に対する一つの指標になりそう。注目しておきたい。