国立国会図書館(NDL)が取り組んでいるウェブのアーカイブ、その世界的潮流と可視化の可能性

(写真:アフロ)

再び注目を集める(?)民主党政権時代の行政刷新会議での例の「2位じゃだめなんでしょうか。」発言。一次資料の議事録をこちらに置いておきますね。ご査収ください。

http://warp.da.ndl.go.jp/info:ndljp/pid/9283589/www.cao.go.jp/sasshin/oshirase/h-kekka/pdf/nov13gijigaiyo/3-17.pdf

あれれ、URLが長いですね。ウェブ魚拓なんでしょうか。

実はこれ、国立国会図書館(NDL)が取り組んでいるウェブのアーカイブなんです。

国立国会図書館が進めるウェブのアーカイブ

サービス名はWARP(Web Archive Projectの略)。今年でなんとすでに15年目。2002年からスタートなので残念ながらインパクは収集されていないのですが。国内すべてのウェブサイトという訳ではなくて、具体的には、公的機関(国の機関、地方自治体、国公立大学など)は法律に基づいて、民間(私立大学、政党、イベント、震災関連、電子雑誌など)は契約に基づいて収集を行っています。

ウェブアーカイブならInternet Archiveというサイトをご存知の方が多いかもしれません。ただこれは、第三者が運営しているものである以上、いつか突然終わってしまったり、データが破棄されてしまってもどうすることもできません。

ここに社会的な意義があります。特に行政のウェブサイトは、プロジェクトが終了し予算がつかなくなるとそのまま閉鎖してしまいます。国立国会図書館によると、国の機関のサイトだけでも5年前に存在したサイトの約60%が閉鎖されたとのことです。

たとえばこんなサイトが

国会の原発事故調査委員会のサイト

国会事故調
国会事故調

平成23年3月11日に起きた東京電力福島第一原子力発電所事故の事故原因究明のための調査・提言を行うために、日本の憲政史上始めて国会に設置された独立した国民のための調査機関のサイトです。委員会の様子(動画や議事録)や最終的な報告書が掲載されています。今年に入ってからでも月ごとに6~8万アクセスあり、ダントツに参照されているコンテンツです。委員会事務局の閉鎖に伴ってウェブサイトも閉鎖しましたが、その際WARPへの引き継ぎが告知されていました

消えた自治体

消えた自治体
消えた自治体

「平成の大合併」と呼ばれる市町村の合併が全国規模で行われ、市町村数は3,232(平成11年3月31日)から1,719(平成25年1月1日)へと減少し、その結果、約1,500の市町村サイトがインターネット上から消えてしまいました。これらのサイトについて閲覧ができます。

民主党時代の行政改革

民主党時代に行われた行政改革についても、すでに内閣府ウェブサイト自体に掲載はなく、WARPへのリンクという形で存在しています。

NDL自身で行った可視化の事例

ではこれらのデータから何が見出せるのでしょうか?NDL自身で行った可視化の例を紹介します。

都道府県サイトのリンク関係

都道府県の自治体サイト同士のリンク関係を可視化したものです。各県ごとに特徴があって面白いのでぜひリンク先で操作してみてください(下に掲載しているのはただの画像です)。

都道府県サイトのリンク関係
都道府県サイトのリンク関係

保存した1万サイトの可視化

このWARPに、どのようなサイトがどのくらい保存されているのか、一目でわかるように可視化されたもの。

保存した1万サイトの可視化
保存した1万サイトの可視化

ウェブアーカイブの保存用ファイルフォーマットがISO標準に

2009年5月、ウェブアーカイブの保存用ファイルフォーマットWARCが、国際標準機構(ISO)の国際規格ISO 28500:2009になりました

国際インターネット保存コンソーシアム(International Internet Preservation Consortium:IIPC)が中心となって実現させたもので、日本の国立国会図書館は2008年4月に加盟しており、2012年時点で42機関で構成されています。国立図書館だけでも、北アメリカ諸国、ヨーロッパ諸国、東アジア諸国、オセアニア諸国の国立図書館が参加する世界的なネットワークになっています。

動画に活動がわかりやすくまとめられてます。

Web Archiving and the IIPC - Japanese(動画)

みんな大好きInternet Archiveの中の人のお顔も。

Internet Archive
Internet Archive

IIPCのサイトを検索した限りだと、年に一回の総会でここ2年、Googleが参加しはじめているようでした。

ウェブアーカイブのイマココ

今年の総会に参加されたNDLの方のレポートを参照しながら、ウェブアーカイブのイマココ(現状や課題)を眺めてみたいと思います。

・多くの国立図書館は予算とシステム資源が限られているため,進化するウェブ情報のアーカイブのために必要なツールの持続的な開発が困難になりつつある。

・機械的に収集できないストリーミングやアプリを利用するコンテンツ,ソーシャルメディア等もますます増加している。

・ほとんどの国立図書館のウェブアーカイブは館内や特定の場所での閲覧に限られている。このため利用は極めて少なく,これが予算の減額にしばしば繋がっている。

・この10年以上,ウェブの技術の進化に比してアーカイブ技術について革新的な進歩がないという共通認識もあった。

・図書館が所蔵する他のデジタル化資料や紙資料とともに同一のシステムでウェブアーカイブを取り扱うためには、他の資料と同様のメタデータ記述、保存、検索と閲覧の仕組み等が実現されなければならない。既に一部の図書館ではメタデータの共通化等の取組がなされているが、この点において国際的に連携した取組はほとんど行われていない。

(筆者による抜粋)

ここ10年ほどにおいて、ISO標準化、国際的な協調体制、ソースコードの共通化などを果たしたものの、技術において革新的なブレークスルーが続いてこず、課題はまだまだある、という状況のようです。

他国での可視化事例は

リンク関係の分析、テキスト分析、トレンドの分析などの事例が、IIPCのサイトでケーススタディに載ってました。ここを眺める限りでは、可視化の事例はまだまだこれからかな、という印象です。

NDLが運営する「カレントアウェアネス」というサイトでIIPC関係のレポートを日本語で読むことが可能です。

この辺りのサイトを定点観測しておけば、トレンドを追いかけられそうな気はします。

必ずしも近いわけではないでしょうが、たとえばWikipediaのデータを利用した可視化事例はたくさんあります。

History Flow http://www.bewitched.com/historyflow.html
History Flow http://www.bewitched.com/historyflow.html
Histography http://histography.io/
Histography http://histography.io/

可能性は色々とあると思うのですが、NDLのWARPご担当の方からウェブ・アーカイブは量的にも技術的にも相当扱いにくいデータだと聞いてはいます。このあたりが軽減されると、面白い可視化の事例が出てくるかもしれません。