過去のWebページがそのまま閲覧できるインターネット・アーカイブ・サービス

インターネット上のWebページの内容をアーカイブしているサービスとして、米Internet ArchiveのWayback  Machineが最も知られている。世界中のWebサイトを対象として1996年から巡回し始めており、2012年12月9日現在、これまで2400億URLのWebページコンテンツを蓄え、無料で検索・閲覧できるようになっている。データ量としては5PB(ペタバイト)にもなる(PBについては脚注を参照)。

ニュースサイトやショッピングサイト、企業サイトなどの商用サイトだけではなくて個人ブログなどもアーカイブの対象になっている。Wayback  Machineの検索窓に閲覧したいサイトのURLを打ちこむと、1996年からのカレンダーが現れる。青丸で記された年月日をクリックするとその日のWebサイトの内容が当時のまま閲覧できる。Wayback  Machineの人気は根深く、毎日50万以上の人が利用し、毎秒1000回以上のクエリがあるという。

人気の高いWebサイトのコンテンツは時々刻々変化しており、過ぎ去ったコンテンツ(レイアウトも含めて)を見たくても、再現できない。ところが、Wayback  Machineでは通り過ぎたフローのコンテンツと再会する可能性があるのだ。このため、個人的にも数年前までは時々利用していた。デザイン刷新したサイトに出くわした場合、どのように刷新したかを調べるには刷新前のページを見る必要があったからである。また大事件が起こった日のニュースサイトのページを見たいこともあった。

ところが、巡回すべきWebサイト数がうなぎ上りに増え、サーバー経費などの運用費もかさ張る一方となり、寄付金に大きく依存するWayback  Machineのサービスが劣化していた。主要サイトの巡回頻度までも大きく減っていたため、最近では私自身利用することは全くなかった。でも先週たまたま、Internet Archiveの公式ブログでWayback  Machineのアーカイブ作業が活発化していることを知り、久しぶりに同サイトを覗いてみた。

新聞サイトを見ることにした。プリント版だと縮刷版とか、最近ではデータベースサービスで、過去の特定の日の新聞紙を閲覧できる。一方Webの新聞サイトでは、古いコンテンツが記事単位で他の場所(データベース)で保管されていても、特定の日(さらに特定の時間帯)の新聞サイトを再閲覧することは一般に無理であった。

まずNYタイムズのサイト(nytimes.com)のアーカイブ状況を見てみた。1996年11月12日から1万2592回も巡回されており、その時のWebページのスナップショットがアーカイブされているのだ。以下は2012年のカレンダーであるが、上段の棒グラフが巡回の回数を相対的に表示している。かつては巡回されていない日が多かったのだが、最近では毎日必ず巡回されており、さらに毎日複数回スナップショットされている。下の2012年11月10日の例では22回も巡回され、その時のスナップショットが蓄えられている。

画像

Wayback  Machineサービスが目に見えて充実してきたのは2011年の夏ころからである。nytimes.comの2011年カレンダーからも明らかに、2011年6月16日から毎日巡回するようになった。そして最近では毎日10数回も巡回している。それまで、下のカレンダーのように、巡回していない日が多かったのだ。

画像

ただし、過去においても大きな事件の時には、臨機応変に対応している。例えばアメリカ同時多発テロ事件の2001年9月11日には、事件発生後からの3時間に12回ものスナップショットを蓄えている。20時56分59秒時のスナップショット(nytimes.comのトップページ)を掲げておいた。

画像

参考までに、nytimes.comの最も古いスナップショットも載せておく。1996年11月26日のWebページである。

画像

次に日本の新聞社サイトのアーカイブ状況も覗いてみた。

朝日新聞のコンテンツは(www.asahi.com)は、1996年12月19日</a>から4070回のスナップショットが蓄えられていた。やはり2011年6月中旬(6月22日)から毎日巡回を受けるようになり、一日に数回のスナップショットがアーカイブに収められている。asahi.comの最も古いスナップショットは、次の1996年12月19日付けのページである。

画像

読売新聞(www.yomiuri.co.jp)のサイトも1996年末から巡回されており、これまで3098回のスナップショットが蓄えられている。2011年中旬以降は毎日、巡回を受け、ほぼ数回のスナップショットが蓄えられている。最も古い1996年12月18日のスナップショットは次の通り

画像

日経新聞(www.nikkei.com)のサイトは、やや遅く2001年9月27日から巡回されており、これまで2620回のスナップショットが蓄えられている。2011年6月後半(6月22日)から毎日、数回のスナップショットが蓄えられてるようになっている。日経サイトの最も古い2001年9月27日付けの古いスナップショットは次の通り。

画像

これまでのWebサイトのコンテンツ以外にも、ソーシャルメディア系コンテンツのアーカイブ化も欲しい。すでにツイッターのアーカイブ作業は、米国会図書館が進めており、今まで約1700億件のツイートがアーカイブされている。一般に利用できるかどうかは明らかになっていない。

注:PB(ペタバイト)とは

1PB(ペタバイト)

= 1024TB(テラバイト)

= 1,048,576GB(ギガバイト)

= 1,073,741,824MB(メガバイト)

= 1,099,511,627,776KB(キロバイト)

= 1,125,899,906,842,624B(バイト)

◇参考

Wayback Machine: Now with 240,000,000,000 URLs(Internet Archive Blogs)

Internet Archive updates Wayback Machine to cover 240b URLs from 1996-2012, totaling 5PB of data(TNW)

Update on the Twitter Archive at the Library of Congress(the Library of Congress)