ワールド・ワイド・ウェブの消失
ピュー・リサーチ・センターの調査
日本のメディアでも報じられたのでご存じの方もいるかもしれないが、米国シンクタンクのピュー研究所が最近発表した報告が話題となっている。
この調査は定期的にウェブ全体をクロール(ダウンロード)し、収集したデータをオープンデータとして提供する非営利団体Common Crawlのデータに基づくものだが、報告によれば、膨大な量のウェブコンテンツが失われつつあるという。
例えば、2013年のクロール時に存在したウェブページのうち38パーセントはすでに消失した。該当ページが削除されたか、ウェブサイトごと消滅したためである。また、2013年から2023年の間に存在したウェブページの4分の1が、2023年10月現在アクセスできなくなっている。消えるのは古いページだけではなく、2023年のクロールで存在したページのうち8パーセントがすでに利用できなくなっているそうだ。
ソーシャルメディアも同様で、Xのポスト(ツイート)の約5分の1は投稿から数カ月以内に消えてしまう。うち60パーセントは、アカウント自体非公開に設定されたり削除されてしまっている。興味深いことに、トルコ語やアラビア語で書かれたツイートの40パーセント以上が3ヶ月以内に消えてしまうそうだ。それだけこれらの言語でのインプレッション稼ぎが横行しているということだろう。
また、ウェブ上のニュースのウェブページの23パーセントは、少なくとも1つのリンク切れを含んでいる。アクセスの多い(人気)サイトかどうかは関係ないらしい。政府系サイトのウェブページの21パーセントも少なくとも1つのリンク切れを含んでおり、地方政府のウェブページは特にその可能性が高い。ウィキペディアも、その記事の54パーセントは「参考文献」として存在しないページへのリンクを少なくとも1つ含んでいる。「要出典」でやかましいウィキペディアだが、出典自体もはや存在しないケースが結構あるのである。
暗がりの中へ
ワールド・ワイド・ウェブというと以前はストライサンド効果のように、一度流出したデータは(消そうとすると増えたりするので)消そうにも消せなくて困る、というので問題になることが多かった。しかしこれから私たちが懸念しなければならないのは、むしろデータの消滅である。先日の記事で生成AI用の学習データの枯渇について書いたが、データの主要な供給源の一つであるワールド・ワイド・ウェブ自体が痩せ細りつつあるわけだ。もちろん問題はテキストデータだけでなく、YouTubeに一極集中している動画もかなり危ない状況である。仮に明日YouTubeが消滅すると、ここ20年くらいの映像記録の少なからぬ割合は完全に消滅してしまうだろう。
過去に存在したウェブページが消えてしまうのも問題だが、個人的には、ウェブに限らずオープンな場でのオンライン・コミュニケーションが減っているように思われるのが気に掛かる。
例えば、かつてオープンソース・ソフトウェアの開発過程における経緯は、後からでもかなり細かく追うことが可能だった。開発に関する議論は基本的にメーリングリストやIRCで行われていて、非公式な雑談も含めて記録はほぼ全て残っており、誰でも閲覧できたからである。確かに今でもGitHubのようなソーシャル開発サイトではイシューやチケットという形である程度ログが残っているが、ニュアンスは掴めないことも多い。
それが最近では、ソフトウェア開発のみならず、オンライン・コミュニケーションの多くがSlackやDiscord、あるいはTelegramやSignalのようなチャットやメッセージングに移行しつつある。こうしたサービスの多くはログの長期保存を有料としていることもあって、いよいよ記録が残らなくなっている。かつて紙に記録していたころは数千年単位で記録が残ったのに、情報化が進んだ現代では今後全てが数年で消えてしまい、「発掘」も出来ないということになりかねない。これは、これからの電子考古学(というほど大したものではないかもしれないが)を著しく困難にするだろう。記録を残すことは後世への責務、という立場からは看過できない問題だ。
情報の相対的価値低下
とはいえ人によっては、なぜ昔はそこまでオープンな情報共有にこだわっていたのだろう、という疑問を持つ向きもいるだろう。かつて情報は希少だったので、情報への「飢え」のようなものが広く共有されていて、情報はできるだけオープンに、誰でも再利用可能なようにするのが美徳とされていた。ティム・バーナーズ・リー肝いりのContract for the Webにもあるように、ワールド・ワイド・ウェブは「知識を自由に利用可能とするように」作られたのである。それが今では、少なくとも人間には過剰なほどの量の情報が氾濫しているので、相対的にそこまで情報共有に熱心ではなくなりつつあるということなのかもしれない。だとしたらワールド・ワイド・ウェブがあまりに成功したためにそうなったわけで、皮肉なこととも言えるだろう。