ビッグデータは本当に「死んだ」のか。
「ビッグデータは死んだ」という記事がビッグデータ関係者の間で少し話題だ。
ブログの著者はJordan Tigani氏。かつてGoogle BigQueryのプロダクトリーダー、エンジニアリングリーダー、創業エンジニアを務めたという人物である。自身で文中に述べているように、かつて「ビッグデータ」の太鼓持ち(the acolytes beating the Big Data drum)を自称する人物だけに、なおさら興味深くとらえられている。
この「ビッグデータは死んだ」という主張に対して、同意する部分もある一方で、大規模言語モデルの大ブームのさなかになにを意味不明な事を言っているのだという気持ちもある。そのことについて少し考えてみたい。
インサイト抽出にはもともとビッグデータは不要
そもそも、私の本業であるマーケティングリサーチやインサイト抽出のような文脈では、ビッグデータをそのまま利用することにはあまり意味がない。と言わねばならない。そのようなことはビッグデータというバズワードが出てきてすぐに様々な論者により指摘されたことである。一例としてはWWW2010でMicrosoftResearchのdanah boydが述べている。
一般に統計解析では大量のデータから観察できる現象を科学的に説明するために利用される。対象全体をそのまま分析することは大概の場合収集コストが無駄になるので、適切にサンプルを抽出する技術が発達してきた歴史がある。
マーケティングでは、データの全体の傾向を掴むにはデータの適切なサンプリング、フィルター処理を行い、「スモールデータ」として分析していくことが本来望まれることである。特にコスト感覚にシビアなマーケティングリサーチの現場では一つの分析対象群が500サンプルもあればそれなりに大きいサンプル群である。あるいは特定のニッチなセグメントを攻めるのであれば、事前にスクリーニング調査を実施して対象者を絞り込む作業を行う。つまり、インサイトを抽出するという文脈においてはビッグデータは元からビッグである必要はなかったのである。
ビッグデータが注目された背景
「ビッグデータ」のようなバズワードが出てきた背景にはデータの環境要因があることを理由に上げたほうがわかりやすいだろう。Webサイトのアクセスログなど、すべてのデータが自動的に記録されてしまい大量になってしまうという現象が先にある。
つまり、既存の統計学では社会統計論的には自動悉皆調査とも言うべき状態が前提になるのである。(これは余談だが、悉皆調査にあたるのに、一部のログ解析の現場では統計的検定を行ったりしているが、本来悉皆調査では母集団を想定した統計処理など不要である。)
それらの勝手に蓄積されるデータを処理する技術が必要になってきたために、かつてのHadoopのような分散処理によりそれらの課題を解決する技術に注目が集まったというべきである。その発展形がTigani氏が開発してきたBigQueryであり今でも多方面で利用されている。
そのようなビッグデータの利用現場では本来スモールデータ化して分析したほうが安くすむが、適切にデータをサンプリング・フィルターすることを考えるのが難しいケースが多い。その方法を間違えたらバイアスのかかった結果になるリスクを考えると、計算機パワーに任せて大量のデータを無理やり処理するほうが関係者への説明要素が減るし、失敗する不安が少ない。というデータサイエンティストも多いのではないだろうか。
見直されるべきビッグデータの価値
一方で、ビッグデータにはまだまだ死んでもらっても困るし、依然として大きな意味がある。なにしろいま話題のChatGPTに代表される大規模言語モデルはビッグデータがなければ学習自体がそもそも不可能である。また仮にこれまで組織(内部)における会議についてすべての発話や会議録などを記録している会社や団体などがあれば、そのビッグデータをLLMに食わせることによって、その会社独自のAIが開発されることが可能な時代になってきている。そういうAIはとても価値があるだろう。(※)
また、衛星写真に代表されるように、写真のほとんどは単なる原野や山林であったとしても、その一部に秘密の軍事基地や核実験場などが作られたことを察知したいようなケースでは、一部対象エリアについてのなるべくディテールの細かなデータが有ることが分析上必要である。また、このような局所的な現象を理解する上でのデータの大きさというのは今後ますます求められてくるだろう。
このような局所的に特に重要な現象を捉えるためにはビッグデータは今後社会にとって欠かせないものであって、とてもではないが「死んだ」などとは言えない。結局の所元ブログの著者のような書きぶりでは、バズワードを勝手に作って勝手に殺して、話題になりたいだけなのではないだろうか。
※)一般の企業では難しいが、今一部で話題の政府内部の行政文書や国会での議事録や資料などは公文書として記録されているはずなので、行政内部の知識のAI化こそが本来適している点は指摘しておきたい。