ビッグデータというか、根拠を元に主張をするという行動原理の話

山本一郎です。顔つきからして理系と言われます。うるせえな。

このところ、主に流通業、小売業、外食産業といったところをメインにさまざまデータ活用のお手伝いをさせていただく機会が増えまして、本来の本業であったはずの投資事業や製作委員会組成みたいな仕事よりも忙しくなってきました。一度手を付けると、やり通さなければ意味のない業務領域のため、どうしても片手間にはできずに最後までお付き合いするケースが多くなっております。

最近では、一般的なWEB2.0的な仕組みよりも、他のものを組み合わせてデータ活用したいという相談が増えてきたのも事実です。ARを来店管理に組み合わせたいとか、IoT技術を自社プロモーションの一環に組み込めないかといったオーダーです。それまでは、どちらかというと液晶ディスプレイの中で完結した仕事が多かったわけなんですけれども、KPIをみながら店舗管理や仕入れ調整をするといったレガシーなデータ活用に加える形で、もう一歩お客様の購買動機に迫りたいとか、もっと柔軟な配送管理を組みたいといった、明確な目標を持ったシステム需要、といったところでしょうか。

どちらかというと、取引のない会社担当者さん向けにビッグデータ活用や読み方とは何ぞやというお話をする機会は乏しかったんですが、来週その手の話をする機会を頂戴してみると小規模開催だったはずが満員御礼になり、もう少し椅子増やそうみたいな話になって、50名だ100名だ第二回はいつだとかいう話になっちゃうぐらいにはトレンドになっているようです。

3月13日 ビッグデータ アセスメント講座 ビッグデータ分析ディレクター育成講座

ビッグデータ炎上企業の共通点、西内啓とやまもといちろうが斬る(日経ITpro 14/3/4)

はっきり言っちゃうと、ビッグデータを構造の大きいままのデータで活用することはほとんどのケースで必要ありません。まあ、無駄です。ただ、私が扱います流通業界の配送アルゴリズムだとか需要予測に基づいたダイナミックな仕入れ体系の構築などといった世界では、リアルタイムの購買データだけでなく、天候や道路交通情報といった別の方面のデータを組み合わせて、一日数回の大小配送のタイミングでどのような合理化を図るのかというのが非常に重要な肝になります。

一般論ですが(詳細をタダで書くわけにもいかんので)、いままでの情報工学の世界の延長線上ではなかなか手の届かないところにメインストリームが移ってしまった背景ってのは、恐らくは「学問的な正しさよりも、成果を出せる利便性と投資対効果を目指す」会社の合理性が貫徹しているほうが、変に理想を追い求めるよりも高い効果が得られるからだと思ってます。つまり、グループに何とか総研を抱えているベンダーさんが提案する画期的で抜本的なシステムよりも、いまあるシステムを活用しながら適切にデータを吸い上げ意味のある情報に半自動で加工し、それをPDCサイクルの中で効果を高めていくほうがシステム投資の成果が見えやすいのです。なので、ベンダーさんが入って座礁しているプロジェクトにコンサルとかで入りますと、ベンダーさんの現場はこんなに頑張って苦労しているのに、まったくモノが出来上がらないで立ち往生しているケースに遭遇するわけなんですが、最初からどーんと理想へ向かって走るのではなくて、いまあるものを丁寧に再評価しながら現場と向き合ってシステムを構築していくほうが価値のある情報を拾いやすくなるのだということでしょうか。

だから、本当は将来的には未来予測まで手を伸ばしたいんだけれども、実際にデータが役に立つことを厳密に突き詰めていくと仕入れと在庫管理、あるいは配送に限定されます。なぜならば、昨日起きたことが今日起きる可能性が必ずあるからです。検証できるデータを蓄積することが意味のある分析を導くので、確実にコストを下げられる配送や在庫に対する数学的なアプローチというのは「やればやっただけコストが削減できる」分野でもあります。

一方で、マーケティングだ商品企画だといった、売上を増やすためのデータ活用というのは博打の世界です。正直、小売のお客様から戴く質問は頭を悩ませるものばかりです。「会社としてはこういう方針なので、こんな商品を仕入れるためのデータはないのか」といった話や「戦略商品であるこれこれを、これだけ売り捌かなければならないのだが、妙案をデータから導き出せないか」みたいな話がゴロゴロしています。「そもそも社長室は何でそんな方針なの」とか「どうしてそんな商品を戦略的な位置づけにしたでござるか」という問いはシステム部門からは投げかけられません。

あくまで、現状の様相から傾向を掴み取って、そうなるであろうという確率を見つけ出すのがデータ活用なのであって、過去に行った戦略的判断その他の失敗を糊塗するごとに炎上の度合いが高まっていくわけですね。

ビッグデータ分析でみるインフルエンザ感染状況(ヤフー株式会社 14/3/4)

このあたりをしげしげと見ていると、「検索データからインフルエンザの感染状況がリアルタイムで把握できそうである」という命題を元に、データがどのような推移をするのかが明らかにされていて興味深いわけです。ただし、データの因果関係からいえば、インフルエンザに罹患した人が熱を出して困惑した結果、とりあえずパソコンかスマホから「インフルエンザ」を検索する実数を各属性別に並べたわけですから、騒いでいる人はだいたいインフルエンザなわけです。あるいは毎日インフルエンザを検索しているインフルエンザフェチです。

なので、これ単体では検索発生属性ごとの盛り上がりを図表化する以上の情報にはならず、出来上がった山を見て「おお、和歌山盛り上がってるねえ!」という以上のものにはならないわけなんですが、ただし盛り上がり方の系統が蓄積されていくと、徐々に増えていく検索グラフの傾向から、どの地域に派生するものなのか、どの程度の山を作るものなのか、さらには流行時期と地域傾向、罹患する属性別予測ぐらいまでは数年の研究のうちに到達することになるでしょう。ヤフーはデータがいっぱいあって羨ましいですね。

問題は、そのような将来予測に至るだけのデータを蓄積しきるまで我慢することの出来る経営陣がいるのかどうかです。ヤフーは爆速経営だそうですが、データは企業側の都合では伸びてくれません。というかヤフーが10倍でござるとどんなに念じたところでインフルエンザが10倍の早さで流行してくれるわけではありません。本気でこの手のものをそれなりの精度で未来予測できる内容にしようと思ったら、7年とか8年はかかることでしょう。

ヤフー宮坂社長に聞く“爆速経営”の手応え--2014年は「×10倍」(CNET 14/1/1)

なので、検証可能な程度がたとえ曖昧でも、充分な根拠を導き出せそうな切り口をいかに早く見つけ出し、行うべき施策の評価を行って、データ上重要と思われる順番に並べるかというのは極めて大切なことです。そこに私情を混ぜずに、淡々と数字だけを見て根拠ある内容を語る、ということが今後のデータマンには必要なことなのでしょう。

逆説的には、データマンは集まったデータを元に未来を予測する職業であります。サイエンティストというよりは、ドルイドとか巫女のような存在かもしれませんわ。昔は亀の甲羅を焼いて割れた角度で占ったのかもしれませんが、現世は幸いにしてもう少しマシな魔法が使える状態です。ということは、私たちは膨大なデータを元に、人の行動を予測する技術を手に入れようとしているわけです。言い方を変えれば、人々にどういう情報をインプットすれば、その中の何%の人が特定の行動をとるに違いない、という予測が可能になるのです。

その意味で、データを扱うというのはそのデータを織り成す人のひとつひとつの行動(クリックなのか、レジでモノを買ったのか)の集積であり、数字の向こうに必ず人の暮らしがあって人生があることに思いを至らせなければいかんでしょうということです。それの活用先が仕入れであれ選挙結果予測であれターゲティング広告であれ、一定のモラルを持たせなければなりません。

そのためのパーソナルデータに対する取り扱いであり、社会と企業の関係の再定義でもあります。そろそろプライバシーの問題もひとつの山場を迎えるようですし、少なくとも2016年ごろまでには見える景色も一変することでしょう。次の時代は脳の中身と、その中身を充分に機能させるためのロボットの時代じゃないのと予測する向きは多いわけですけど、突き詰めていくとすべては仕事に向き合う人の心の問題だという哲学に立ち返らざるを得ないのかもしれません。