「データドリブン信者」が陥る大きな落とし穴 ミス、改ざんは日常茶飯事。信用できぬ舞台裏
■走行距離を正直に申告しないドライバー これは、先に署名することで、申告過程において倫理的に振る舞おうという義務感が生じるとされているからだ。思ったとおり、申告よりも前に署名したドライバーは、走行距離計の値を10%ほど高く申告した。 10%というとたいした数字ではないと思うかもしれないが、ドライバーの規模が数万、数十万人になると、署名する場所を少し変えるだけで、会社が受け取る保険料が大幅に上昇することになる。これらの結果が『米国科学アカデミー紀要』に掲載されると、政府機関や民間企業は、正直な申告を増やすべくサインファーストの手法を採用し始めたが、問題があった。
この調査の走行距離データの一部が、捏造されていた。この調査は、デューク大学教授で、不正、不合理、お金に関するベストセラー書籍の著者であるダン・アリエリーが主導した。 調査結果の発表から9年後、行動科学者のジョー・シモンズ、レイフ・ネルソン、ウリ・サイモンソン(報復を恐れて匿名にしている別の研究グループとともに)が、このデータが本物であるはずがないことを証明した。例を挙げると、車の所有者の大半は年間2000~1万5000マイルを運転し、それ以上の距離を運転する人はほとんどいないが、このデータでは、1万マイルと申告した人と4万9000マイルと申告した人の数がほぼ同じだった。
さらに調査を進めると、シモンズらは、データに重複する行が多数あることを発見した。彼らの徹底した解明捜査により論文は撤回され、論文の著者5名全員が自分たちの研究が不正なデータに依拠していたことを認めた。 予想とは、人間にとって不可欠のものである。たいていの場合、私たちは予測なしでは何かを知覚したり、理解したりすることができない。 スマートフォンの予測変換機能が人間の言葉のよくある単語配列をモデル化して、次に入力する内容を推測するのと同じように、私たちはこれまでの経験をもとに世の中をモデル化して、近い将来起こりそうなことをより正確に予想しようとする。