〈5分でわかる統計学入門〉全員から回答を集めなくても、なぜ信頼できるデータが得られるのか?
政府統計などの調査では、すべての調査対象にアンケートを取っているわけではない。ごく一部の対象者にだけ質問をするという、「標本調査」という手法が採用されるのが普通だ。それでは、このような方法で得られたデータはなぜ信頼できるのだろうか? 話題の書籍『ヤバい統計』から一部を抜粋して紹介する。 ケンブリッジ大学の名数学者も統計調査を「代表値の科学」とみなしていた
統計調査の革命的方法を編み出した功労者
物事の実態を正確に摑めないときは、推測に頼らなければならない。日常生活のなかで、私たちはいつも推測している。 支出の計画を立てるときは、各項目にどれくらいの金額を確保すべきかの見積もりが基本になる。仕事で家を出る時間を決めるときや、何かの予約を取るときは、目的地まで通常かかる時間を計算し、さらには移動する時間帯の混雑状況なども考慮しているはずだ。 こうしたことを、人はただやみくもに推量しているわけではない。たとえば、「いつもは職場まで30分だが、雨のときはもう少し時間がかかる」といったことまで想定している。 つまり、私たちは自分が知っていることを、ちょっとした理屈と直感とともに活用している。ただし、そうした推測がいつも正しいとは限らない。 統計データで推測を立てる場合も、予備知識、推論、仮定という、人間がつくりだす基本情報に同じく頼っている。ただし、統計データの分野では、より系統立った手法で進めるための明確なルールがつくられていて、それらが品質管理の役割も果たしている。 ヴィクトリア時代のイングランドの若き数学者アーサー・ボウリーも、現状を把握するための手法について考えを巡らせていた。 伝えられるところによると、熱心なサイクリストでもあったボウリーは、サイクリングの同行者から数学の質問をされると(どうやらケンブリッジ大学ではよくあることのようだ)、とたんにスピードを上げて走り去ってしまったという。 そんなボウリーは、統計調査を「代表値の科学」とみなしていた。そして、統計データとは、それを見た人が状況を一目で理解できるような情報でなければならないと考えていた。そうした意味では、全数調査(注:対象となるものすべてを調べる手法)は情報量が多すぎた。 このボウリーこそが、統計学の最も重要な手法の一つである「標本調査」を編み出した功績者だ。