〈5分でわかる統計学入門〉全員から回答を集めなくても、なぜ信頼できるデータが得られるのか?
「標本調査」とはどのような統計手法か
標本調査とは、ある集団に関するデータを系統立てて収集する調査方法であり、通常はその集団全体(母集団)の特徴を捉えられるようなかたちで行われる。実際には、集団全体から幅広く抽出された人々に同じ質問をする。 対象者全員に同じ質問をするというのは、全数調査と変わらない。では、何が大きく違うかというと、標本調査では全員に尋ねるわけではないという点だ。 たとえば、「マーマイト」という英国の伝統的な発酵食品が好きな人の割合はどれくらいなのかを調べたいと思ったとしよう。 その場合の方法として、「マーマイトについてどう思いますか?」という質問の答えを、「大好き」「大嫌い」「どちらでもない」から選んでもらう標本調査を行い、回答を集計し、このペースト状の発酵食品の熱心な愛好者の割合を出すという方法がある。 これは妥当なやり方に思える。とはいえ、どうやって対象者を選べばいいのだろうか。 標本調査の目的は、母集団の全員に尋ねた場合と同じ情報を得ることだ。そのためには、母集団全体をまんべんなく表せるような人々を回答者に選ばなければならない。この回答者集団のことを「標本(サンプル)」という。 刑事裁判の陪審も標本だ。陪審員は成人から選ばれるが、これは「事件の証拠を説明された陪審員団が出す有罪または無罪の結論は、英国のすべての成人に同じ検討を依頼した場合に出されるであろう結論を反映したものだ」という考えに基づいている。 標本調査の標本に対する考え方も、同じようなものだ。標本調査での注意点は、回答者の答えに影響を及ぼしかねない要因がある場合、標本の分布が実際より大きくなりすぎたり、小さくなりすぎたりしないよう考慮しなければならないことだ。さもなければ、正確な全体像を描けない。 マーマイトは味に癖があるので、好きだという小さな子どもはおそらく少ないはずだ。また、現在より50年前のほうが、塩味の効いたこのペーストがずっと人気があった点を考えれば、質問に対する答えの傾向は世代間で異なると思われる。 そうして、マーマイトが「大好き」または「大嫌い」な人の割合を調べる方法を探るなかで、「小さい子どもを除いた標本を選ぶ」と決めたり、「標本の年齢層別の比率を、母集団のものと合わせなければならない」ことに注意したりするようになる。 さらには、味覚といったものは家系ごとに伝わると考えられるので、「一つの家族だけを標本に選ぶ」のは好ましくないとも判断するだろう。