〈5分でわかる統計学入門〉全員から回答を集めなくても、なぜ信頼できるデータが得られるのか?
標本(サンプル)を集めるときに重要なこと
たまたま近くにいた人や、興味を示した人を標本に選ぶだけでは不十分だ。統計職員がおもに用いる手法は、標本となる人を「無作為(ランダム)」に選ぶことである。 何かを無作為に選ぶとはどういうことなのかは、誰もが直感的にわかっているのではないだろうか。袋に手を入れて賞品を摑み取る「ラッキーディップ」や、お菓子が入った容器に手を突っ込んで取り出すことは、何かを無作為に抽出する行為だといっていい。 よく切られたトランプの束からカードを一枚選んだり、名前が書かれた紙でくじ引きをしたり、ボードゲーム「スクラブル」のコマを袋から取り出したりするのも無作為な作業だ。同様に、透明なドラムのなかでぐるぐる回っている数字入りのボールを機械が選び出すという、英国国営宝くじの抽選方法もそうだ。 これらの例に共通しているのは、選ぼうとしているものがなんらかの規則に沿って並んでいないようにするために、全体をよく混ぜるという手順が含まれている点だ。そうすることによって、どんなふうに取り出しても、特定の菓子、カード、数字が出る確率は同じになる。 無作為抽出についてよく使われるたとえは、「塩加減を確認するために、鍋に入ったスープを味見する」ことだ。 料理人はスープの塩加減を見るのに、鍋のスープを飲み干さなくてもいい。きちんとかきまぜられているなら、スプーン1杯分を味見すれば十分だ。 無作為抽出は、「調査を行う母集団において選ばれる確率が全員等しければ、選ばれた標本は母集団を適切に表すものになる」という考えに基づいて行われている。 実際の例を挙げると、英国の全世帯の住所をリスト化して、なんの規則性もないように順序を入れ替えたのち、数千世帯や数十万世帯を上から順に選ぶという方法がある。 世帯状況に関するデータを毎年約8万世帯分集めることになっている「年次人口調査」では、基本的にこの抽出方法が使われている。 また、産業、職業、労働形態といった、就業状況に関する公式統計データの元になる一連のデータセットを収集するための「労働力調査」も、この方法に基づいて行われている。 ちなみに、調査会社のユーガブ社は、無作為に選んだ人々に電話調査を行って、マーマイトが嫌いな人より好きな人のほうが多いという結果を得た。 具体的に説明すると、ユーガブ社は約1300人の標本の回答に基づいて、「マーマイトを肯定的に評価する人は約45%、否定的な人は約36%、どちらでもない人は約17%」と見積もった。 つまり、「マーマイトは好きか嫌いかのどちらかにはっきり分かれるもの」という有名な広告宣伝活動によって、私たちがいくらそう思い込まされていても、実際には好き嫌いがそこまではっきり分かれていないことが判明したのだった。 ユーガブ社によると、マーマイトよりも『アプレンティス』というテレビ番組や、「レッドブル」というエナジードリンク、それに不思議なことに、マーマイトと似た味の 「トゥイグレッツ」というスナック菓子のほうが、好き嫌いがより明確に分かれていたという。