平均値と中央値のちがいをさぐる
統計結果を推し量る指標として良く用いられる「平均値」と「中央値」。何気に使っているこの言葉の定義と長短所を確認する。
「平均(値)」とは統計上の指標の一つで、一定の集団の実情を数字で表す方式、代表値。平均値とは通常は算術平均や相加平均のことを指すが、算出方法は対象集団の該当値のすべてを足して、それを集団個数で割るというもの。
例えばそれぞれ10・20・10・60・20の数字を持つ人がいる、合計5人の集団があるとすれば、その集団の平均値は(10+20+10+60+20)÷5=24で、24となる。
しかし平均値では数字の偏りが分かりにくい、全体像は示せてもゆがみが把握しにくいとの意見もある。今例なら「60もある人が平均値を引き上げている」というものだ。そこで最近よく引き合いに出されるのが「中央値」。これは対象集団の個々を、該当指標順に並べ、その真ん中の対象個体の値を示すもの。
例えば上記の集団ならば、それを数字の順に整列させると10・10・20・20・60となる。真ん中は右から(左からでも良いが)3人目であり、この人の数字は20なので、中央値は20となる。全体の真ん中だから、全体の実情をより表しているとするものだ。
対象集団の個体数が偶数の場合、中央値を算出する時に半分に切るわけにはいかないので、中央に近い前後2つの値の平均値となる。
集団の構成が10・20・10・60・20・10なら、並べると10・10・10・20・20・60となり、中央に近いのは左から3番目と4番目、10と20だから、中央値は(10+20)÷2=15で、15となる次第。
平均値は極端な値で全体像がぶれる可能性はある。他方中央値はどのようなデータでも全体ではなく個体数の真ん中でしかないので、全体の把握や変化の確認、比較には適していない。今回の最初の例なら、60の数字の人が600でも6000でも中央値は20でしかない。これが単なる数字ならともかく、例えば試験の成績だとしたら、高得点を取ってもクラス全体の中央値に変化がないので意味がないと判断されれば、苦労の甲斐が無くなってしまう。
これ以外に最頻値(もっとも多く出てくる値)という概念もあるが、これは集団母数の個数が少ないと使えない、データの仕切り分け次第で結果を操作できてしまうなどの弱点がある。ヒストグラム(分布を柱状のグラフで表したもの)が良いとの解釈もあるが、これは単一調査項目ならまだしも、複数項目や経過を確認するのにはデータが多すぎて判断が逆に難しくなる。度数折れ線(ヒストグラムの折れ線グラフ化)でも良いが、比較対象の項目が増えると、やはり情報量が多くなり見難いものとなる。
平均値にしても中央値にしても、数字が表していること自身は事実かもしれない。しかしそこから導き出されているものまでも事実とは限らない。数字の背景にあるもの、連動するさまざまな環境の変化を推し量り、正しい実情を把握してほしいものである。
■関連記事:
エンゲル係数の推移をグラフ化してみる(家計調査報告(家計収支編))
収入と税金の変化をグラフ化してみる(年齢階層別版)(家計調査報告(家計収支編))
(注)本文中の各グラフは特記事項の無い限り、記述されている資料を基に筆者が作成したものです。また写真は筆者が作成・撮影したものです。