2016年4月15日金曜日

データ分析入門1:平均値、中央値、最頻値



ある集団を対象にして、あること(数値)を調べたとき、対象個々の結果を読み込んでいくのは大変です。

「つまり、どうだったんだ?」と整理するためには、要約したり視覚化する必要があります。

例えば、世帯の年間収入を調べた場合、ぴったり同じ収入額の人は少ないでしょう。「500万円の人が1人、502万円の人が1人、503万円の人が1」といった具合に、100人に調査すれば、100通りに近い数値が得られるはず。しかしこれでは、把握が難しいので、「500万円以上600万円未満」といった具合に、ある幅で区切って、その幅の中に該当する人は何人だったかを集計します。

こうして集計表ができますが、どの金額帯に多くの人が該当しているのかを直観的につかむには、グラフ化するのが有効で、「ヒストグラム」や「頻度分布図」と 呼ばれる縦棒グラフの一種を作ります。名前の通り、分布を把握することができます(図は1万世帯を集計して作ったヒストグラムです)。

ヒストグラムにすることで様々なことがわかります。年間収入1500万円以上の人は少数である、300万円以上~400万円未満の世帯が最も多い、次に多いのは400万円以上~500万円未満。もう少し広く捉えると、300万円以上~600万円未満あたりの世帯が多い(全体の33%くらい)、等々。

では、一般的な世帯の年間収入はどれくらいだといえるか? 100万未満や1500万円以上の世帯もありますが、それらは全体の中では少数で、「一般的」とはいいにくい。

集計したデータを一つの数字で表現するにはいくつかの方法がありますが、3つある代表的な値の第一が「平均値」(算術平均)です。調査した個々の世帯の年間収入をすべて足し上げて、世帯数で割った値です。すると、平均値は6576万円になります。先ほど、ヒストグラムから「300万円以上~600万 円未満あたりの世帯が多い 」ということを直観的に見てとりましたが、平均値はそれよりも多い金額です。つまり、平均値は必ずしも大多数の数値となるわけではないのです。この例で は、平均値が高めになった原因は、高収入世帯の年間収入の高さによって平均値がひっぱられてしまったためです。

第二が「中央値」です。調査した世帯の年間収入を多い順に並べて、上から数えても下から数えても真ん中の順位にいる世帯の年間収入が中央値になります。この例の場合、中央値は568万円になります。中央値は、極端な値の影響を受けません。極端な例ですが、年間収入10億円の世帯が1世帯追加されると、平均値は高くなりますが、中央値はほぼ変わりません。この例のように極端に大きな値を含んでいるデータの、時系列の変化を見る場合には、平均値よりも中央値に着目するほうが適していると言えます。

第三が「最頻値」です。年間収入がいくらの世帯が最も多いのかを見ると、300万円以上~400万円未満の世帯で、これが最頻値です。ボリュームゾーンと呼ぶこともあります。この最頻値は、集計する際に数値の幅(標準級間隔)をいくらに設定するかによって変わってくるという点に注意が必要です。

平均値、中央値、最頻値のどれを使えばよいかはケースバイケースで、どれか一つでは不十分です。左右対称の山型のヒストグラムになる場合は、平均値、中央値、最頻値はどれも近い値になります。しかし、例のようにヒストグラムの山頂が左に寄っている(右に裾が長い) 場合や逆に右に寄っている(左に裾が長い) 場合には、平均値、中央値、最頻値はズレます。ピークがふたつある二山型のヒストグラムでは、平均値と中央値は近くなりますが、最頻値はズレます。

データを集計したら平均値を求めるだけでなく、どのような分布になっているかヒストグラムで確認することを習慣にする必要があります。


0 件のコメント:

コメントを投稿

過去30日間の閲覧上位エントリー