2016年5月22日日曜日

データ分析入門3:データのバラツキを確認する



2つのヒストグラムがともに1つの山型でも、その形状は、鋭い山型の場合もあれば、なだらか山型の場合もあります。


図をある国の10年前の年間の世帯収入の分布、右図を現在の世帯収入の分布だとします。平均値も中央値も最頻値も同じで、ともに単峰性の山型です。違うのは、この10年間で山の高さが低くなり、左右の裾野が厚みを帯びたこと。これは中間層が減って低所得層と高所得層が増えた状態で、貧富の差の拡大を意味します。
ヒストグラムの形状の違いは、データが平均値の近くに集中しているか、散らばっているかです。なだらかな山型は、平均値から離れたデータが多い状態です。データの散らばりの程度は「分散」や「標準偏差」という数値で表せます。よく使われる指標は標準偏差で、分散の平方根です。
この例の場合、10年前の標準偏差は2125万円、現在の標準偏差は2593万円に拡大しています。標準偏差の値を比較することで、ヒストグラムを見なくても「現在のほうがデータのバラツキが大きい」と分かります。

大手パチンコポータルサイト上でパチンコ・パチスロユーザーの遊技実態調査を実施し、1万円刻み(標準級間隔=1万円)で集計したところ、最頻値は「2万円以上~3万円未満」、中央値は「3万円以上~4万円未満」、平均値は43033円(※「10万円以上」の回答を10万円として計算)と、すべて異なりました。
標準偏差を計算すると27246円なので、この指標を加えると、「遊技予算の平均値は43033円で、15787円から7279円の中に半数以上の人が収まっている」と表現できます。
すると、「15千円から7万円とはかなり幅がある。ひとくちにパチンコ・パチスロユーザーといっても、遊技予算にはかなり多様性があるようだ」と分かります。これは要注意ですので、ヒストグラムを確認する必要があります。
ヒストグラムを描くと、少数の高額予算ユーザーによって平均値が上に引っ張られていること、15787円から7279円の中に7割くらいの人が収まっていることなどが分かります。
要するに、パチンコ・パチスロユーザー(正確に言えばこのポータルサイト訪問者)をひと括りにして、1カ月の予算(負け許容額)を見ても、一般的なユーザー像はつかめないということです。
回答者の中から「ある種の人」を抽出すれば、多様性は少なくなる(データのバラツキが少なくなる)はずですので、確かめてみます。
「配偶者あり・子あり」のユーザーの予算分布は全体と見比べると、左側(少ない金額)に寄っています。最頻値は総計と同じ「2万円以上~3万円未満」ですが、山の峰が高くなっています(山の形が鋭くなっている)。中央値も「2万円以上~3万円未満」です。平均値は33215円で、3つの代表値が近づきました。標準偏差は23173円ですので、先ほどより狭くなりました。
ヒストグラムを見ると、「配偶者あり・子どもありのユーザーの予算の平均値は33215円で、142円から56388円の中に8割近い人が収まっている」ことが分かります。全体の集計よりも、代表的な回答者のイメージが見えてきたのではないでしょうか。


(担当=田中剛 ・アミューズメントジャパン 元編集長)

0 件のコメント:

コメントを投稿

過去30日間の閲覧上位エントリー