企業、店舗、都市、人、製品などを比較しようというとき、様々な角度から調べると、得られたデータ(変数)の中には、類似した傾向を示すものがあり
ます。
例えば、小学生の身体測定をすると、身長が高い子は体重が重い、身長が低い子は体重が軽いという傾向が見えます。この2つの観測値(変数)の関係のように、かなりの程度の規則性をもって、値(変量)が同時に変化していく性質を「相関」といいます。この小学生の例の場合は、実際の数字を見るまでもなく、我々の常識のひとつになっているはずです。
例えば、小学生の身体測定をすると、身長が高い子は体重が重い、身長が低い子は体重が軽いという傾向が見えます。この2つの観測値(変数)の関係のように、かなりの程度の規則性をもって、値(変量)が同時に変化していく性質を「相関」といいます。この小学生の例の場合は、実際の数字を見るまでもなく、我々の常識のひとつになっているはずです。
では、都道府県の面積と人口という2つ のデータ(変数)には、先の例のように相関があるでしょうか。たぶん、ありません。日本に住む我々は、「北海道はものすごく広いけど人口は少なく、東京は
小さいけど人口はすごく多い」ということを知っています。また、「逆に、面積が小さい県が総じて人口が多いというわけでもない」ということも知っていますよね。
しかし、実際に調べなければわからないこともあります。2つのデータ(変数)の関係性を調べるときに使われるのが「散布図」で、相関の強さ(類似性の度合い)を示す統計学的指標が「相関係数」です。
しかし、実際に調べなければわからないこともあります。2つのデータ(変数)の関係性を調べるときに使われるのが「散布図」で、相関の強さ(類似性の度合い)を示す統計学的指標が「相関係数」です。
都市を比較しようとしたとき、「東京のような大都市は地方都市と比べるとファーストフード店が目立つ」ということが気になったとしましょう。人口が多いのだ からお店の数が多いのはある意味当然で、人口規模を無視して東京と他の都道府県を比較してもあまり意味がありません。そこで、同じ土俵で比較できるよう、 人口当たりの店舗数を計算します。ここでは2015年4月時点のマクドナルドの店舗数を使います。当時、マクドナルド店舗数は3000軒でした。
人口10万人当たりのマクドナルド店舗数が多いのは、京都、沖縄、東京、奈良、滋賀の順で、少ないのは岩手、秋田、島根、高知、鹿児島。おそらく、何らかの
出店基準に従った結果でしょう。上位にある首都圏や近畿圏は人口密度が高そうです。マクドナルドは広域から集客する業態ではなく、出店基準には人口密度と いう基準もあることがうかがえます。
もうひとつ、一見するとマクドナルドとは全く関係なさそうな、フェイスブックのユーザー数(同様に人口当たりに計算)のデータを眺めてみます。ユーザー数が
多いのは、東京、神奈川、京都、大阪、沖縄。少ないのは、秋田、山口、青森、岩手、山形。マクドナルド店舗数の上位、下位にも登場した都県が見られます。
マクドナルド店舗数…人口10万人あたり、単位:軒
FBユーザー数…人口100人あたり、単位:人
散らばりはまったくランダムという よりも、なんとなく右上がりの楕円の中に収まるように見えるのではないでしょうか。そして、図のように、すべての点の(数学的な)真ん中を通る直線を引く ことができます。一見関係なさそうな、マクドナルド店舗数とフェイスブックユーザー数という2つの変数には相関がありそうです。
相関の程度を示す相関係数は、1からマイナス1の範囲の値をとり、1 に近いときは2 つの変数には「正の相関がある」といい、マイナス1 に近ければ「負の相関がある」といいます。0 に近いときは相関は非常に弱い。このケースでは相関係数は0・6067で、「強い正の相関がある」と言われているレベルです。
+1.00 ~ +0.60 強い正の関連性がある
+0.59 ~ +0.40 中程度の正の関連性がある
+0.39 ~ +0.20 弱い正の関連性がある
+0.19 ~ -0.19 無相関
-0.20 ~ -0.39 弱い負の関連性がある
-0.40 ~ -0.59 中程度の負の関連性がある
-0.60 ~ -1.00 強い負の関連性がある
|
0 件のコメント:
コメントを投稿