2016年6月15日水曜日

データ分析入門:散布図と相関係数(2)



前回に続き、各都道府県について調べた2つのデータで散布図を作ってみます。
人口当たりのマクドナルド店舗数とパチンコ低貸台数割合には、相関があるでしょうか。パチンコ低貸台数割合は、週刊アミューズメントジャパン2015810日号に掲載されたもので、156月末時点のPWORLD登録店舗情報をもとにピーワールドインサイトが集計したものです。


散布図を見ると、マクドナルド店舗数が多い都道府県はパチンコ低貸台数割合が低いという傾向が見えます。このように、一方が高いと他方は低い傾向が見られるとき、2つの変数には「負の相関がある」と言います。相関係数はマイナス05786で、「中程度の負の相関がある」と言われるレベルです。
ちなみに、パチンコの低貸台数割合とパチスロの低貸台数割合は図のように「強い正の相関がある」と言われるレベルです。


注意していただきたいのは、これらの散布図が意味するのは、「Aが多い都道府県はBも多い。反対に、Aが少ない都道府県はBも少ない」ということであって、因果関係を示してはいません。常識的に考えても、マクドナルドの店舗数の増減がフェイスブックユーザー数に影響を与えているとは思えませんし、マクドナルドの店舗数の増減がパチンコ低貸し台数割合に影響を与えているとは思えません。

相関関係は何に役立つかというと、予測です。Aという指標とBという指標(変数)に相関があるという規則性を知っていたら、いずれかの値が分かるともう一方の値の予測ができるのです。ある県のパチンコの低貸台数割合が分かれば、パチスロ低貸台数割合の予測精度が高まるのです。
ファイナンスの分野では、分散投資に利用されています。分散投資とは、資産を複数の対象に投資することで、そのうちの一つが値下がりしたときに、他のものでカバーをしてリスクを回避する方法です。2つの投資対象の値動きの相関係数が1に近い場合、同時に値下がりしてしまう可能性が高いため、相関係数がマイナスになる、すなわち逆の値動きをすると予測できる投資対象を組み込むのです。

相関関係が生じる主な原因
» BAを発生させる
» ABを発生させる
» ABは共にCが発生させている(疑似相関)
» ABには関係がないが偶然相関が生じた
» ABが互いに原因と結果の関係にある

2016年6月7日火曜日

#パレートの法則

「パレートの法則」で言う「2対8」というのは、もののたとえです。
実際のところ、日本の所得階層の上位20%の所得額は、国民全体の所得額の80%を占めているのでしょうか?

せいぜい50%くらいでしょう。

「いろんなデータを分析したところ、"2対8"になった」という方がいたら、その人はご自分で分析したことがないのではないか?と思います。
もちろん、4対6のこともあるし、2対8のこともある。

「2対8です!」という話を聞いたら、「へー、本当かな? 確かめてみよう」という気持ちが大事だと思います。

【参考】
2:8の法則って本当?

2016年6月6日月曜日

データ分析入門:散布図と相関係数(1)



企業、店舗、都市、人、製品などを比較しようというとき、様々な角度から調べると、得られたデータ(変数)の中には、類似した傾向を示すものがあり ます。
例えば、小学生の身体測定をすると、身長が高い子は体重が重い、身長が低い子は体重が軽いという傾向が見えます。この2つの観測値(変数)の関係のように、かなりの程度の規則性をもって、値(変量)が同時に変化していく性質を「相関」といいます。この小学生の例の場合は、実際の数字を見るまでもなく、我々の常識のひとつになっているはずです。
では、都道府県の面積と人口という2つ のデータ(変数)には、先の例のように相関があるでしょうか。たぶん、ありません。日本に住む我々は、「北海道はものすごく広いけど人口は少なく、東京は 小さいけど人口はすごく多い」ということを知っています。また、「逆に、面積が小さい県が総じて人口が多いというわけでもない」ということも知っていますよね。

しかし、実際に調べなければわからないこともあります。2つのデータ(変数)の関係性を調べるときに使われるのが「散布図」で、相関の強さ(類似性の度合い)を示す統計学的指標が「相関係数」です 

都市を比較しようとしたとき、「東京のような大都市は地方都市と比べるとファーストフード店が目立つ」ということが気になったとしましょう。人口が多いのだ からお店の数が多いのはある意味当然で、人口規模を無視して東京と他の都道府県を比較してもあまり意味がありません。そこで、同じ土俵で比較できるよう、 人口当たりの店舗数を計算します。ここでは20154月時点のマクドナルドの店舗数を使います。当時、マクドナルド店舗数は3000軒でした。

人口10万人当たりのマクドナルド店舗数が多いのは、京都、沖縄、東京、奈良、滋賀の順で、少ないのは岩手、秋田、島根、高知、鹿児島。おそらく、何らかの 出店基準に従った結果でしょう。上位にある首都圏や近畿圏は人口密度が高そうです。マクドナルドは広域から集客する業態ではなく、出店基準には人口密度と いう基準もあることがうかがえます。

もうひとつ、一見するとマクドナルドとは全く関係なさそうな、フェイスブックのユーザー数(同様に人口当たりに計算)のデータを眺めてみます。ユーザー数が 多いのは、東京、神奈川、京都、大阪、沖縄。少ないのは、秋田、山口、青森、岩手、山形。マクドナルド店舗数の上位、下位にも登場した都県が見られます。

今、各都道府県は、人口当たりのマクドナルド店舗数とフェイスブックユーザー数という2つ のデータ(変数)を持っています。それぞれの値(変量)を、横軸、縦軸にとって平面上にプロットしたものが散布図です。

 
マクドナルド店舗数…人口10万人あたり、単位:軒
FBユーザー数…人口100人あたり、単位:人



散らばりはまったくランダムという よりも、なんとなく右上がりの楕円の中に収まるように見えるのではないでしょうか。そして、図のように、すべての点の(数学的な)真ん中を通る直線を引く ことができます。一見関係なさそうな、マクドナルド店舗数とフェイスブックユーザー数という2つの変数には相関がありそうです。

相関の程度を示す相関係数は、1からマイナス1の範囲の値をとり、1 に近いときは2 つの変数には「正の相関がある」といい、マイナス1 に近ければ「負の相関がある」といいます。0 に近いときは相関は非常に弱い。このケースでは相関係数は06067で、「強い正の相関がある」と言われているレベルです。
 
+1.00 +0.60 強い正の関連性がある
+0.59 +0.40 中程度の正の関連性がある
+0.39 +0.20 弱い正の関連性がある
+0.19 -0.19 無相関
-0.20 -0.39 弱い負の関連性がある
-0.40 -0.59 中程度の負の関連性がある
-0.60 -1.00 強い負の関連性がある



過去30日間の閲覧上位エントリー