以前、ある2つの変数に相関がある場合に片方のデータを得られるともう一方のデータを予測できることを紹介しました。
都道府県ごとのパチンコ設置台数に占める4円貸台数の割合と、平均賃金は正の相関があります。16年6月末時点の4円貸台数割合と、昨年6月時点の都道府県民の平均賃金の相関係数は0・6430で、強い相関があります。[4円台数割合=0・1523×平均賃金+9・8851]という、平均賃金を説明変数にした回帰式を求めることで、各都道府県の4円台数割合を予測する精度を高めることができます。
もし4円貸台数割合について、全国平均の「54・1%」という値のほかに知見を持ち合わせていなかった場合、ある県の4円貸台数割合も54・1%と予測するのがもっとも合理的です。他に方法はありません。
ところが、大阪府の4円台数割合は、平均賃金32 7・1千円というデータがあることによって59・7%と予測できます。全国平均の値54・1%と実際の値(57・6%)の差は3・5ポイントですが、予測値と実際の値の差は2・1ポイントに縮まりました。同様に秋田県の場合は、平均賃金235・8千円というデータによって45・8%と予測できます。実際の4円台数割合は45・5%ですから、ズレはわずか0・3ポイントです。
全体として予測精度が高まったかどうかを確かめる方法があります。都道府県ごとの実際の4円貸台数割合と全国平均値とのズレ幅の合計と、実際の4円貸台数割合と回帰直線のy軸の値のズレ幅の合計を比較すればよいのです。当然ながら回帰式による予測の方がズレは小さくなります。そもそも回帰直線とは、このズレの二乗が最も小さくなるように導き出したものだからです。
前回は、あるデータの予測に複数の変数のデータを用いる重回帰分析を紹介しました。都道府県民の平均賃金の他に、4円台数割合と相関の高いある変数「b」が見つかりました。相関係数は平均賃金(0・6430)よりやや小さく0・6006ですが、一般的には「高い相関がある」と言われる値です。重回帰式は以下の通りです。
4円貸台数割合
=0・1059×平均賃金+0・2180×b+11・7681
この式は、「4円貸台数割合は、平均賃金が1高い(千円高い)県は0・1 05 9高く、変数bが1高い県は0・218高くなる」ことを意味します。4円貸台数割合とこの2つの変数との相関係数(この場合は重相関係数と呼ぶ)は0・6613で、平均賃金との相関係数よりわずかに大きくなりました。
この重回帰式によって大阪府の4円台数割合を予測すると59・0%で、実際の値との差は1・4ポイントに縮まりました。ただし、この重回帰式によって、予測精度が高まるという意味は、「全体として見ると実際の値とのズレが小さくなる」ということであり、中には、先の単回帰分析による予測値よりも、この重回帰分析による予測値のほうが、実際の値とのズレが大きくなる都道府県もでてきます。とはいえ、繰り返しになりますがこういった予測のための変数(説明変数)がなかったら、全国平均の値しか頼りになるものはなく、地域差を考慮に入れた意思決定ができないのです。
この例では4円台数割合という変数を予測対象(目的変数)にしましたが、営業社員の月間の「獲得契約件数」を目的変数にして、月間の「訪問回数」などを説明変数にした回帰分析によって、訪問回数が1回増えることで契約件数が何件増えるかの予測を試みるといった使いかたもできます。
では、ホールでは何を目的変数(成果)に設定して、何を説明変数にした回帰分析ができそうでしょうか。因果関係のある変数を見つけることができたら、それは、「何(説明変数)をすれば、成果(目的変数)がどれだけ高まるか」という方程式を見つけたということになります。
p.s.
ところで、この説明変数「b」って何だと思います?
2016年12月26日月曜日
登録:
コメントの投稿 (Atom)
過去30日間の閲覧上位エントリー
-
前回に続き、各都道府県について調べた 2 つのデータで散布図を作ってみます。 人口当たりのマクドナルド店舗数とパチンコ低貸台数割合には、相関があるでしょうか。パチンコ低貸台数割合は、週刊アミューズメントジャパン 2015 年 8 月 10 日号に掲載されたもので、 ...
-
カジノのルーレットは0〜36までの番号が振られたポケットがあります(ヨーロピアンスタイル)。特定の数字を予想して賭ける場合、確率は37分の1(2.7%)です。そう簡単に当たりませんから、1目賭けを続けていたらあっという間にチップがなくなるし、楽しくないと思います。 では、30...
-
企業、店舗、都市、人、製品などを比較しようというとき、様々な角度から調べると、得られたデータ(変数)の中には、類似した傾向を示すものがあり ます。 例えば、小学生の身体測定をすると、身長が高い子は体重が重い、身長が低い子は体重が軽いという傾向が見えます。この 2 つの...
-
「パレートの法則」で言う「2対8」というのは、もののたとえです。 実際のところ、日本の所得階層の上位20%の所得額は、国民全体の所得額の80%を占めているのでしょうか? せいぜい50%くらいでしょう。 「いろんなデータを分析したところ、"2対8"になった」と...
-
2つのヒストグラムがともに1つの山型でも、その形状は、鋭い山型の場合もあれば、なだらか山型の場合もあります。 図をある国の 10 年前の年間の世帯収入の分布、右図を現在の世帯収入の分布だとします。平均値も中央値も最頻値も同じで、ともに単峰性の山型です。違う...
0 件のコメント:
コメントを投稿