2016年12月26日月曜日

複数のデータから結果の予測を試みる(2)

以前、ある2つの変数に相関がある場合に片方のデータを得られるともう一方のデータを予測できることを紹介しました。

都道府県ごとのパチンコ設置台数に占める4円貸台数の割合と、平均賃金は正の相関があります。16年6月末時点の4円貸台数割合と、昨年6月時点の都道府県民の平均賃金の相関係数は0・6430で、強い相関があります。[4円台数割合=0・1523×平均賃金+9・8851]という、平均賃金を説明変数にした回帰式を求めることで、各都道府県の4円台数割合を予測する精度を高めることができます。

もし4円貸台数割合について、全国平均の「54・1%」という値のほかに知見を持ち合わせていなかった場合、ある県の4円貸台数割合も54・1%と予測するのがもっとも合理的です。他に方法はありません。
ところが、大阪府の4円台数割合は、平均賃金32 7・1千円というデータがあることによって59・7%と予測できます。全国平均の値54・1%と実際の値(57・6%)の差は3・5ポイントですが、予測値と実際の値の差は2・1ポイントに縮まりました。同様に秋田県の場合は、平均賃金235・8千円というデータによって45・8%と予測できます。実際の4円台数割合は45・5%ですから、ズレはわずか0・3ポイントです。

全体として予測精度が高まったかどうかを確かめる方法があります。都道府県ごとの実際の4円貸台数割合と全国平均値とのズレ幅の合計と、実際の4円貸台数割合と回帰直線のy軸の値のズレ幅の合計を比較すればよいのです。当然ながら回帰式による予測の方がズレは小さくなります。そもそも回帰直線とは、このズレの二乗が最も小さくなるように導き出したものだからです。

前回は、あるデータの予測に複数の変数のデータを用いる重回帰分析を紹介しました。都道府県民の平均賃金の他に、4円台数割合と相関の高いある変数「b」が見つかりました。相関係数は平均賃金(0・6430)よりやや小さく0・6006ですが、一般的には「高い相関がある」と言われる値です。重回帰式は以下の通りです。

4円貸台数割合
=0・1059×平均賃金+0・2180×b+11・7681

この式は、「4円貸台数割合は、平均賃金が1高い(千円高い)県は0・1 05 9高く、変数bが1高い県は0・218高くなる」ことを意味します。4円貸台数割合とこの2つの変数との相関係数(この場合は重相関係数と呼ぶ)は0・6613で、平均賃金との相関係数よりわずかに大きくなりました。

この重回帰式によって大阪府の4円台数割合を予測すると59・0%で、実際の値との差は1・4ポイントに縮まりました。ただし、この重回帰式によって、予測精度が高まるという意味は、「全体として見ると実際の値とのズレが小さくなる」ということであり、中には、先の単回帰分析による予測値よりも、この重回帰分析による予測値のほうが、実際の値とのズレが大きくなる都道府県もでてきます。とはいえ、繰り返しになりますがこういった予測のための変数(説明変数)がなかったら、全国平均の値しか頼りになるものはなく、地域差を考慮に入れた意思決定ができないのです。

この例では4円台数割合という変数を予測対象(目的変数)にしましたが、営業社員の月間の「獲得契約件数」を目的変数にして、月間の「訪問回数」などを説明変数にした回帰分析によって、訪問回数が1回増えることで契約件数が何件増えるかの予測を試みるといった使いかたもできます。 

では、ホールでは何を目的変数(成果)に設定して、何を説明変数にした回帰分析ができそうでしょうか。因果関係のある変数を見つけることができたら、それは、「何(説明変数)をすれば、成果(目的変数)がどれだけ高まるか」という方程式を見つけたということになります。


p.s.
ところで、この説明変数「b」って何だと思います?

0 件のコメント:

コメントを投稿

過去30日間の閲覧上位エントリー