2016年12月26日月曜日

複数のデータから結果の予測を試みる(2)

以前、ある2つの変数に相関がある場合に片方のデータを得られるともう一方のデータを予測できることを紹介しました。

都道府県ごとのパチンコ設置台数に占める4円貸台数の割合と、平均賃金は正の相関があります。16年6月末時点の4円貸台数割合と、昨年6月時点の都道府県民の平均賃金の相関係数は0・6430で、強い相関があります。[4円台数割合=0・1523×平均賃金+9・8851]という、平均賃金を説明変数にした回帰式を求めることで、各都道府県の4円台数割合を予測する精度を高めることができます。

もし4円貸台数割合について、全国平均の「54・1%」という値のほかに知見を持ち合わせていなかった場合、ある県の4円貸台数割合も54・1%と予測するのがもっとも合理的です。他に方法はありません。
ところが、大阪府の4円台数割合は、平均賃金32 7・1千円というデータがあることによって59・7%と予測できます。全国平均の値54・1%と実際の値(57・6%)の差は3・5ポイントですが、予測値と実際の値の差は2・1ポイントに縮まりました。同様に秋田県の場合は、平均賃金235・8千円というデータによって45・8%と予測できます。実際の4円台数割合は45・5%ですから、ズレはわずか0・3ポイントです。

全体として予測精度が高まったかどうかを確かめる方法があります。都道府県ごとの実際の4円貸台数割合と全国平均値とのズレ幅の合計と、実際の4円貸台数割合と回帰直線のy軸の値のズレ幅の合計を比較すればよいのです。当然ながら回帰式による予測の方がズレは小さくなります。そもそも回帰直線とは、このズレの二乗が最も小さくなるように導き出したものだからです。

前回は、あるデータの予測に複数の変数のデータを用いる重回帰分析を紹介しました。都道府県民の平均賃金の他に、4円台数割合と相関の高いある変数「b」が見つかりました。相関係数は平均賃金(0・6430)よりやや小さく0・6006ですが、一般的には「高い相関がある」と言われる値です。重回帰式は以下の通りです。

4円貸台数割合
=0・1059×平均賃金+0・2180×b+11・7681

この式は、「4円貸台数割合は、平均賃金が1高い(千円高い)県は0・1 05 9高く、変数bが1高い県は0・218高くなる」ことを意味します。4円貸台数割合とこの2つの変数との相関係数(この場合は重相関係数と呼ぶ)は0・6613で、平均賃金との相関係数よりわずかに大きくなりました。

この重回帰式によって大阪府の4円台数割合を予測すると59・0%で、実際の値との差は1・4ポイントに縮まりました。ただし、この重回帰式によって、予測精度が高まるという意味は、「全体として見ると実際の値とのズレが小さくなる」ということであり、中には、先の単回帰分析による予測値よりも、この重回帰分析による予測値のほうが、実際の値とのズレが大きくなる都道府県もでてきます。とはいえ、繰り返しになりますがこういった予測のための変数(説明変数)がなかったら、全国平均の値しか頼りになるものはなく、地域差を考慮に入れた意思決定ができないのです。

この例では4円台数割合という変数を予測対象(目的変数)にしましたが、営業社員の月間の「獲得契約件数」を目的変数にして、月間の「訪問回数」などを説明変数にした回帰分析によって、訪問回数が1回増えることで契約件数が何件増えるかの予測を試みるといった使いかたもできます。 

では、ホールでは何を目的変数(成果)に設定して、何を説明変数にした回帰分析ができそうでしょうか。因果関係のある変数を見つけることができたら、それは、「何(説明変数)をすれば、成果(目的変数)がどれだけ高まるか」という方程式を見つけたということになります。


p.s.
ところで、この説明変数「b」って何だと思います?

複数のデータから結果の予測を試みる(1)

以前、都道府県の平均賃金から、その地域のパチンコ設置台数に占める4円パチンコの割合を予測できるとご紹介しました。その方法は、
①まず散布図を描き、県民賃金(x)と4円パチンコ割合(y)に相関があることを確認する。
②次に各都道府県を表す点の中心を通る回帰直線を描き、その傾き(a)と切片(b)から、〔y=ax+b〕の一次方程式を求める、
です。
この直線を「回帰直線」、求めた式を「回帰式」と呼びます。最もシンプルで簡単な予測の手法です。

13歳男子の平均体重は47・9キロです。では、ある13歳の男子生徒Aの体重を予測するにはどうすればいいか? その生徒Aが平均的な13歳の生徒よりも大きいのか、小さいのかといったことがわからない状態だったら、47・9キロと予測するのが最も合理的です。
一方で、身長と体重には正の相関があることがわかっていて、身長と体重のデータから求めた回帰式がわかて、生徒Aの身長がわかっていたらどうなるか。回帰式〔y=ax+b〕に当てはめることで、何のデータもない状態よりも高い精度で体重の予測ができます。これが以前ご説明した回帰分析による予測です。

では、身長のほかに胸囲のデータがあったらどうか。体重の予測精度はさらに高まることが容易に想像できると思います。回帰式は〔y=ax1+bx2+c〕と表すことができます。体重を予測するための要素が複数になったのです。ラーメン店の売上げ予測を例にすれば、店舗前の通行量というデータだけで予測を試みるよりも、その日の最高気温というデータも加えて予測するほうが精度は高いでしょう。
パチンコホールでも同様に、複数のデータ(説明変数)によって稼働を予測する回帰式をきっと作れるでしょう。

予測精度の高い回帰式を得られるとどんなメリットがあるかと言うと、成果(アウトカム)を高めるには何に注力すればよいかがわかる可能性があるからです。

ここまでを整理します。
このように、あるデータを他の複数のデータによって予測する分析手法を「重回帰分析」と呼びます。先の〔y=ax1+bx2+c〕の式は「重回帰式」と呼びます。yは目的変数、x1とx2は説明変数、aとbは係数、cは定数項です。

目的変数(y)とは、他の変数(x)によって説明される変数のことで、今回の例でいえば、生徒の体重、ラーメン店の売上、ホールの稼働といった、予測したい成果の数値です。
説明変数とは、目的変数を説明する変数のことで、生徒の身長や胸囲、ラーメン店の前の通行量や最高気温など。係数は、説明変数が目的変数にどの程度の影響を与えるかを表す数値で、これが大きいほど影響は大きくなります。
ただし、注意しなければならないのは、係数の大小によって、ひとつの重回帰式の中で、他の説明変数と影響力の大きさの比較をすることはできないのです。なぜかというと、説明変数のデータの単位の影響を受けるからです。それぞれの説明変数が目的変数に与える影響の大きさは、「t値」という別の数値を使います。



[参考]
ワイズン好きの経済学者オーリー・アッシェンフェルターは1980年代に、「どのヴィンテージを寝かせておけば価値が上がるのか?」と考えました。そこで過去数十年のボルドー地方の気象情報に着目し、ワイン競売価格の高低とどのように相関しているのかを重回帰分析し、「ワインの品質 = -12.145 + 0.00117×冬の降雨量 + 0.614 ×育成期平均気温 - 0.00386×収穫期降雨量 + 0.0239 ×1983年までのワインの熟成年数」という回帰式を導きだしました。1990年代前半に新聞記事に取り上げられたオーリーの理論と予測はワイン評論家、専門家たちを激怒させましたが、後年、予測の正しさが証明されました。
興味のある方は、『その数学が戦略を決める』(著=イアン・エアーズ/文藝春秋)ぜひ読んでみてください。

(週刊アミューズメントジャパン2016年11月21日に掲載)

過去30日間の閲覧上位エントリー