2016年12月26日月曜日

複数のデータから結果の予測を試みる(1)

以前、都道府県の平均賃金から、その地域のパチンコ設置台数に占める4円パチンコの割合を予測できるとご紹介しました。その方法は、
①まず散布図を描き、県民賃金(x)と4円パチンコ割合(y)に相関があることを確認する。
②次に各都道府県を表す点の中心を通る回帰直線を描き、その傾き(a)と切片(b)から、〔y=ax+b〕の一次方程式を求める、
です。
この直線を「回帰直線」、求めた式を「回帰式」と呼びます。最もシンプルで簡単な予測の手法です。

13歳男子の平均体重は47・9キロです。では、ある13歳の男子生徒Aの体重を予測するにはどうすればいいか? その生徒Aが平均的な13歳の生徒よりも大きいのか、小さいのかといったことがわからない状態だったら、47・9キロと予測するのが最も合理的です。
一方で、身長と体重には正の相関があることがわかっていて、身長と体重のデータから求めた回帰式がわかて、生徒Aの身長がわかっていたらどうなるか。回帰式〔y=ax+b〕に当てはめることで、何のデータもない状態よりも高い精度で体重の予測ができます。これが以前ご説明した回帰分析による予測です。

では、身長のほかに胸囲のデータがあったらどうか。体重の予測精度はさらに高まることが容易に想像できると思います。回帰式は〔y=ax1+bx2+c〕と表すことができます。体重を予測するための要素が複数になったのです。ラーメン店の売上げ予測を例にすれば、店舗前の通行量というデータだけで予測を試みるよりも、その日の最高気温というデータも加えて予測するほうが精度は高いでしょう。
パチンコホールでも同様に、複数のデータ(説明変数)によって稼働を予測する回帰式をきっと作れるでしょう。

予測精度の高い回帰式を得られるとどんなメリットがあるかと言うと、成果(アウトカム)を高めるには何に注力すればよいかがわかる可能性があるからです。

ここまでを整理します。
このように、あるデータを他の複数のデータによって予測する分析手法を「重回帰分析」と呼びます。先の〔y=ax1+bx2+c〕の式は「重回帰式」と呼びます。yは目的変数、x1とx2は説明変数、aとbは係数、cは定数項です。

目的変数(y)とは、他の変数(x)によって説明される変数のことで、今回の例でいえば、生徒の体重、ラーメン店の売上、ホールの稼働といった、予測したい成果の数値です。
説明変数とは、目的変数を説明する変数のことで、生徒の身長や胸囲、ラーメン店の前の通行量や最高気温など。係数は、説明変数が目的変数にどの程度の影響を与えるかを表す数値で、これが大きいほど影響は大きくなります。
ただし、注意しなければならないのは、係数の大小によって、ひとつの重回帰式の中で、他の説明変数と影響力の大きさの比較をすることはできないのです。なぜかというと、説明変数のデータの単位の影響を受けるからです。それぞれの説明変数が目的変数に与える影響の大きさは、「t値」という別の数値を使います。



[参考]
ワイズン好きの経済学者オーリー・アッシェンフェルターは1980年代に、「どのヴィンテージを寝かせておけば価値が上がるのか?」と考えました。そこで過去数十年のボルドー地方の気象情報に着目し、ワイン競売価格の高低とどのように相関しているのかを重回帰分析し、「ワインの品質 = -12.145 + 0.00117×冬の降雨量 + 0.614 ×育成期平均気温 - 0.00386×収穫期降雨量 + 0.0239 ×1983年までのワインの熟成年数」という回帰式を導きだしました。1990年代前半に新聞記事に取り上げられたオーリーの理論と予測はワイン評論家、専門家たちを激怒させましたが、後年、予測の正しさが証明されました。
興味のある方は、『その数学が戦略を決める』(著=イアン・エアーズ/文藝春秋)ぜひ読んでみてください。

(週刊アミューズメントジャパン2016年11月21日に掲載)

0 件のコメント:

コメントを投稿

過去30日間の閲覧上位エントリー