Research ＆ Solutions: 2016

2016年12月26日月曜日

複数のデータから結果の予測を試みる（２）

以前、ある2つの変数に相関がある場合に片方のデータを得られるともう一方のデータを予測できることを紹介しました。

都道府県ごとのパチンコ設置台数に占める4円貸台数の割合と、平均賃金は正の相関があります。16年6月末時点の4円貸台数割合と、昨年6月時点の都道府県民の平均賃金の相関係数は0・6430で、強い相関があります。［4円台数割合＝0・1523×平均賃金＋9・8851］という、平均賃金を説明変数にした回帰式を求めることで、各都道府県の4円台数割合を予測する精度を高めることができます。

もし4円貸台数割合について、全国平均の「54・1％」という値のほかに知見を持ち合わせていなかった場合、ある県の4円貸台数割合も54・1％と予測するのがもっとも合理的です。他に方法はありません。
ところが、大阪府の4円台数割合は、平均賃金32 7・1千円というデータがあることによって59・7％と予測できます。全国平均の値54・1％と実際の値（57・6％）の差は3・5ポイントですが、予測値と実際の値の差は2・1ポイントに縮まりました。同様に秋田県の場合は、平均賃金235・8千円というデータによって45・8％と予測できます。実際の4円台数割合は45・5％ですから、ズレはわずか0・3ポイントです。

全体として予測精度が高まったかどうかを確かめる方法があります。都道府県ごとの実際の4円貸台数割合と全国平均値とのズレ幅の合計と、実際の4円貸台数割合と回帰直線のｙ軸の値のズレ幅の合計を比較すればよいのです。当然ながら回帰式による予測の方がズレは小さくなります。そもそも回帰直線とは、このズレの二乗が最も小さくなるように導き出したものだからです。

前回は、あるデータの予測に複数の変数のデータを用いる重回帰分析を紹介しました。都道府県民の平均賃金の他に、4円台数割合と相関の高いある変数「b」が見つかりました。相関係数は平均賃金（0・6430）よりやや小さく0・6006ですが、一般的には「高い相関がある」と言われる値です。重回帰式は以下の通りです。

4円貸台数割合
＝0・1059×平均賃金+0・2180×b＋11・7681

この式は、「4円貸台数割合は、平均賃金が1高い（千円高い）県は0・1 05 9高く、変数bが1高い県は0・218高くなる」ことを意味します。4円貸台数割合とこの2つの変数との相関係数（この場合は重相関係数と呼ぶ）は0・6613で、平均賃金との相関係数よりわずかに大きくなりました。

この重回帰式によって大阪府の4円台数割合を予測すると59・0％で、実際の値との差は1・4ポイントに縮まりました。ただし、この重回帰式によって、予測精度が高まるという意味は、「全体として見ると実際の値とのズレが小さくなる」ということであり、中には、先の単回帰分析による予測値よりも、この重回帰分析による予測値のほうが、実際の値とのズレが大きくなる都道府県もでてきます。とはいえ、繰り返しになりますがこういった予測のための変数（説明変数）がなかったら、全国平均の値しか頼りになるものはなく、地域差を考慮に入れた意思決定ができないのです。

この例では4円台数割合という変数を予測対象（目的変数）にしましたが、営業社員の月間の「獲得契約件数」を目的変数にして、月間の「訪問回数」などを説明変数にした回帰分析によって、訪問回数が1回増えることで契約件数が何件増えるかの予測を試みるといった使いかたもできます。　

では、ホールでは何を目的変数（成果）に設定して、何を説明変数にした回帰分析ができそうでしょうか。因果関係のある変数を見つけることができたら、それは、「何（説明変数）をすれば、成果（目的変数）がどれだけ高まるか」という方程式を見つけたということになります。

p.s.
ところで、この説明変数「b」って何だと思います？

複数のデータから結果の予測を試みる（１）

以前、都道府県の平均賃金から、その地域のパチンコ設置台数に占める4円パチンコの割合を予測できるとご紹介しました。その方法は、
①まず散布図を描き、県民賃金（x）と4円パチンコ割合（y）に相関があることを確認する。
②次に各都道府県を表す点の中心を通る回帰直線を描き、その傾き（a）と切片（b）から、〔y＝ax＋b〕の一次方程式を求める、
です。
この直線を「回帰直線」、求めた式を「回帰式」と呼びます。最もシンプルで簡単な予測の手法です。

13歳男子の平均体重は47・9キロです。では、ある13歳の男子生徒Aの体重を予測するにはどうすればいいか？　その生徒Aが平均的な13歳の生徒よりも大きいのか、小さいのかといったことがわからない状態だったら、47・9キロと予測するのが最も合理的です。
一方で、身長と体重には正の相関があることがわかっていて、身長と体重のデータから求めた回帰式がわかて、生徒Aの身長がわかっていたらどうなるか。回帰式〔y＝ax＋b〕に当てはめることで、何のデータもない状態よりも高い精度で体重の予測ができます。これが以前ご説明した回帰分析による予測です。

では、身長のほかに胸囲のデータがあったらどうか。体重の予測精度はさらに高まることが容易に想像できると思います。回帰式は〔y＝ax1＋bx2＋c〕と表すことができます。体重を予測するための要素が複数になったのです。ラーメン店の売上げ予測を例にすれば、店舗前の通行量というデータだけで予測を試みるよりも、その日の最高気温というデータも加えて予測するほうが精度は高いでしょう。

パチンコホールでも同様に、複数のデータ（説明変数）によって稼働を予測する回帰式をきっと作れるでしょう。

予測精度の高い回帰式を得られるとどんなメリットがあるかと言うと、成果（アウトカム）を高めるには何に注力すればよいかがわかる可能性があるからです。

ここまでを整理します。
このように、あるデータを他の複数のデータによって予測する分析手法を「重回帰分析」と呼びます。先の〔y＝ax1＋bx2＋c〕の式は「重回帰式」と呼びます。yは目的変数、x1とx2は説明変数、aとbは係数、cは定数項です。

目的変数（y）とは、他の変数（x）によって説明される変数のことで、今回の例でいえば、生徒の体重、ラーメン店の売上、ホールの稼働といった、予測したい成果の数値です。
説明変数とは、目的変数を説明する変数のことで、生徒の身長や胸囲、ラーメン店の前の通行量や最高気温など。係数は、説明変数が目的変数にどの程度の影響を与えるかを表す数値で、これが大きいほど影響は大きくなります。
ただし、注意しなければならないのは、係数の大小によって、ひとつの重回帰式の中で、他の説明変数と影響力の大きさの比較をすることはできないのです。なぜかというと、説明変数のデータの単位の影響を受けるからです。それぞれの説明変数が目的変数に与える影響の大きさは、「t値」という別の数値を使います。

［参考］
ワイズン好きの経済学者オーリー・アッシェンフェルターは1980年代に、「どのヴィンテージを寝かせておけば価値が上がるのか？」と考えました。そこで過去数十年のボルドー地方の気象情報に着目し、ワイン競売価格の高低とどのように相関しているのかを重回帰分析し、「ワインの品質 = -12.145 + 0.00117×冬の降雨量 + 0.614 ×育成期平均気温 - 0.00386×収穫期降雨量 + 0.0239 ×1983年までのワインの熟成年数」という回帰式を導きだしました。1990年代前半に新聞記事に取り上げられたオーリーの理論と予測はワイン評論家、専門家たちを激怒させましたが、後年、予測の正しさが証明されました。
興味のある方は、『その数学が戦略を決める』（著=イアン・エアーズ／文藝春秋）ぜひ読んでみてください。

（週刊アミューズメントジャパン2016年11月21日に掲載）

2016年10月23日日曜日

来店客の分析から分かったこと

１１年前に某大学の学生が書いた論文の中に面白いデータを見つけました。ある居酒屋から伝票データを提供してもらい、注文内容を分析したもの。目的は、飲みものと食べ物がどのような組み合わせで注文されているかを調べ、「相性」をを数値化し、効果的なプロモーションの提案を試みること。

この分析の趣旨も面白いのですが、その手前の現状分析がじゅうぶんに面白い。
お客の人数（お一人様か２人組か３人組か…）による注文数と客単価の分析結果の中に、意外な数値があったのです。

1．注文回数は、１組あたりの人数が増えるほど高くなる。

これは実感ありますよね。お店の人を呼んで、注文した数分後に、「オレ、これ食べたいな。スイマセーン！」と注文する。注文したものが届いたその場で、「注文いいですか」と注文を入れる。人数が多いわけだから、当然ですよね。

2.滞在時間は、１組あたりの人数が増えるほど長くなる傾向がある。

１人客の平均滞在時間は７０分、２人組客は１１０分だったのに対して５人組客は１８８分。これも実感ありますよね。大勢でワイワイやってるわけですから。話は尽きないわけです。

3．客単価は、１組あたりの人数が増えるほど高くなるというような単純な傾向は見られない。

平均客単価は以下の様になっていました。

２人組客：２,９３５円
３人組客：２,６８０円
４人組客：３,１２３円
５人組客：３,３７５円
６人組客：３,２５３円

「３人組」のお客さんの客単価の低さは、メニューに何らかの問題があるのかもしれません。なぜかというと、１人あたりの「料理注文数」が少ないのです。
一方、まったく違う角度から考えれば、『この居酒屋には３人で行け！』ということです。同じお店に行って、他の組より安価に、「これでじゅうぶんいろいろ食べたよね」という満足を得ていると考えることもできますから。

誰が「いいお客さん」なのか？

しかし、ボクがすごく意外に思ったのは、「１人客」の客単価です。上にあえて書きませんでしたが、いくらくらいだと思いますか？
平均滞在時間は２人客の６４％、４人客の５０％ですよ。

　・
　・
　・

グループ客を上回る３,７８５円です！　

お一人様は回転が速く、客単価が高い。

これを知っているのと知らないのとでは、お店の施策（広告、席配置、メニュー、メニュー表記）はまったく違ってくるはずです。他のお客さんをないがしろにしないよう、注意を払いつつ、お一人様を大歓迎するべきです。

そして課題は３人組客ですよね。大抵、４人分の席を使いますから、ツボ効率的にも...。かといって排除するわけにもいかないので、「３ピースの何か」（３人で分けやすいとか）をメニューに加えるとか、対策の考えようがあるわけです。

もし、お客の人数（お一人様か２人組か３人組か…）による注文数と客単価の違いを知らなかったら、業績を上げるための施策は「闇雲」になってしまうのではないかと思います。

ちなみに、調査対象は約２カ月間の中の３５日の来店客で、分析に用いたのは７人以上の大グループを除外（調査の趣旨からサンプルとしてふさわしくないと判断された）した、データに欠損がない６３０組、１,６７１人。合計売上金額５,１０７,４１１円。

〔文＝田中剛／アミューズメントジャパン　元編集長〕

2016年10月15日土曜日

一次方程式によるシンプルな予測～回帰分析

週刊AJでは何度か、都道府県別のパチンコ設置台数に占める低貸営業台数の割合と県民平均賃金には強い負の相関があるとご紹介しています。昨年6月末時点のデータでは、相関係数はマイナス0・7062でした。今回は、説明を分かりやすくするため、同じデータで「4円貸台数割合」と県民賃金で散布図を作りました（図）。4円貸台数割合はたんなる低貸台数割合の裏返しですから相関係数は0・7062です。ちなみに、7月4日号のコラム（第5回）でも、散布図と相関係数の説明をしましたね。

2変数に相関関係がみられるとき、散布図の点の散らばりの傾向性を示すような直線を、スパッと引きたくなるのが心情です。いま散布図の中に、点の集まりの中をうまく通るような右上がりの直線を引いていますが、これを「回帰直線」といいます。

全部のデータが直線の上に乗っていない限り、どれだけうまく直線を引いたとしても、直線と実際のデータは少しずれます。直線のｙ軸の値と、散布図の全ての点のｙ軸の値の「ずれ」の二乗の総和が最小になるよう、計算によって求めた直線が回帰直線です。もう少し急な角度の直線を引けば、直線のｙ軸の値は神奈川や京都に近づきますが、大阪や愛知など直線のｙ軸の値と離れてしまう県もでてきます。

この直線は、一次方程式（y=ax+b）の形で表現することができ、4円貸台数割合ｙと県民賃金ｘの関係は、次のように表せます。
y＝0.1714x＋6.8436
この式を「回帰式」と呼びます。

回帰式は何の役に立つのか？

これが何の役に立つのかというと、代表的な用途は次の2つで、このような分析を「回帰分析」と言います。
（1）例えば、宣伝費（ｘ）と売上高（ｙ）の関係がわかっていた場合、目標とする売上高に対して宣伝費を決定することができます。……制御
（2）例えば、人口（ｘ）と商店数（ｙ）の関係が分かっていれば、ある市の人口からその市の商店数を予測することができます。……予測
県民平均賃金（ｘ）と4円貸台数割合（ｙ）の場合でいうと、一方の数値がわかった場合、他方の数値を予測することができます。

もし回帰直線、回帰式がなく、「全国のパチンコ設置台数に占める4円貸の台数割合の割合は56・2％」というデータしかなかったら、どの県であろうと4円貸台数の割合は「56・2％」と予測するのが最も自然です。ところが、これでは実際との誤差が大きいのです。
神奈川の実際の4円貸台数割合は67・4％なので、全国平均との誤差は11・2ポイント。先述の回帰式があり、神奈川の県民賃金が33万6千円とわかると、4円貸台数割合は64・7％と予測でき、誤差はわずか3ポイントです。愛知の実際の4円貸台数割合は59・2％なので、全国平均との誤差は3ポイント。回帰分析による予測値は60・4％で、誤差はわずか1・2ポイントです。

回帰式による予測が有効なのは、今回のように2変数（この場合は県民賃金と4円貸台数割合）に相関がある場合です。相関がない散布図にも、計算によって回帰直線を引くことはできますが、予測に用いることはできません。

p.s.
シンプルながら、けっこうパワフルだと思いませんか？　企業内、店内には、まだまだ活用されてい居ないさまざまなデータが眠っているかもしれませんね。
どのデータを使って、何をするのか？　それを考えることがマーケティング部門に求められていることなんじゃないかと思います。

〔記事＝田中剛／アミューズメントジャパン編集部〕

2016年9月27日火曜日

統計資料を読む　～特定サービス産業動態統計

特定サービス産業動態統計調査の7月分確報によると、パチンコホール業の売上高は3215億4500万円だった。実は、この売上高にはあまり意味がありません。業界の流れを見るには多少の加工が必要です。

経済産業省が9月15日に発表した特定サービス産業動態統計調査の7月分確報によると、パチンコホール業の売上高は昨年7月比で11・9％減少だった。
この調査は原則として、各業種の「全国年間売上高のおおむね70％をカバーする売上高上位の企業（または事業所」を調査対象としています。しかしパチンコホール業界については、ホール軒数で業界全体の約13％、設置台数で約16％を調査サンプルにしています。ユニークなのは、このサンプルから業種全体を推計せず、あくまでも調査対象企業の売上高の合計を月々報じている点。店舗数が月々で変動しているため、調査対象企業の売上高合計もその変動が反映されているのです。

調査対象になった企業の、7月のホール規模は平均516・2台で、前年同月より1・4台増加。過去1年の間、514台から517台の間でほぼ一定しています。全国1万1000店の平均が約340台なので、調査対象は規模の大きいホールを有する法人が中心になっていることがわかります。つまり、業界の「縮図」になるようにサンプリングしているわけではないということです。これは、統計資料を読むうえでかなり大事なことです。

遊技機1台あたりに換算

そこで、この調査で公表されている調査対象企業の売上高、設置台数、店舗数などから、1店舗当たりの月間売上高と遊技機1台あたりの月間売上高を算出しその推移を見た。

1店舗当たりの月間売上高は、7月は平均2億5300万円で、前年同月より12％減少。過去1年の間で売上高が最も高かったのは昨年8月で2億9000万円。最も低かったのは今年6月で2億3400万円。
遊技機1台あたり売上高は、7月は49万円で、前年同月より12・3％（6万8800円）低い水準。ただしボーナス月ということもあり、今年2月以降で見ると最も高く、前の月よりも6・7％ポイント上昇しています。

【図】1台あたり売上高の推移（15年7月を100として指数化）

「49万円」という数値そのものは多くのホールにとって参考にならないでしょうが、昨年7月の売上高を100とした場合の、月々の推移は参考になるはずです。

2016年8月22日月曜日

メダルを獲るためには何が必要か？

リオ・オリンピックが終わりました。
日本の金メダル獲得数は12で参加国中6位。金銀銅合わせた獲得数は41で6位という結果でした。

2000年以降のオリンピックにおける、各国の金メダル獲得数とGDPの関係を分析した記事を見かけたので、今回のリオ・オリンピックについて確かめてみました。

対象にしたのは金銀銅合わせたメダル獲得数とGDPの関係です（GDPデータがないキューバと北朝鮮を除く）。

散布図を作るまでもなく、アメリカの強さは圧倒的です。メダル獲得数は2位の中国（70）の約1.8倍の121です。
メダル獲得数とGDPの相関係数は0.885057と非常に強い正の相関があることを示しています。

アメリカを除いて散布図を作ると、中国のGDPの大きさが突出しているのが一目瞭然です。

そこで、アメリカと中国を除いた散布図を作りました（下図）。
相関係数は0.801249で、やはり強い正の相関があることを示しています。

選手、コーチ、トレーナーによるチームを作り、スポーツに打ち込み、試合やトレーニングのために海外遠征する。そのためには莫大な予算が必要になることは想像に難くないことです。

ところで、散布図を見る限りでは、日本は「GDPの大きさの割りに、メダルが少なかった」という見方もできそうです。

文＝田中剛（アミューズメントジャパン編集部）

2016年6月15日水曜日

データ分析入門：散布図と相関係数（２）

前回に続き、各都道府県について調べた2つのデータで散布図を作ってみます。

人口当たりのマクドナルド店舗数とパチンコ低貸台数割合には、相関があるでしょうか。パチンコ低貸台数割合は、週刊アミューズメントジャパン2015年8月10日号に掲載されたもので、15年6月末時点のP‐WORLD登録店舗情報をもとにピーワールドインサイトが集計したものです。

散布図を見ると、マクドナルド店舗数が多い都道府県はパチンコ低貸台数割合が低いという傾向が見えます。このように、一方が高いと他方は低い傾向が見られるとき、2つの変数には「負の相関がある」と言います。相関係数はマイナス0・5786で、「中程度の負の相関がある」と言われるレベルです。

ちなみに、パチンコの低貸台数割合とパチスロの低貸台数割合は図のように「強い正の相関がある」と言われるレベルです。

注意していただきたいのは、これらの散布図が意味するのは、「Aが多い都道府県はBも多い。反対に、Aが少ない都道府県はBも少ない」ということであって、因果関係を示してはいません。常識的に考えても、マクドナルドの店舗数の増減がフェイスブックユーザー数に影響を与えているとは思えませんし、マクドナルドの店舗数の増減がパチンコ低貸し台数割合に影響を与えているとは思えません。

相関関係は何に役立つかというと、予測です。Aという指標とBという指標（変数）に相関があるという規則性を知っていたら、いずれかの値が分かるともう一方の値の予測ができるのです。ある県のパチンコの低貸台数割合が分かれば、パチスロ低貸台数割合の予測精度が高まるのです。

ファイナンスの分野では、分散投資に利用されています。分散投資とは、資産を複数の対象に投資することで、そのうちの一つが値下がりしたときに、他のものでカバーをしてリスクを回避する方法です。2つの投資対象の値動きの相関係数が1に近い場合、同時に値下がりしてしまう可能性が高いため、相関係数がマイナスになる、すなわち逆の値動きをすると予測できる投資対象を組み込むのです。

相関関係が生じる主な原因

» BがAを発生させる

» AがBを発生させる

» AとBは共にCが発生させている（疑似相関）

» AとBには関係がないが偶然相関が生じた

» AとBが互いに原因と結果の関係にある

2016年6月7日火曜日

＃パレートの法則

「パレートの法則」で言う「2対8」というのは、もののたとえです。

実際のところ、日本の所得階層の上位20％の所得額は、国民全体の所得額の80％を占めているのでしょうか？

せいぜい50％くらいでしょう。

「いろんなデータを分析したところ、＂2対8＂になった」という方がいたら、その人はご自分で分析したことがないのではないか？と思います。

もちろん、4対6のこともあるし、2対8のこともある。

「2対8です！」という話を聞いたら、「へー、本当かな？確かめてみよう」という気持ちが大事だと思います。

【参考】

２：８の法則って本当？

http://s.ameblo.jp/go-tnk/entry-10051712029.html

2016年6月6日月曜日

データ分析入門：散布図と相関係数（１）

企業、店舗、都市、人、製品などを比較しようというとき、様々な角度から調べると、得られたデータ（変数）の中には、類似した傾向を示すものがあります。
例えば、小学生の身体測定をすると、身長が高い子は体重が重い、身長が低い子は体重が軽いという傾向が見えます。この2つの観測値（変数）の関係のように、かなりの程度の規則性をもって、値（変量）が同時に変化していく性質を「相関」といいます。この小学生の例の場合は、実際の数字を見るまでもなく、我々の常識のひとつになっているはずです。

では、都道府県の面積と人口という2つのデータ（変数）には、先の例のように相関があるでしょうか。たぶん、ありません。日本に住む我々は、「北海道はものすごく広いけど人口は少なく、東京は小さいけど人口はすごく多い」ということを知っています。また、「逆に、面積が小さい県が総じて人口が多いというわけでもない」ということも知っていますよね。

しかし、実際に調べなければわからないこともあります。2つのデータ（変数）の関係性を調べるときに使われるのが「散布図」で、相関の強さ（類似性の度合い）を示す統計学的指標が「相関係数」です。

都市を比較しようとしたとき、「東京のような大都市は地方都市と比べるとファーストフード店が目立つ」ということが気になったとしましょう。人口が多いのだからお店の数が多いのはある意味当然で、人口規模を無視して東京と他の都道府県を比較してもあまり意味がありません。そこで、同じ土俵で比較できるよう、人口当たりの店舗数を計算します。ここでは2015年4月時点のマクドナルドの店舗数を使います。当時、マクドナルド店舗数は３０００軒でした。

人口１０万人当たりのマクドナルド店舗数が多いのは、京都、沖縄、東京、奈良、滋賀の順で、少ないのは岩手、秋田、島根、高知、鹿児島。おそらく、何らかの出店基準に従った結果でしょう。上位にある首都圏や近畿圏は人口密度が高そうです。マクドナルドは広域から集客する業態ではなく、出店基準には人口密度という基準もあることがうかがえます。

もうひとつ、一見するとマクドナルドとは全く関係なさそうな、フェイスブックのユーザー数（同様に人口当たりに計算）のデータを眺めてみます。ユーザー数が多いのは、東京、神奈川、京都、大阪、沖縄。少ないのは、秋田、山口、青森、岩手、山形。マクドナルド店舗数の上位、下位にも登場した都県が見られます。

今、各都道府県は、人口当たりのマクドナルド店舗数とフェイスブックユーザー数という2つのデータ（変数）を持っています。それぞれの値（変量）を、横軸、縦軸にとって平面上にプロットしたものが散布図です。

マクドナルド店舗数…人口10万人あたり、単位：軒

FBユーザー数…人口100人あたり、単位：人

散らばりはまったくランダムというよりも、なんとなく右上がりの楕円の中に収まるように見えるのではないでしょうか。そして、図のように、すべての点の（数学的な）真ん中を通る直線を引くことができます。一見関係なさそうな、マクドナルド店舗数とフェイスブックユーザー数という２つの変数には相関がありそうです。

相関の程度を示す相関係数は、1からマイナス1の範囲の値をとり、1 に近いときは2 つの変数には「正の相関がある」といい、マイナス1 に近ければ「負の相関がある」といいます。0 に近いときは相関は非常に弱い。このケースでは相関係数は0・6067で、「強い正の相関がある」と言われているレベルです。

+1.00 ～ +0.60　強い正の関連性がある

+0.59 ～ +0.40　中程度の正の関連性がある

+0.39 ～ +0.20　弱い正の関連性がある

+0.19 ～ -0.19　無相関

-0.20 ～ -0.39　弱い負の関連性がある

-0.40 ～ -0.59　中程度の負の関連性がある

-0.60 ～ -1.00　強い負の関連性がある