あーるPG - 社会人のデジタル生活

日曜プログラマになろうかなーと思った30代理系社会人の、キャリアアップや趣味(特にデジタル情報)の記録。らーめんとビールが好き。

統計学が最強の学問である

オススメ度:★★★★☆
最近ビッグデータデータマイニングが話題なのを受けてか、統計学のベースになっている理論とレポートの読み方が紹介されています。


まず統計学が何故最強かというと・・・どの分野でも”データを取り、そして現状の把握や施策の効果を確認する”ためには統計が必要とされますよね、だから統計学オールマイティーに必要とされるし活用できますよ、ということです。
確かにスポーツでも例えば短距離走のフォームを変えたら変える前と後のタイムを取って結果を精査するでしょう。人事システムが問題というのであれば、アンケートを取って結果を統計的に精査するでしょう。”改善のために何かをやって、その結果を見る”ためには統計が必要というのは納得できます。

統計学はペストが流行った頃には既に利用されていた学問ですが、何故近年話題になっているかというとオバマがWebサイトの改善にA/Bテストを用いて選挙に勝利したという逸話が広まったからです。そして統計学が近年発達した理由は、ひとえにITの進歩によるものです。昔はアメリカ国民の2%のデータを取ることすら、ましてやそれを解析して結果を模索ことすら非常に手間のかかることでした。が、今は情報の管理も、それを解析することも簡単です。データベースとコンピュータがあれば。そして”ビッグデータ”という言いやすくてなんだか判らないBuzzワードが流行したことにより「流行ってるらしいから我が社も導入しないと」といったお金の流れが発生しているわけです。
ただし、統計を導入するなら、”何が目的、目標か”を明確にするすることが重要です。ウェブサイトのPVを増やしたい、製品の改良した結果を確認したい、そんな目的には合致しますが、なんとなくビッグデータを導入しても金を溝(ドブ)に捨てるようなものです。仮説を立てるためか、仮説を証明するためか、どちらかの目的に向いています。

統計学の父、フィッシャーが残した偉大な成果の一つに、ランダム化があります。統計を取るためには母集団の条件を均一にする必要がありました。薬の効果を見る、つまり薬を与えた場合と与えない場合で差を測りたいとき、それ以外の条件を同一にしないと意味がありません。病弱な人と健康な人で、10歳と50歳では効果が違うでしょう。ただ同一の条件というのは非常に難しく、どこまで同一にすればいいかもわかりません。
しかし、フィッシャーは”ランダム化”を用いることによってそれをクリアしました。”ランダム化”とは、統計の対象(サンプル)の選び方をランダムにすることで、「全てランダムにしたんだから、条件は同一でしょ」という理論です。
この理論はWebでよく利用されれう”A/Bテスト”に良く現れています。A/Bテストとは、母集団の一部をランダムに抽出し、別のテストを行うものです。本当は全員にB(=改善後)のテストを行うのが良いのですが、時間も手間もかかるし万が一Bの結果が悪いと挽回できないため、全体の一部だけに適用することは非常に意味があります。
本書の事例では、ミルクティを作るにはミルクとティーのどちらを先にカップに入れるのが良いかが議論されており、人間がサンプルを用意すると恣意的な偏りが発生してしまうため、ランダムに行うことで実験が成功したそうです。


統計結果を見るためには標準誤差、回帰係数、P値、95%信頼区間について知っておく必要があります。特に統計結果というのは誤差を含むことを考慮しなければなりません。0.01%改善したといって喜んでいてもそれが誤差の範囲内だったら意味が無いわけです。
1要素(変数)の違いによる結果をみる統計結果が一番単純で、その変数によって結果がどう異なるかをあらわしたのが回帰係数です。男性か女性かなど数値で表せない変数は、”ダミー変数”といって0か1かで表現します。そしてこの場合の回帰変数は、直線の傾きのことです。
変数が複数ある場合は重回帰分析などの解析方法を利用しますが、結果の見方はそれほど変わりません。

統計の面白い事象として”シンプソンのパラドックス”があります。A高校の男子はB高校の男子よりテスト結果が5点高く、A高校の女子はB高校の女子より5点高いとしたら、A高校はB高校より5点高いでしょうか?以下の条件で計算してみると・・・

   人数 / 平均点

                                      • -

A男 1000 / 60
A女 1000 / 80
B男 100 / 55
B女 1000 / 75

                                      • -

A全 2000 / 70
B全 1100 / 73.18

というわけで、3.18点しか高くなりませんでした。
平均同士を比較するのは危険、ということですね。



ミルクティーを作る場合、ミルクを先に入れたほうが美味しいらしいですよ。

統計学が最強の学問である

統計学が最強の学問である