複数回テストした結果と一回だけやった結果の統計

トラックバックを頂いたようなので一言。
http://d.hatena.ne.jp/eliya/20080117/1200546260

kumakuma1967さんの言うように自明なことではありません。経済統計の結果って、たいてい当たり前のことが結論になっていて初心者のうちはがっかりすることが多いのですが、実際は当たり前じゃないことが多いんです。

統計的に相関がでるのが自明なんて事は一言も書いていない。私は「学問的興味を離れた私の日常的世界では統計をつかってまで疑うべき何かがあると思わなかった」と書いたつもりだ。

例にした植生帯の話にしたって、植生の分布と温度の関連性をきちんと出すために吉良は「暖かさの指数」という新たな指標まで考案している。植物にとってどのような温度が本質的かという議論を経て、きちんと分布と温度が統計的に対応する事が確かめられているわけだ。

自明になんかなんないのは百も承知の上で、失業率と犯罪に関連があるというのは、ある程度経験的な知識に合致する結果なんだが。

統計的な話でどうかというと、実は、今回のデータについては相関が高くてもあたりまえなのではないか、とは思ってはいるので、それが表面化しちゃったのだろうか。

http://d.hatena.ne.jp/kumakuma1967/20080116#p3
の続きの話になるのだが。

プリウスの燃費の方は、寒い時期が2回、暑い時期が2回含まれていて、中間的な時期が3回ある。
だから、個々のサンプルはバランスよく分配されている。

一方で、
ソース:犯罪の九割は失業率で説明がつく
http://www.mii.kurume-u.ac.jp/~tadasu/essay_80114.html

については、失業率が4%を超え、犯罪件数が200万件を超えているのはすべてこの10年の事である。
バブル崩壊までのデータは件数こそ多いけれど、そのほとんどは失業率が低い時代のデータに集中している。
「相関45度」のグラフの右上部分隠した散布図できれいな相関がでるかな?

この回帰式はバブル崩壊後の不景気一回だけの観測に引っ張られて高い相関出してる。確かに今回の不景気では失業と犯罪はきれいに連動した。
じゃ、プリウスのデータ観測が春−夏−秋を一回観測しただけでもサンプリングレート上げてNを増やせばp値上がるから信頼できるかな?
それって、ある人にボールを好きな方向に一回だけ投げてくれと頼んでみてボールが北北西に飛んだというのと大差ないのではないか?一般化できる?
相関高くなりそうだな&でもその知見の演繹はさけなくては、と警戒しちゃったけど。

失業率と犯罪件数だけが変化して、他の要素が変化しないなんて事もないわけで、svnseedさんの労作*1に現れた何回も波がある各国のデータでは、毎度毎度事情が違うなりに、概ね失業率が高いと犯罪が増える関係が現れている。回帰直線の説明率は低くても、検定したp値が低くても私にとってはこれは重要な意味のある分析だ。そして、概ね「失業率で説明がつく」にも反していない。
また、例外の英国について言及されているように、社会保障政策が相関関係をひっくり返すって可能性もとても魅力的だ。

もちろん、日本経済を突然浮上させたり、もっととんでもない不景気に落とし込んだりなんて経済学者の興味で出来る事じゃない。限られたデータで語らなくちゃいけないわけだけれど、不景気とは何か、失業とは何かを今より本質的にわからせてくれる何かが産まれてくる事に期待したいと思っている。*2

*1:http://d.hatena.ne.jp/svnseeds/20080116#p1

*2:失業率と犯罪発生がきれいに相関しちゃうほどの経済運営の失敗があったという事がはっきりすればいいなぁ