読者です 読者をやめる 読者になる 読者になる

蛭川研究室

蛭川研究室の「はてなブログ」版です

統計的仮説検定の考えかた

帰無仮説を立てる

統計的な仮説検定の手続きでは、最初に仮説を立てるのであるが

「『データが偏っている』ので『二つの変数の間に関係がある』」

という積極的な仮説を立てるのではなく、逆に

「『二つの変数の間には関係がない』ので『データの偏りは偶然生じた』」

という「帰無仮説 null hypothesis」を立て、その帰無仮説を

「『データの偏りが偶然生じた』といえる確率は無視できるほど低い」

という論理で棄却することによって、つまり、二重否定の論理で議論を進めていく。

有意確率の計算

まず、得られたデータが帰無仮説によって説明できる、つまり「データの偏りが偶然生じる」確率(有意確率)を計算する。

この有意確率(たんにp(probabilityの略)と表されることも多い)が0になれば帰無仮説は完全に棄却されるのだが、有意確率は限りなく0に近づくことはできても、決して0にはならない。コインを1000回投げて1000回表が出ても、次に0が出る確率は1ではなく、やはり\frac{1}{2}である。そこで、ある一定の水準(有意水準 level of significance)を決めて、pがその基準より小さい場合に、それは充分に小さく、0とみなせるとして、帰無仮説を捨てることにする。有意水準としてはふつう、5%か1%が用いられる。心理学など、人文社会系の学問で、厳密な分析が難しい場合には、より緩やかな5%が用いられたり、場合によっては10%が「有意傾向」として用いられることもある。いずれにしても、これらの数字は人間の指の数を基準に決めた便宜的な値であって、数学的な必然性があるわけではない。

たとえば有意水準を5%とすると

p≧0.05なら
 →「『データの偏りは偶然生じた』といえる」
 →「5%水準で有意ではない」という

p<0.05なら
 →「『データの偏りは偶然生じた』とはいえない」
 →「5%水準で有意」という

けっきょく、この方法では「データの偏りが必然的に生じた」という積極的な結果を示すことはできない。つまり、統計的に有意な結果が出ても、二つの変数の間に「ある有意水準を基準にすれば」「関係がないとはいえない」と控えめに言えるだけで、「関係がある」とは言い切れない。

具体的な計算の例

5種類の模様が印刷されているカードを裏返してランダムに混ぜ、模様を当てようとして当たる確率は\frac{1}{5}=0.2である。

たとえば、これを5回繰り返して、最初に外れ、次に5回続けて当たったとする。この場合、どの程度「有意」に当たったと考えられるだろうか。1回で当たる確率は上述のとおり\frac{1}{5}=0.2である。最初に1回外して、それから4回当たる確率は、\left(\frac{4}{5}\right)\left(\frac{1}{5}\right)^4となる。

当たり・外れが任意の時点で起こる場合を含め、5回の試行で4回当たる確率は、1回目、2回目、…5回目で外す、という5通りの可能性があるので、5\left(\frac{1}{5}\right)^4\left(\frac{4}{5}\right)=\frac{4}{625}=0.0064となる。つまり、偶然4回当たってしまう確率は、0.64%であり、5%水準でも、1%水準でも、統計的に有意だといえる。

さらに一般化すると、1回の試行で当たる確率がpである場合、n回の試行でk回の当たりが出る確率は、\begin{eqnarray}
{}_n C _k
\end{eqnarray}p^k(1-p)^{n-k}と示せる。

5回の試行で4回当たっても、50回の試行で40回当たっても、500回の試行で400回当たっても、正答率は0.8だが、p、つまり偶然に正答率が0.8になる確率は桁違いに小さくなり、限りなく0に収束していく。だから、実験の回数は増やしたほうがより正確な結果が得られる。しかし、すでに述べたように、pは絶対に0にはならないので、試行の回数を無限に増やしても、仮説が完全に証明されることはない。(以下の反証主義の項を参照のこと。)

逆に、実験の回数を増やすほどに、正答率が期待値(0.2)をすこし上回っただけでもp値は非常に小さくなるので、統計的に有意だからといっても正答率自体はそれほど高くないということにも留意しなければならない。

第一種の誤りと第二種の誤り

すでに議論したとおり、統計的な仮説検定は、完全な方法ではない。ときには誤った結論に導かれることもある。この誤りの可能性には二種類ある。

データの偏りが偶然なのに、偶然ではないと結論してしまう
 → 第一種の誤り type one error

データの偏りが偶然ではないのに、偶然だと結論してしまう
 → 第二種の誤り type two error

第二種の誤りは、実験データに含まれる貴重な情報を見過ごしてしまうだけにとどまるが、むしろ注意しなければならないのは第一種の誤りで、何もないところに、関係性を見いだしてしまうことになりかねない。

第一種の誤りを冒す確率は設定した有意水準と同じで、有意水準の確率が高いほどその危険性は増す。たとえば、有意水準が5%、つまり二十分の一の場合、20回に1回はこの誤りが起こる。つまり、無関係なはずの変数の組み合わせを手当たり次第に20通り試せば、1回ぐらいは5%で有意な結果が出てもおかしくないことになる。

実証主義反証主義

なぜ、二重否定という回りくどい論理を使うのだろうか。この考え方は、統計的な仮説検定法だけではなく、科学的な方法論一般の考え方でもある。素朴な実証主義 positivism がより洗練されたのが反証主義 falsificationism であり、[より正確にいうと、全称命題的な]科学的仮説は検証 verify できないが、反証 falsify はできる、と考える。実証主義は、実証可能性を科学的仮説の必要条件とするが、反証主義では、反証可能性を科学的仮説の必要条件とする。

たとえば「黒いカラスが存在する」という「特称命題」は、黒いカラスを一匹見つければ証明できるが、「すべてのカラスは黒い」という「全称命題」を実証するためには、地球上のすべてのカラスを観察して、全部が黒いことを示さなければならないので、事実上、不可能である。しかし、これを反証するためには、白いカラスを一匹見つけるだけでいい。

科学的な研究には、理論を証明することはできない。理論を反証することしかできないのである。


(2006-12-08 作成 2017-05-09 更新 蛭川立