統計的仮説検定の考えかた

帰無仮説を立てる

統計的な仮説検定の手続きでは、最初に仮説を立てるのであるが

「『データが偏っている』ので『二つの変数の間に関係がある』」

という積極的な仮説を立てるのではなく、逆に

「『二つの変数の間には関係がない』ので『データの偏りは偶然生じた』」

という「帰無仮説 null hypothesis」を立て、その帰無仮説を

「『データの偏りが偶然生じた』といえる確率は無視できるほど低い」

という論理で棄却することによって、つまり、二重否定の論理で議論を進めていく。

有意確率の計算

まず、得られたデータが帰無仮説によって説明できる、つまり「データの偏りが偶然生じる」確率(有意確率)を計算する。

この有意確率(たんにp(probabilityの略)と表されることも多い)が0になれば帰無仮説は完全に棄却されるのだが、有意確率は限りなく0に近づくことはできても、決して0にはならない。コインを1000回投げて1000回表が出ても、次に0が出る確率は1ではなく、やはり\frac{1}{2}である。そこで、ある一定の水準(有意水準 level of significance)を決めて、pがその基準より小さい場合に、それは充分に小さく、0とみなせるとして、帰無仮説を捨てることにする。

有意水準としてはふつう、5%か1%が用いられる。心理学など、人文社会系の学問で、厳密な分析が難しい場合には、より緩やかな5%が用いられたり、場合によっては10%が「有意傾向」として用いられることもある。いずれにしても、これらの数字は十進法を基準に決めた便宜的な値であって、数学的な必然性があるわけではない。

たとえば有意水準を5%とすると

p≧0.05なら
 →「『データの偏りは偶然生じた』といえる」
 →「5%水準で有意ではない」という

p<0.05なら
 →「『データの偏りは偶然生じた』とはいえない」
 →「5%水準で有意」という

けっきょく、この方法では「データの偏りが必然的に生じた」という積極的な結果を示すことはできない。つまり、統計的に有意な結果が出ても、二つの変数の間に「ある有意水準を基準にすれば」「関係がないとはいえない」と控えめにいえるだけで、「関係がある」とは言い切れない。

具体的な計算の例

私は透視能力の被験者になったことがある。放射線医学総合研究所の山本幹男研究室というところで、不思議な能力の研究をしているというので、どんなことをしているのか、興味があって訪ねていったのである。

ゼナーカード(いわゆるESPカード)、つまりデューク大学ライン研究所で透視実験のために真面目に研究に使用されていたカードが、この研究でも使われた。5種類の模様が印刷されてあるカードが3枚裏返しに並べられていて、その模様を当ててほしいというのである。当たったときと、外れたときの脳の働きをNIRS(近赤外線スペクトロスコピー/光トポグラフィー)で調べて比較するという実験だった。

f:id:ininsui:20170508231240j:plain

5種類の模様が印刷されているカードを裏返してランダムに混ぜる。模様を当てようとして当たる確率は\frac{1}{5}=0.2である。

1枚目は、直感的に「□」だと思った。実験者がカードを裏返すと「○」で、外れだった。

これではいけないと思い、目を閉じて、数秒間、ぐっと集中してから、2枚目のイメージをつくった。眉間の暗闇の向こうに十字架、つまり「┼」がぼんやり輝いているのが見えた。そのことを告げてから、実験者がカードを裏返すと、カードの模様は私の言ったとおり「┼」だった。

これはいい感じになってきたと、残された1枚、つまり3枚目のカードの裏側を、こんどは目を開けてじっと凝視すると、また「□」のイメージがカードの裏からにじみ出てきた。実験者ががカードを裏返すと、模様はまた私の言ったとおり「□」だった。周囲のスタッフからため息がもれた。

私には透視能力があったのだろうか。

最初に外れ、次に2回続けて当たった場合、どの程度「有意」に当たったと考えられるだろうか。1回で当たる確率は上述のとおり\frac{1}{5}=0.2である。最初に1回外して、それから2回当たる確率は、\left(\frac{4}{5}\right)\left(\frac{1}{5}\right)^3=0.032となる。これは、5%水準で有意といえるだろうか。そうではない。

当たり・外れが任意の時点で起こる場合を考えに入れなければならない。私は1回目で外したが、3回の試行で2回当たる場合の数は、1回目、2回目、3回目で外す、という3通りの可能性があるので、3\left(\frac{1}{5}\right)^3\left(\frac{4}{5}\right)=\frac{12}{125}=0.096となる。つまり、偶然2回当たってしまう確率は、0.096であり、5%水準では有意ではなく、せいぜい10%水準で「有意傾向」があるという程度である。

私は、透視能力を持っている「傾向」があったということだろうか。

さらに一般化すると、1回の試行で当たる確率がpである場合、n回の試行でk回の当たりが出る確率は、\begin{eqnarray}
{}_n C _k
\end{eqnarray}p^k(1-p)^{n-k}と示せる。

たった3枚ではなく、もっと多くの枚数で実験すればよかったのだが、NIRSで脳の活動を計測するのは、なかなか手間暇がかかるのである。もちろん、自分でカードを使って自己実験をしてみたこともあるが、とくに、これといった結果はえられなかった。あの実験の時には、正式な実験だということもあって、とても気分が高揚していたことをおぼえているが、その後、そんな感覚になったことはない。実験は西暦で2003年に行われたが、あのときは明治大学に新設される学部への赴任が決まって、すこし軽躁状態になっていたという気もする。

3回の試行で2回当たっても、30回の試行で20回当たっても、300回の試行で200回当たっても、正答率は0.67だが、p、つまり偶然に正答率が0.67になる確率は桁違いに小さくなり、限りなく0に収束していく。だから、実験の回数は増やしたほうがより正確な結果が得られる。しかし、すでに述べたように、pは絶対に0にはならないので、試行の回数を無限に増やしても、仮説が完全に証明されることはない。(以下の反証主義の項を参照のこと。)実験の回数を増やすほどに、正答率が期待値をすこし上回っただけでもp値は非常に小さくなるので、統計的に有意だからといっても正答率自体はそれほど高くないということにも留意しなければならない。

ESPの実験では、じっさい膨大な数の実験が行われ、統計的にはきわめて有意な結果が出ているのだが、実験の数が膨大であることは差し引いて考えなければならない。

第一種の誤りと第二種の誤り

すでに議論したとおり、統計的な仮説検定は、完全な方法ではない。ときには誤った結論に導かれることもある。この誤りの可能性には二種類ある。

データの偏りが偶然なのに、偶然ではないと結論してしまう
 → 第一種の誤り type one error

データの偏りが偶然ではないのに、偶然だと結論してしまう
 → 第二種の誤り type two error

第二種の誤りは、実験データに含まれる貴重な情報を見過ごしてしまうだけにとどまるが、むしろ注意しなければならないのは第一種の誤りで、何もないところに、関係性を見いだしてしまうことになりかねない。

第一種の誤りを冒す確率は設定した有意水準と同じで、有意水準の確率が高いほどその危険性は増す。たとえば、有意水準が5%、つまり二十分の一の場合、20回に1回はこの誤りが起こる。つまり、無関係なはずの変数の組み合わせを手当たり次第に20通り試せば、1回ぐらいは5%で有意な結果が出てもおかしくないことになる。

実証主義反証主義

なぜ、二重否定という回りくどい論理を使うのだろうか。この考え方は、統計的な仮説検定法だけではなく、科学的な方法論一般の考え方でもある。素朴な実証主義 positivism がより洗練されたのが反証主義 falsificationism であり、[より正確にいうと、全称命題的な]科学的仮説は検証 verify できないが、反証 falsify はできる、と考える。実証主義は、実証可能性を科学的仮説の必要条件とするが、反証主義では、反証可能性を科学的仮説の必要条件とする。

たとえば「黒いカラスが存在する」という「特称命題」は、黒いカラスを一匹見つければ証明できるが、「すべてのカラスは黒い」という「全称命題」を実証するためには、地球上のすべてのカラスを観察して、全部が黒いことを示さなければならないので、事実上、不可能である。しかし、これを反証するためには、白いカラスを一匹見つけるだけでいい。

科学的な研究には、理論を証明することはできない。理論を反証することしかできないのである。


(2006-12-08 作成 2017-11-13 更新 蛭川立