確率の罠--99%確かな検査で病気だと言われても本当に病気である確率は99%ではない

1年に1回、TEDという会議が開かれて科学・技術・社会学・社会活動・政治・音楽・エンターテーンメントなどさまざまな分野の最先端の人が講演をおこなっている。ビデオ・ポッドキャストでその年の会議の講演や以前の講演が配信されている。
2005年のTEDで統計学者ピーター・ドネリーがおこなった講演を見る機会があった。確率について間違えやすいから注意しよう、という警告をいくつかの実例をもって示したものだった。
示された実例の1つをこのエントリーの表題に使っている。講演の中で「99%確かな検査で病気との結果が出たとすると、本当に病気である確率はいくらか」という問いが発せられている。単純に考えれば99%なのだが、もしそうなら統計学者が講演で問いかけたりしないだろうから、99%ではないことは察しが付く。その問いが発せられたところで再生を止めて、考えてみた。
まず、以下のように定義する。

p
その病気にかかっている人の比率(1000人に1人なら1/1000)
q
検査が間違う確率。間違いには病気でない人を病気だと間違う場合と病気の人を病気でないと間違う場合の2通りがあるが、どちらも同じ確率qで起こるとする。99%正しい結果を出す検査であれば、qは1/100

その上で場合ごとの確率を数式で表すと以下のようになる。

実際の罹患の有無 検査結果 確率
罹患している 罹患している p(1-q) (a)
罹患している 罹患していない pq (b)
罹患していない 罹患している (1-p)q (c)
罹患していない 罹患していない (1-p)(1-q) (d)

a, b, c, dを足すと当然1になる。
検査の結果は罹患しているということなのだから、aかcということになる。その中でaの確率はどうかということなので、以下の式になる。
\frac{p(1-q)}{p(1-q)+(1-p)q}
分母と分子をp(1-q)で割ると以下のようになる。
\frac1{1+\frac{(1-p)q}{p(1-q)}}
pqも十分に小さいとするとこの式は以下の式で近似できる。
\frac1{1+\frac{q}{p}}
設問ではqは1/100である。pを1/10000、つまり1万人に1人の罹患率だとすると、答は約1/100となる。
講演の中では数式は出てこず、以下のように説明している。

  • 100万人中、罹患しているのは100人で、99万9900人は罹患していない。
  • 罹患している100人のうち99人が検査で罹患しているとの結果が出る。
  • 罹患してない人のうちの1%、9999人は検査で罹患しているとの結果が出る。
  • 結局100万人中では検査で罹患しているとの結果が出るのは1万0098人で、その中で実際に罹患しているのは99人である。検査で罹患しているとの結果が出た中で実際に罹患している確率は約1/100となる。