【数理統計学入門】母比率の差の検定【データサイエンス・機械学習】

1.母比率の差の検定とは

ある2値データ\(X=0,1\)を標本集合A,Bでそれぞれ集めます.この時, AとBの間で2値データの選び方に違いがあるか?ということを検定する方法が母比率の差の検定です.つまりはここでの比率というのはAとBでの2値データの偏りを表しています.

2. 母比率の差の検定のやり方

問題
男性有権者800人中400人が内閣を支持した. 女性800人を調査したとき, 内閣支持者が何人以上何人以下ならば男女間で内閣支持率に差があるとはいえないか?有意水準は5%で判断せよ.

1. 仮説を立てる
帰無仮説\(H_0\):男性有権者と女性有権者の支持率に差はない.
対立仮説\(H_1\):男性有権者と女性有権者の支持率に差がある.

2. 統計量を考える
まず, 女性の内閣支持者が\(x\)人いたとする. 男性有権者の支持率を\(\hat{p}_1(=400/800)\), 女性有権者の支持率を\(\hat{p}_2(=x/800)\)とする.また, 男性有権者の標本数を\(n_1(=800)\), 女性有権者の標本数を\(n_2(=800)\)とする. さらに,

$$z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1+1/n_2)}}$$

とおく.ただし,

$$\hat{p}=\frac{n_1\hat{p}_1+n_2\hat{p}_2}{n_1+n_2}$$

とする. この時\(n_1,n_2\to\infty\)の場合,\(z\)は標準正規分布に従う.

$$\hat{p}=\frac{400+x}{800+800}$$

$$z=\frac{\sqrt{200}(800-2x)}{\sqrt{(400+x)(800-x)}}$$

3. 棄却域を考える.
\(|z|>=z_{0.05}\)ならば\(H_0\)が棄却される.つまり\(-1.96<z<1.96\)を満たせば棄却させない.これを解くと\(360<x<440\)である.よって, 360人以上438人以下であれば, 優位水準\(\alpha=0.05\)で棄却されない.

MEMO

統計量\(z\)の求め方について.
\(\hat{p}_1-\hat{p}_2\)に関して, 期待値と分散を求めれば中心極限定理によって標準正規分布に従います.\(H_0\)の仮定のもと母比率を\(p_1=p_2=p\)とおきます.$$E[\hat{p}_1-\hat{p}_2]=p_1-p_2=0$$

\(\hat{p}_1\)と\(\hat{p}_2\)が独立なので,
$$Var(\hat{p}_1-\hat{p}_2)=Var(\hat{p}_1)+Var(\hat{p}_2)$$
$$Var(\hat{p}_1-\hat{p}_2)=p(1-p)(1/n_1+1/n_2)$$
となります.ここで, pは未知の値なので標本を用いて表現する必要があります.よって,
$$\hat{p}=\frac{n_1\hat{p}_1+n_2\hat{p}_2}{n_1+n_2}$$で推定します.これは,プールされた比率と呼びます.単純に\(\hat{p}=(\hat{p}_1+\hat{p}_2)/2\)でもよいですが, 標本数に差がある場合, 標本数が多い方の影響を強くしたいですよね.そこで\(\hat{p}_1\)と\(\hat{p}_2\)の係数の値を\(1/2\)から\(n_1/(n_1+n_2)\)と\(n_2/(n_1+n_2)\)に変え, 標本数の差を反映できるようにしています.
まとめると,平均が0で分散が\(\hat{p}(1-\hat{p})(1/n_1+1/n_2)\)で表されるため,中心極限定理から\(z\)が標準正規分布に従います.

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です