こんにちはたくまろです。今回はF検定とも言われている、母分散の比の検定について紹介します。
F分布について
母分散の比の検定を話す前に、前提知識として必要になるのが、F分布について分かっていないといけません。初めに、カイ2乗分布の定義は以下の通りです。
\(X_1,…,X_n\)が独立に正規分布\(N(\mu,\sigma^2)\)に従っているとき、
$$\frac{(n-1)s_0^2}{\sigma^2} \sim \chi^2(n)$$
が成立する。ただし、\(s_0^2=\sum_{j=1}^{n}(X_j-\bar{X})^2/(n-1) \)で、\(\chi^2(n)\)は自由度\(n-1\)のカイ2乗分布である。
ちなみに、\(s_0\)と書いていますが、これは不偏分散を表しています。通常の分散と区別するために0を付けています。(個人的な好み)では、F分布について定義したいと思います。
\(u_1,\ u_2\)が互いに独立にそれぞれ自由度\(n,\ m\)のカイ2乗分布に従っているとき、
$$\frac{u_1/n}{u_2/n} \sim F(n,m)$$
ただし、\(F(n,m)\)は自由度が\(n,\ m\)のF分布である。
互いに独立なカイ2乗分布の比になっているのいるのが、F分布です。またカイ2乗分布の定義から、このようにも書けます。2つの異なる正規分布\(N(\mu_1,\sigma_1^2),\ N(\mu_2,\sigma_2^2)\)からそれぞれ独立に不偏分散\(s_{10},\ s_{20}\)が得られたとき、
$$\frac{\frac{(n-1)s_{10}^2}{(n-1)\sigma_1^2}}{\frac{(m-1)s_{20}^2}{(m-1)\sigma_2^2}}=\frac{s_{10}^2/\sigma_1^2}{s_{20}^2/\sigma_2^2}\sim F(n-1,m-1)$$
となることがカイ2乗分布とF分布の定義から分かります。ただし、\(n\)と\(m\)はそれぞれの分布のサンプル数です。つまり、\(\sigma_1^2/\sigma_2^2=1\)が成り立つのであれば、
$$s_{10}^2/s_{20}^2\sim F(n-1,m-1)$$
が成り立ちます。\(s_{10}^2/s_{20}^2\)がF分布の棄却域に入っているかどうかで、\(\sigma_1^2/\sigma_2^2=1\)の仮定が間違っているか検定することが出来ます。
F検定
前述の通り、2つ独立な標本集合の不偏分散\( s_{10}^2,\ s_{20}^2 \)について\(s_{10}^2/s_{20}^2\)の値が棄却域に入っていれば、\(\sigma_1^2/\sigma_2^2=1\)が棄却されます。それでは、例題をやってみます。
次のデータについて、A,Bについて正規分布を仮定する。
A : {13, 15, 18, 23, 24, 28, 30, 33}
B : {15, 20, 24, 28, 31, 32}
この2つの母集団の分散が有意水準\(\alpha=0.05\)で等しいか考える。
解答
AとBの母分散をそれぞれ\(\sigma_1^2, \sigma_2^2\)とする。帰無仮説\(H_0\)と対立仮説\(H_1\)は次の通りである。
$$H_0:\sigma_1^2/\sigma_2^2=1,\ H_1:\sigma_1^2/\sigma_2^2\neq1$$
それぞれ、サンプル数、平均、不偏分散を計算すると
サンプル数 | 平均 | 不偏分散 | |
A | \(n_1=8\) | \(\bar{x}_1=23\) | \(s_{01}^2=52\) |
B | \(n_2=6\) | \(\bar{x}_2=24\) | \(s_{02}^2=44\) |
となり、帰無仮説のもと
$$F = s_{10}^2/s_{20}^2 \approx1.182$$
は\(F(n_1-1, n_2-1)=F(7,5)\)に従う。
有意水準\(\alpha=0.05\)なので、両側\(2.5%\)となる点を見つければ良い。
数値計算はCASIOの高精度計算サイトから。
右側2.5%点は次のようになる。
右側:\(F(n_1-1, n_2-1,0.025)=6.853\)
左側2.5%点は次のようになる。
左側:\(F(n_1-1, n_2-1,1-0.025)=0.189\)
すなわち、\(H_0\)は採択される。
ちなみに、F分布の性質で\(X \sim F(n,m)\)のときに\(1/X \sim F(m,n)\)というものがあります。
つまり、\(F(n_1-1,n_2-1)=s_{10}^2/s_{20}^2\)ならば、\(F(n_2-1,n_1-1)=s_{20}^2/s_{10}^2\)となります。\(F(n,m)\)の左側側の棄却域が\(s_{10}^2/s_{20}^2<c\)となるとき、両辺に逆数をとれば\(s_{20}^2/s_{10}^2>1/c\)となります。即ち\(F(m,n)\)においては\(1/c\)以上の領域が棄却域に相当します。なので、右側の棄却域F(m,n,0.025)を計算して逆数をとれば、F(n,m,0.025)の左側の棄却域を計算できます。つまり、
$$F(n_1-1, n_2-1,1-\alpha)=1/F(n_2-1, n_1-1,\alpha)$$
がわかります。なぜこのようなことをするかというと、教科書などの表は、だいたい右側のパーセント点しか書かれていないことが多いからです。なぜなら左側の棄却域は分母分子を入れ替えたF分布の右側の棄却域で表すことができるからです。
とは言っても計算機を使えば、左側も簡単に求めることができるんですけどね(笑)