【数理統計学入門】母分散の比の検定【機械学習・データサイエンス】

こんにちはたくまろです。今回はF検定とも言われている、母分散の比の検定について紹介します。

F分布について

母分散の比の検定を話す前に、前提知識として必要になるのが、F分布について分かっていないといけません。初めに、カイ2乗分布の定義は以下の通りです。

\(X_1,…,X_n\)が独立に正規分布\(N(\mu,\sigma^2)\)に従っているとき、

$$\frac{(n-1)s_0^2}{\sigma^2} \sim \chi^2(n)$$

が成立する。ただし、\(s_0^2=\sum_{j=1}^{n}(X_j-\bar{X})^2/(n-1) \)で、\(\chi^2(n)\)は自由度\(n-1\)のカイ2乗分布である。

ちなみに、\(s_0\)と書いていますが、これは不偏分散を表しています。通常の分散と区別するために0を付けています。(個人的な好み)では、F分布について定義したいと思います。

\(u_1,\ u_2\)が互いに独立にそれぞれ自由度\(n,\ m\)のカイ2乗分布に従っているとき、

$$\frac{u_1/n}{u_2/n} \sim F(n,m)$$

ただし、\(F(n,m)\)は自由度が\(n,\ m\)のF分布である。

互いに独立なカイ2乗分布の比になっているのいるのが、F分布です。またカイ2乗分布の定義から、このようにも書けます。2つの異なる正規分布\(N(\mu_1,\sigma_1^2),\ N(\mu_2,\sigma_2^2)\)からそれぞれ独立に不偏分散\(s_{10},\ s_{20}\)が得られたとき、

$$\frac{\frac{(n-1)s_{10}^2}{(n-1)\sigma_1^2}}{\frac{(m-1)s_{20}^2}{(m-1)\sigma_2^2}}=\frac{s_{10}^2/\sigma_1^2}{s_{20}^2/\sigma_2^2}\sim F(n-1,m-1)$$

となることがカイ2乗分布とF分布の定義から分かります。ただし、\(n\)と\(m\)はそれぞれの分布のサンプル数です。つまり、\(\sigma_1^2/\sigma_2^2=1\)が成り立つのであれば、

$$s_{10}^2/s_{20}^2\sim F(n-1,m-1)$$

が成り立ちます。\(s_{10}^2/s_{20}^2\)がF分布の棄却域に入っているかどうかで、\(\sigma_1^2/\sigma_2^2=1\)の仮定が間違っているか検定することが出来ます。

F検定

前述の通り、2つ独立な標本集合の不偏分散\( s_{10}^2,\  s_{20}^2 \)について\(s_{10}^2/s_{20}^2\)の値が棄却域に入っていれば、\(\sigma_1^2/\sigma_2^2=1\)が棄却されます。それでは、例題をやってみます。

次のデータについて、A,Bについて正規分布を仮定する。

A : {13, 15, 18, 23, 24, 28, 30, 33}

B : {15, 20, 24, 28, 31, 32}

この2つの母集団の分散が有意水準\(\alpha=0.05\)で等しいか考える。

解答

AとBの母分散をそれぞれ\(\sigma_1^2, \sigma_2^2\)とする。帰無仮説\(H_0\)と対立仮説\(H_1\)は次の通りである。

$$H_0:\sigma_1^2/\sigma_2^2=1,\ H_1:\sigma_1^2/\sigma_2^2\neq1$$

それぞれ、サンプル数、平均、不偏分散を計算すると

サンプル数 平均 不偏分散
A \(n_1=8\) \(\bar{x}_1=23\) \(s_{01}^2=52\)
B \(n_2=6\) \(\bar{x}_2=24\) \(s_{02}^2=44\)

となり、帰無仮説のもと

$$F = s_{10}^2/s_{20}^2  \approx1.182$$

は\(F(n_1-1, n_2-1)=F(7,5)\)に従う。

有意水準\(\alpha=0.05\)なので、両側\(2.5%\)となる点を見つければ良い。

数値計算はCASIOの高精度計算サイトから。

右側2.5%点は次のようになる。

右側:\(F(n_1-1, n_2-1,0.025)=6.853\)

左側2.5%点は次のようになる。

左側:\(F(n_1-1, n_2-1,1-0.025)=0.189\)

すなわち、\(H_0\)は採択される。

補足

ちなみに、F分布の性質で\(X \sim F(n,m)\)のときに\(1/X \sim F(m,n)\)というものがあります。

つまり、\(F(n_1-1,n_2-1)=s_{10}^2/s_{20}^2\)ならば、\(F(n_2-1,n_1-1)=s_{20}^2/s_{10}^2\)となります。\(F(n,m)\)の左側側の棄却域が\(s_{10}^2/s_{20}^2<c\)となるとき、両辺に逆数をとれば\(s_{20}^2/s_{10}^2>1/c\)となります。即ち\(F(m,n)\)においては\(1/c\)以上の領域が棄却域に相当します。なので、右側の棄却域F(m,n,0.025)を計算して逆数をとれば、F(n,m,0.025)の左側の棄却域を計算できます。つまり、

$$F(n_1-1, n_2-1,1-\alpha)=1/F(n_2-1, n_1-1,\alpha)$$

がわかります。なぜこのようなことをするかというと、教科書などの表は、だいたい右側のパーセント点しか書かれていないことが多いからです。なぜなら左側の棄却域は分母分子を入れ替えたF分布の右側の棄却域で表すことができるからです。

とは言っても計算機を使えば、左側も簡単に求めることができるんですけどね(笑)

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です