【数理統計学入門】中心極限定理の例題【機械学習・データサイエンス】

こんにちはたくまろです。今回はサイコロを使った中心極限定理の例題を紹介したいと思います。基本的な計算を基にしているので、優しい内容になっています。

統計学が確率論、データサイエンスの分野で中心極限定理はよく用いられます。中心極限定理がよくわかっていない人は、是非一度見てほしいです。頑張ってわかりやすく説明します!

中心極限定理について

\(X_1,\ X_2,…X_n\)が平均\(\mu\),分散\(\sigma^2\)に従っているとする.このとき\(\bar{X}=\sum_{j=1}^{\infty}X_j/n\)とすると,次が\(n \to \infty\)のもと成立する.

$$\sqrt{n}(\bar{X}-\mu)/\sigma \stackrel{L}{\longrightarrow} N(0,1)$$

言葉で説明すると、\(\bar{X}\)の平均\(\mu\)と分散\(\sigma^2/n\)で標準化したものが\(n\to\infty\)で標準正規分布に従うということです。この定理の重要なポイントはXの分布について正規分布以外でも成り立つということです。では次に例題を見てみましょう。

中心極限定理の例題

サイコロを\(n\)回振り,そのとき出た目を\(X_1,…,X_n\)とする.
(1) \(X_1\)の確率分布関数\(F(X_1)\)を求めよ.
(2) \(X_1\)の平均\(\mu\)と分散\(\sigma\)を求めよ.
(3) \(n=100\)のする.\(\bar{X}=\sum_{j=1}^{\infty}X_j/n\)の分布を中心極限定理を使い求めよ.

解答
(1)
\( F(X_1)=0\ (X_1<1)\)
\( F(X_1)=1/6\ (1\leq X_1<2)\)
\( F(X_1)=1/3\ (2\leq X_1<3)\)
\( F(X_1)=1/2\ (3\leq X_1<4)\)
\( F(X_1)=2/3\ (4\leq X_1<5)\)
\( F(X_1)=5/6\ (5\leq X_1<6)\)
\( F(X_1)=1\ (6\leq X_1)\)

(2)
期待値と分散の定義を使って計算する.
$$\mu=\sum_{j=1}^{6} \frac{j}{6}=\frac{21}{6}$$
$$\sigma^2=\sum_{j=1}^{6} \frac{j^2}{6}=\frac{91}{6}$$

(3)

\(n\)が十分あるとする.このとき中心極限定理から

$$\sqrt{n}(\bar{X}-\mu)/\sigma \stackrel{L}{\longrightarrow} N(0,1)$$

$$\bar{X} \stackrel{L}{\longrightarrow} N(\mu,\sigma^2/n)$$

が成り立つ.よって\(\bar{X}\)は\(N(21/6 , 91/600)\)に従う.

MEMO

(1)は1,2,3,4,5,6を境に階段状の構造になっています。
(2)は確率密度関数\(f(X_1)\)が\(X_1=1,2,3,4,5,6\)で\(1/6\)になるので、あとは期待値と分散の定義を使って求めることが出来ます。
(3)前章でも述べたのですが,基準化した\(\sqrt{n}(\bar{X}-\mu)/\sigma\)が\(N(0,1)\)に従うので、基準化と逆の操作をすれば\(\bar{X}\)の分布をもとめることが出来ます。ちなみに分散を\(n(=100)\)で割っているので、\(n\)を増やせば分散が小さくなります。つまり標本平均\(\bar{X}\)は真の平均\(\mu\)に近づくことが分かりますね。

まとめ

今回の例題では、確率変数\(X_1,…,X_n\)は正規分布に従っていませんが(多項分布に従っているが)、標本平均\(\bar{X}\)を基準化したものを\(n\to\infty\)にすれば、正規分布に従うことが分かりました。中心極限定理は統計学において、非常に便利な定理になります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です