【数理統計学入門】2項分布(ベルヌーイ分布)【データサイエンス・機械学習】

こんにちはたくまろです。今回は、2項分布とベルヌーイ分布の定義を与えたいと思います。ここら辺から、計算量が多くなります。なるべく行間がないように分かりやすく式変形をして期待値と分散を導出しているので、よかったらご覧ください。

2項分布の確率密度関数

一回の試行で成功か失敗の2種類があり、それぞれが起きる確率\(p\)と\(1-p\)とします。このような試行を2項試行ベルヌーイ試行と呼びます。確率変数\(X\)がこの試行を\(n\)回繰り返したときに表が出る回数とします。このとき、確率変数\(X\)の確率密度関数は

$$f_X(x) = P\{X=x\} = \ _{n}C_{x}p^x(1-p)^{n-x}\ \ (x=0,1,…,n;\ 0<p<1)$$

と書けます。ただし、

$$_{n}C_{x}=\frac{n(n-1)…(n-x)}{x(x-1)…1}.$$

このような確率密度関数を持つ分布を2項分布と言います。\(X\)が2項分布に従っていることを記号で書くと、

$$X \sim B(n,p)$$

となります。試行回数が一回、すなわち\(n=1\)の2項分布のことを特別にベルヌーイ分布とよび、\(Ber(p)\)と書きます。

MEMO

5回試行してで3回成功する確率を実際に求めてみます。5回の試行で3回成功する組み合わせは全部で\(_{5}C_{3}\)通りありますね。それに3回成功して2回失敗する確率\(p^3(1-p)^2\)をかければいいので、

$$_{5}C_{3}p^3(1-p)^2$$

となります。これを一般に\(n\)回の試行で\(X\)回成功する確率を考えれば、

$$_{n}C_{x}p^x(1-p)^{n-x}$$

となるので、このような確率密度関数になります。

2項分布の期待値と分散

では、実際に期待値と分散を計算しましょう。期待値は取りうる値×確率の総和なので、

$$E[X]=\sum_{x=0}^{n}x\ _{n}C_{x} p^{x}(1-p)^{n-x}$$

となります。ここで\(_{n}C_{x}=\frac{n}{x} _{n-1}C_{x-1}\)に注意すれば、

$$E[X]=n\sum_{x=1}^{n}\ _{n-1}C_{x-1} p^{x}(1-p)^{n-x}$$

さらに、\(y=x-1\)とおけば

$$E[X]=n\sum_{y=0}^{n-1}\ _{n-1}C_{y} p^{y+1}(1-p)^{n-y-1}=np\sum_{y=0}^{n-1}\ _{n-1}C_{y} p^{y}(1-p)^{n-1-y}$$

となり、最後に2項定理を使えば

$$E[X]=np(p+(1-p))^{n-1}=np$$

がわかります。次に分散ですが、

$$Var(X)=E[(X-E[X])^2]=E(X^2)-E(X)^2$$

を使います。初めに2乗の期待値ですが

$$E[X^2]=\sum_{x=1}^{n}x^2\ _{n}C_{x} p^{x}(1-p)^{n-x}$$

$$=\sum_{x=1}^{n}x(x-1)\ _{n}C_{x} p^{x}(1-p)^{n-x}+\sum_{x=1}^{n}x\ _{n}C_{x} p^{x}(1-p)^{n-x}$$

$$=n(n-1)\sum_{x=2}^{n}\ _{n-2}C_{x-2} p^{x}(1-p)^{n-x}+E(X)$$

$$=n(n-1)p^2\sum_{x=0}^{n-2}\ _{n-2}C_{x} p^{x}(1-p)^{n-2-x}+np$$

$$=n(n-1)p^2+np=(np)^2+np(1-p)$$

となります。よって、

$$Var(X)=E(X^2)-E(X)^2=np(1-p)$$

がわかります。まとめると\(X\sim B(n,p)\)のとき

$$E(X)=np,\ Var(X)=np(1-p)$$.

[/yoko2]

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です