【数理統計学入門】ポアソン分布【機械学習・データサイエンス】

こんにちはたくまろです。今回は、ポアソン分布について記事を書きたいと思います。ポアソン分布の考え方や由来を中心にお話ししたいと思います。

ポアソン分布の意味

ポアソン分布というのは非常に稀な事象を取り扱いたいときに使う分布です。たとえば、あたりが10本ではずれが9990本のくじあったとします。このときあたりを引く確率\(p\)は

$$p=1/1000$$

になります。このような状況下で数多くくじ引きをするような場合にポアソン分布というものを考えることが可能です。このとき\(n\)回中\(k\)回あたりを引く確率は2項分布の定義式をつかえば

$$P(X=k) = \ _{n}C_{x}p^x(1-p)^{n-x} = \ _{n}C_{x}
\left(\frac{\lambda}{n}\right)^x\left(1-\left(\frac{\lambda}{n}\right)\right)^{n-x}$$

ただし、\(\lambda=np\)として定数とします。ここで重要になるが\(\lambda\)が定数と考える点です。この後の式変形で\(n\to\infty\)を考えるのですが、それを考えた場合でも\(\lambda\)が定数であるということは、あたりの確率\(p\)が非常に低いということを意味しています。つまりは

\(n\to\infty,\ p\to0\)を満たすような2項分布の特別な場合

と考えます。すると

$$\lim_{n\to\infty}P(X=k) =\lim _{n \rightarrow \infty} \frac{\lambda^{k}}{k !}\left(1-\frac{\lambda}{n}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-k} \frac{n !}{(n-k) ! n^{k}} =e^{-\lambda} \frac{\lambda^{k}}{k !}$$

ということが次の2式を使えば分かります。

$$\lim _{n \rightarrow \infty}\left(1-\frac{\lambda}{n}\right)^{n}=e^{-\lambda} $$
$$\lim _{n \rightarrow \infty} \frac{n !}{(n-k) ! n^{k}}=1$$

ポアソン分布の定義

定義1

0以上の整数値をとる離散型確率変数\(X\)が確率密度関数\(P(X=k)=e^{-\lambda} \frac{\lambda^{k}}{k !}\ (\lambda>0) \)をもつ分布に従っているとする.このとき\(X\)はポアソン分布に従っているとしてつぎのように記述する。

$$X\sim Po(\lambda) $$

少し解釈を変えると、試行回数がたくさんあって(\(n\to\infty\))確率が低い(\(p\to 0\))ときの2項分布の近似だと思えばいいですね。\(\lambda\)は\(np\)に対応しているので、\(n\)回のなかでどれぐらい発生するかを表しています。

ちなみに\(X\sim Po(\lambda)\)のとき\(E[X]=Var(X)=\lambda\)になります。雑に説明すると2項分布の期待と分散が\(E[X]=np=\lambda,\ Var(X)=np(1-p)=\lambda-\lambda/p\)なので\(p\to 0\)とすればどちらも\(\lambda\)になりますね。

MEMO

上の操作はかなり数学的にグレーな部分です。なぜかと言うと本来は2項分布の極限をとったものの期待値と分散を計算するのに対して今回の方法は2項分布の期待値と分散に極限をとっています。一緒じゃないの?って思うかもしれませんが、極限が絡むと総和(もしくは積分)と\(\lim_{n\to\infty}\)の入れ替えが成立しないことがあります。

ポアソン分布の確率密度関数のグラフはこんな感じです。

横軸が\(X\)で縦軸が\(P(X)\)になっています。階乗の部分をガンマ関数で考えてあげれば連続関数と見ることができます。Rでのコードだとこんな感じです。

lam <- c(0.1,1,2,5,10) #自由度
for (i in 1:5) {
pois.density <- function(x) exp(-lam[i])*lam[i]^x/gamma(x+1)
plot(pois.density,xlim=c(0,10),col = i, ylim=c(0,0.5))
par(new=T)}

ポアソン分布の再生性

\(X_1,…,X_n\)が独立に\(Po(\lambda)\)に従うとき、\(n\bar{X}=\sum_{i=1}^n X_i\)は\(Po(n\lambda)\)に従います。これを積率母関数を使って証明します。まず\(n\bar{X}\)の積率母関数から次のようにして求めることができます。

$$g_{n\bar{X}}(\theta)=\prod_{i=1}^n \exp\{\lambda(e^{\theta}-1)\}=\exp\{n\lambda(e^{\theta}-1)\}$$

よって\(n\bar{X}\sim Po(n\lambda)\)がわかります。

ちなみに\(\bar{X}\)は\(Po(\lambda)\)に従いません。そもそも\(\bar{X}\)が整数値になるとは限らないからです。

ポアソン分布が使われるデータ

よくあるのが交通事故での事故率や死亡率の計算で使われることが多いです。保険料などはポアソン分布で与えられる期待値よりも高く設定することによって保険会社はもうかっています。他にも不良品が混入している割合や、サッカーの点数予想にも応用されているというのを聞いたことがあります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です