【数理統計学入門】確率変数と分布【データサイエンス・機械学習】

こんにちはたくまろです.ここでは, 分布関数と確率密度関数の定義を説明しています. とくに, 分布関数の定義は大事なので, 性質と一緒に覚えておいたほうがよいですね。

3.1 確率変数

確率変数の数学的な定義は, 可測空間やボレル集合族というものを定義する必要がありますが, ここでは, 簡潔に確率変数を定義します. 統計学をやる上では然程, 支障はないです.

定義3.1
確率空間\( (\Omega, \mathcal{A}, P)\)とし, \(\Omega\)上で定義された実数値関数\(X: \Omega\to\textbf{R}^1\)とする.任意の\(x\in\textbf{R}^1\)について, \(\{\omega|X(\omega)\leq x\}\subset\mathcal{A}\ (\omega\in\Omega)\) を満たすとき,\(X\)を確率変数(略して,\(r.v.\))とよぶ.

MEMO

確率変数の定義は, 一見難しそうですが, 抽象的な空間から計算する上でわかりやすい実数に変換するものと思えばいいですね.
例えば, コイントスをした結果の事象は{表,裏}になります. \(P({表})=1/2\)のような表現もできますが, 数学的に表すことが難しいですよね. そこで{表,裏}\(\to\{0,1\}\)と変換して, 実数で考えられるようにしたものが確率変数に該当します. つまり\(X(\{表\})=0,\ X(\{裏\})=1\)に対応させるものと思えます.

定義3.2

確率変数\(X\)について\(X(\Omega)\subset \textbf{R}\)が可算の場合, 離散型確率変数とよぶ. 非可算の場合, 連続型確率変数とよぶ.

例3.1
コイントスを2回行う.このときの確率空間を次のように定義する.
まず, 標本空間を\(\Omega=\){表表, 表裏, 裏表, 裏裏}. \(\mathcal{A}\)を\(\Omega\)の部分集合族. また, 任意の\(A\in\mathcal{A}\)に対して, 確率を\(P(A)=\#A/4\)で定義する. ただし,\(\#A\)は\(A\)の元の個数を表す.
ここで, 確率変数として\(X\)がコイントスの結果を表が出る回数に変換するものとする.つまり,
$$X(\{表表\})=2, X(\{表裏\})=1, X(\{裏表\})=1, X(\{裏裏\})=0$$
を満たす関数である.それでは, \(X\)が定義3.1に則しているか考える.
\(2\leq x\)の場合\(\{\omega|X(\omega)\leq x\}= \){表表, 表裏, 裏表, 裏裏}\(\in \mathcal{A}\)
\(1\leq x< 2\)の場合\(\{\omega|X(\omega)\leq x\}= \){表裏, 裏表, 裏裏}\(\in \mathcal{A}\)
\(0\leq x< 1\)の場合\(\{\omega|X(\omega)\leq x\}= \){裏裏}\(\in \mathcal{A}\)
\(x<0\)の場合\(\{\omega|X(\omega)\leq x\}= \phi \in \mathcal{A}\)
以上より任意の\(x\in\textbf{R}^1\)について, \(\{\omega|X(\omega)\leq x\}\subset\mathcal{A}\ (\omega\in\Omega)\) を満たす.

3.2 分布関数

定義3.3
\(X\):確率変数. 任意の\(x\in\textbf{R}^1\)について
$$F_X(x)=P(\{\omega|X(\omega)\leq x\})=P_X\{X\leq x\}$$
で,定義される関数を(累積)分布関数をよぶ.

\(F_X\)は次の性質をもつ.
(1)\(F_X(x)\)は単調増加関数.
(2)\(F_X(x)\)は右連続関数.
(3)\(\lim_{x\to – \infty}F_X(x)=0,\ \lim_{x\to \infty}F_X(x)=1\)

3.3 確率密度関数

定義3.4
\(X\):確率変数. 任意の\(x\in\textbf{R}^1\)について,\(F_X(x)\)を分布関数とする.
\(X\)が離散型の場合, \(X(\Omega)=\{x_1,\ x_2,\ …\}\)と出来る. このとき,

$$F_X(x_k)=\sum_{i=1}^{k}P\{\omega|X(\omega)= x_i\})$$

となる書くことが出来る, \(f_X(x)=P(\{\omega|X(\omega) = x\})\)を\(X\)の確率密度関数と呼ぶ.
\(X\)が連続型の場合,

$$F_X(x)=\int_{-\infty}^{x}f_X(x)dx$$

となる\(f_X(x)\)を確率密度関数と呼ぶ.\(F_X\)が連続関数ならば,\(F_X\)は\(f_X\)の原始関数になる.

注意

\(X\)が離散型の場合, 分布関数\(F_X(x)\)は階段のような関数となるため, 不連続点が存在する.よって分布関数の定義の(2)は左連続は成立しない.

例3.2
例3.1の場合に, 分布関数と確率密度関数は次のように書ける. ただし,\(X(\Omega)=\{0,1,2\}\)であることに注意する.

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です