【数理統計学入門】期待値と分散【データサイエンス・機械学習】

こんにちはたくまろです。1~3章では確率の数学的な定義を話していましたが、ようやく統計学っぽい内容までたどり着けました。今回は期待値と分散について紹介したいと思います。正確には母集団の期待値と分散です。標本\(X_1,…,X_n\)の平均\(\bar{X}=n^{-1}\sum_{j=1}^nX_j\)と分散\(S^2=n^{-1}\sum_{j=1}^n(X_j-\bar{X})^2\)とは異なります。これらは、これから定義する母集団の期待値と分散の推定量です。同一視している人が多いですが、全くの別物なので区別して読んで欲しいです。

4.1 期待値(平均)

定義4.1

確率変数\(X\)が確率密度関数\(f_X(x)\)をもつ分布に従っているとする.このとき期待値\(E(X)\)を次のように定義する.

$$E(X)=\sum_{j=1}^{\infty}x_j f_X(x_j)\ \ \ (Xが離散の場合)$$

$$E(X)=\int_{-\infty}^{\infty}xf_X(x)dx\ \ \ (Xが連続の場合).$$

MEMO

“確率変数\(X\)が確率密度関数\(f_X(x)\)をもつ分布に従っているとする”という表現を簡単に言い換えると”確率変数\(X\)の確率密度関数は\(f_X(x)\)である”ということを言っています。分布という言葉が登場していますが、これは\(X\)の出方はこうですよと指定したい時に、使います。例えば、\(X\)がコイントスの結果\({1:表,0:裏}\)だとすると、分布は\(1\)と\(0\)がそれぞれ1/2の確率になるような出方を考えています。\(X\)がテストの点数だと、分布は平均のあたりを中心にした山なりの確率になるような出方を考えています。このように分布は出方を指定しています。ここでは、その出方が\(f_X(x)\)で与えられる確率密度関数から発生されるようなものとして考えています。

例4.1

サイコロを振ったときの出た目\(X\)の期待値を求めたい.このとき確率密度関数は\(f_X(x)=1/6,\ \ (x=1,2,3,4,5,6)\)なので,定義通り計算すると,

$$E(X)=\sum_{j=1}^{6} x_j f_X(x_j) = \sum_{j=1}^{6} j/6= 21/6$$

となる.

MEMO

まず\(x_j\)は\(X\)の取りうる値すべてに対応しています。

定義では\(\sum_{j=1}^{\infty} x_j f_X(x_j) \)でしたが、\(x_j=1,2,3,4,5,6\)以外の値は出ない、つまり\(f_X(x_j) = 0\ (x_j\neq1,2,3,4,5,6)\)と考えているので\(\sum_{j=1}^{6} x_j f_X(x_j) \)となっています。

取りうる値×その確率の総和と覚えるのがおすすめです。

よくギャンブルなどでいう期待値というのはこれを指しています。これは名前の通りこれぐらい期待出来るという値です。例えば、参加費3000円でサイコロを振ったときに出た目×1000円もらえるゲームにあなたなら参加しますか?このときもらえる金額は\(x_j=1000,2000,…,6000\)なので期待値は

$$21000/6 = 3500 $$

になります。なので、このゲームで期待値出来る金額はおおよそ3500円程度なので、参加費3000円なのでこれは、やった方がいいですね!

また、\(E(X)\)のことを平均と言ったりもします。説明するほどの事でもないですが、3500という数字は\(1000,2000,…,6000\)の算術平均にも対応しているので平均と呼ぶことも多いです。筆者は標本平均と区別するために母平均といったりもします。

4.2 分散

定義4.2

確率変数\(X\)が確率密度関数\(f_X(x)\)をもつ分布に従っているとする.このとき分散\(Var(X)\)を次のように定義する.

$$Var(X)=E[(X-E(X))^2]=\sum_{j=1}^{\infty}(x_j-E(X))^2 f_X(x_j)\ \ \ (Xが離散の場合)$$

$$Var(X)=E[(X-E(X))^2]=\int_{-\infty}^{\infty}(x-E(X))^2f_X(x)dx\ \ \ (Xが連続の場合).$$

MEMO

分散は言葉で表すと平均からどれぐらい離れているかを表したものです。しかし、平均からの差をそのまま足すと負になったり正になったりするので、足し合わせると0になることもあります。その為2乗したものを考えています。

例4.1

サイコロを振ったときの出た目\(X\)の分散を求めたい.このとき確率密度関数は\(f_X(x)=1/6,\ \ (x=1,2,3,4,5,6)\)なので,定義通り計算すると,

$$Var(X)=\sum_{j=1}^{6} (x_j-E(X))^2 f_X(x_j) = \sum_{j=1}^{6} (j-21/6)^2/6= 35/12$$

となる.

MEMO

分散が小さいとき、\(X\)は平均に近い値を取りやすいです。例えば、平均が50点で分散が30程度のテストと平均が50点で分散が10程度のテストの2種類があったとき、A君は両方のテスト70点を獲得しました。しかし、分散が小さい後者のテストでは平均から離れた値を取りにくいため、同じ点数でも前者のテストより後者のテストで70点ととるのが難しいということが分かります。

ちなみに、Xが連続の場合に

$$Var(X)=E[(X-E(X))^2]=\int_{-\infty}^{\infty}(x-E(X))^2f_X(x)dx$$

$$=\int_{-\infty}^{\infty}(x^2-2xE(X)+E(X)^2)f_X(x)dx$$

$$=\int_{-\infty}^{\infty}x^2f_X(x)dx-2E(X)\int_{-\infty}^{\infty}xf_X(x)dx+E(X)^2\int_{-\infty}^{\infty}f_X(x)dx$$

と書けます。\(E(X^2)=\int_{-\infty}^{\infty}x^2f_X(x)dx\)、\(E(X)=\int_{-\infty}^{\infty}xf_X(x)dx\)ですし、確率の総和は1なので\(\int_{-\infty}^{\infty}f_X(x)dx=1\)が成立します。すると次が成立します。

命題4.1

$$Var(X)=E[(X-E(X))^2]=E(X^2)-2E(X)^2+E(X)^2=E(X^2)-E(X)^2$$

ちなみに、\(X\)が離散の場合でも成り立ちます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です