【数理統計学入門】基準化【機械学習・データサイエンス】

こんにちはたくまろです。今回は、数理統計学の基本的な考え方である基準化についての練習問題をいくつか紹介したいと思います。ぜひ、練習などに使っていただけると幸いです。

1. 基準化とは

\(X\)を確率変数が平均\(\mu\)で分散\(\sigma^2\)に従っているとき、

$$Z=\frac{X-\mu}{\sigma}$$

とおくと、

$$E[Z] =\frac{E[X]-\mu}{\sigma}=0$$

$$Var(Z) = \frac{E[(X-\mu)^2]}{\sigma^2}=\frac{\sigma^2}{\sigma^2}=1$$

なので、\(Z\)は平均0で分散が1になります。このような操作を基準化といったり標準化などということもあります。他にも\(Z\)変換と呼ぶこともありますが、解析学でローラン展開を用いた関数変数を指すことが多いのであまり僕は使いません。

ではなぜ、基準化や標準化をするのでしょうか?例えば、標準正規分布などですと累積確率やパーセント点などを数値的にもとめることが出来ます。他にも、平均が0で分散1なので計算をしやすく扱いやすいです。なので、基準化や標準を考えることが多いです。

では実際に計算をしてみましょう。

2. 練習問題

はじめに、標準正規分布の累積確率やパーセント点などを求めるためにExcelや統計の教科書の後ろの方に載ってる表を使ってもいいですが、ここではCASIOの高精度計算サイトを使いたいと思います。

累積確率をもとめる

パーセント点をもとめる

ここでは、この2つのサイトを使います。

1. \(X \sim N(0,1)\) のとき、次を求めなさい。
(1) \(\mathrm{P}\{X>0.45\}\)
(2) \(\mathrm{P}\{X>-1.29\}\)
(3) \(\mathrm{P}\{-1.48<X<-0.56\}\)
(4)  \(\mathrm{P}\{0.23<X<b\}=0.262\)となる\(b\)の值

解答

まず、\(X\)はすでに基準化されているので後は値を計算すればよい。①を使えば、

(1) \(0.326\)
(2) \(0.901\)
(3)

$$\mathrm{P}\{-1.48<X<-0.56\} = \mathrm{P}\{X<-0.56\} – \mathrm{P}\{X<-1.48\} = 0.288 – 0.069 = 0.219$$

(4)

$$ \mathrm{P}\{0.23<X<b\}=\mathrm{P}\{X<b\} – \mathrm{P}\{X<0.23\} = 0.262$$

$$\mathrm{P}\{X<b\} = 0.262 + 0.591 = 0.853$$

②を使えば、\(b=1.049\)

2. \(X \sim N(10,5^{2})\) のとき、次を求めなさい。
(1) \(\mathrm{P}\{8<X<15\}\)
(2) \(\mathrm{P}\{X<14\}\)

解答

$$Z=\frac{X-10}{5}$$

とおけば、\(Z\sim N(0,1)\)になるので、①を用いればわかる。

(1)

$$\mathrm{P}\{8<X<15\} = \mathrm{P}\{-2<{X-10}<5\}= \mathrm{P}\{-0.4<Z<1\}=0.841-0.341=0.500$$

(2)

$$\mathrm{P}\{X<14\}=\mathrm{P}\{Z<0.8\}=0.788$$

3. \(X \sim N(10,4)\) のとき、次を求めなさい。
(1) \(\mathrm{P}\{X>11.22\}\)
(2) \(\mathrm{P}\{b<X\}=0.877\)となる\(b\)の値

解答

$$Z=\frac{X-10}{2}$$

とおけば、\(Z\sim N(0,1)\)になるので、①を用いればわかる。

(1)

$$\mathrm{P}\{X>11.22\} = \mathrm{P}\{Z>0.61\}=0.271$$

(2)

$$\mathrm{P}\{b<X\}=\mathrm{P}\{(b-10)/2<Z\}=0.877$$

②より\((b-10)/2 = 1.160\)となり、\(b=12.32\)

4. 定員 120 人の入試に 680 人が応募した。忘募者の得点分布が、320 点満点で、平均 154 点、 標準偏差 40 点の正規分布とするとき、
(1) 得点 200 点の受験生は、上から何番くらいの順位か。(小数以下は切り捨て)
(2) 合否のボーダーラインは、ほぼ何点か。(小数以下は切り上げ)

解答

\(X \sim N(154,40^2)\)とする。つまり\(X\)は得点を表す確率変数。

(1) まずは、200点以上をとったときに、上位何%になるかを考えると、①より

$$\mathrm{P}\{200<X\} = \mathrm{P}\{1.15<(X-154)/40\}=0.125$$

つまり200点以上の人の割合は全体の12.5%になるということである。つまり

$$680\times0.125 = 85$$

なので、上から85番目ぐらいになる。

(2) 680人のうち120人が合格するので、おおよそ上位17.6%ぐらいになる点数を考えればよい。つまり

$$\mathrm{P}\{b<X\} = 0.176 $$

をみたすような\(b\)を見つければ良いので②より

\((b – 154) /40 = 0.931 \)となり\(b=191.24\)

となるので、最低でも192点をとれば合格が予想される。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です