【数理統計学入門】母平均と標本平均の違いとは?【機械学習・データサイエンス】

こんにちはたくまろです。母平均と標本平均の表記がごちゃごちゃになっている人がいますが、母平均と標本平均は全くの別物です。最初は、僕も違いがはっきりとはわかっていませんでした。ここでは具体的な例を挙げて、考えてみましょう。

(注意)この記事は、数学的に厳密なものではありません。あくまでわかりやすく伝えるためのものです。詳しく知りたい方は、「数理統計学」をつけて調べるとより数学的なサイトや本が見つかります。

1. 母集団の標本

ある属性に従うすべてのデータの集合を母集団と思ってください。

例えば、世論調査などを考えてください。2020年現在日本には約5800万世帯が暮らしています。そのすべての世帯に世論調査を行った結果全体を母集団とみることが出来ます。

しかしながら、すべての世帯に調査することは出来ないですよね。このときに、数世帯を選んで世論調査を行います。この選ばれた数世帯の世論調査の結果を標本といいます。そして、この標本すべてを標本集合といいます。

この例からも考えられるように、母集団はすべてのデータの集合なので実際に観測することは出来ません。そこでいくつかの標本を集めて、観測可能な標本集合を作ります。

  • 母集団  → 観測できない
  • 標本集合 → 観測可能

ゆえに、実際にデータ分析は標本集合を解析することになります。

2. 母平均と標本平均とは

母平均は母集団の平均です。真の平均といったりもしますが、母集団はデータすべての集合なので、理想的なものと考えることができます。逆に、標本平均は標本集合の平均です。標本平均は標本集合が観測可能なため、標本平均も観測することが出来ます。

世論調査で、内閣の支持率を求めることを考えます。支持する場合は1、支持しない場合は0とします。

仮に母集団の世論調査の結果、3770万世帯が支持する。残りの世帯が支持しないという結果が得られたとします。すると、母平均は(3770万×1 + 2030万×0) / 5800万=0.65になります。しかし、あくまで母集団の結果がこうだったらという仮定なので、実際には求めることはできません。

では、標本を無作為に1000世帯集めました。すると630世帯が支持する。370世帯が支持しないとします。このとき、標本平均は(630 + 370) / 1000 = 0.63になりました。

本来、母平均の0.65というが本来の世論調査の真の結果であるにも関わらず、標本平均は0.63になりました。実際問題、標本平均と母平均は完全に一致するはほとんどあり得ないです。しかし、標本平均は今回の場合だと0.65に近い値になりました。

もし、標本として違う1000世帯を選んだら標本平均は異なるかもしれません。しかし、母平均はある1つの値に定まっています。ある意味で、これが真の結果になります。

  • 母平均  → すべてのデータの平均。真の結果。しかし実際には観測不可能。
  • 標本平均 → 標本の平均。観測可能だが、母平均とは異なることがほとんど。

統計学というものは、この標本の情報を使って母集団の平均などを推定する学問といえます。

3. 大数の法則

大数の法則の言葉を聞いたことはあるでしょうか?これは標本の数を増やすと、標本平均が母平均に近づく現象です。

例えば、標本が10世帯しかなかったとします。すると、10世帯すべてが支持する結果になる場合もあります。これは、もともと母集団の630万世帯が支持する世帯なので、そのうちの10世帯をたまたま選んでしまったことになります。しかしながら、標本の数を100世帯、1000世帯と増やすと、そのすべては支持する630万世帯から選ばれることが珍しくなります。つまり

  • 標本数が少ない → 母集団の結果とは異なる偏った結果になる
  • 標本数が多い  → 偏りがなくなり母集団の結果に近づく

この現象が大数の法則です。母集団の結果に近づくので、標本平均も母平均に近づくといえます。

世論調査や視聴率の調査は、母集団の結果を観測することが出来ないので、代わりに標本集合の結果を使っています。この時になるべくたくさんの標本を集めて、標本平均の結果を母平均に近づけているのです。

4. 数学的な表記

より一般に標本数が\(n\)個とします。今回の場合だと\(n=1000\)です。このとき、各標本を\(X_1,…,X_n\)とします。このとき、\(X_1,…,X_n\)は1か0の値とします。(1:支持する, 0:支持しない)

母平均の値を\(\mu \)で、標本平均を\(\overline{X} = \sum_{j=1}^n X_j /n =(X_1+…+X_n)/n\)とします。今回の場合だと\(\mu=0.65, \overline{X} =0.63 \)ですね。そして、大数の法則から標本数\(n\)を大きくすることによって\(\overline{X}\)が\(\mu \)に近づきます。

よくある表現として、”平均が\(\mu \)の母集団から\(X_1,…,X_n\)を無作為に標本抽出する“と書くことが多いです。ここで言う平均というのは母平均を指しています

5.まとめ

  • 母平均は観測できないが、標本平均は標本から観測可能
  • 標本の選びからによって標本平均は異なる
  • 母平均と標本平均はほとんどの場合一致しない
  • 大数の法則によって、標本数を増やすと標本平均が母平均に近づく

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です