この記事では、統計調査の対象である「母集団」「標本」についてわかりやすく解説します。
母集団や標本に関する統計量(平均・分散など)の求め方についても説明しますので、ぜひこの記事を通してマスターしてくださいね!
目次
母集団と標本とは?
統計的な調査を行う際、調査の対象全体を「母集団」、母集団から抜き出された対象の一部を「標本」といいます。
全数調査と標本調査
一般的に、調査のやり方には次の \(2\) 通りがあります。
- 全数調査
対象全体(母集団)のすべてのデータを集め、調べる - 標本調査
対象の一部(標本)のデータを抜き出して、調べる
どちらの場合でも、統計的な調査で知りたいのは「母集団分布に関すること」です。
一方で、母集団が大きければ大きいほど「全数調査」より「標本調査」が現実的です。
例えば、「\(20\) 歳の人の体重の分布を知る」ことが目的の場合、全数調査(\(20\) 歳の人全員の体重を計る)をするのは大変です。
だから、代わりに標本調査(\(20\) 歳の人の一部の体重を計る)を行い、母集団分布を統計的に推測するのです。
標本の抽出
母集団から標本を抜き出すことを「抽出」といいます。
標本を抽出する際は、無作為に抜き出すことが求められます。
- 無作為抽出
母集団の各個体を等しい確率で抽出する方法(乱数表、乱数さいなどを用いる) - 無作為標本
無作為抽出によって選ばれた標本
抽出の際は、標本を毎回戻す場合と戻さない場合とがあります。
- 復元抽出
母集団から標本を抽出する際、毎回もとに戻しながら \(1\) 個ずつ抽出すること - 非復元抽出
母集団から標本を抽出する際、もとに戻さず抽出し続けること
母集団分布
ここで、母集団についての用語を整理しましょう。
- 特性:調査の対象である特定の性質(身長、時間など)
- 変量:ある特性を表す数量
- 母集団分布:母集団における変量 \(x\) の分布
- 母平均 \(m\):母集団における変量 \(x\) の平均値
- 母標準偏差 \(\sigma\):母集団における変量 \(x\) の標準偏差
統計調査の目的と方法
調査の目的は「母集団のある特性 \(A\) を知ること」、調査の方法は「特性 \(A\) を表す変量 \(x\) のデータを集める」ことです。
統計的な調査では、上記をしっかりと設定し、「何を調べたいのか?」を明確にすることが大切です。
標本平均と標本比率
母集団から抜き出した標本についての統計量を説明します。
標本平均とは?
標本平均とは、標本に属する個体の変量の平均値です。
母集団から無作為抽出した大きさ \(n\) の標本の変量 \(x\) の値を \(X_1, X_2, \cdots, X_n\) とするとき、標本平均 \(\overline{X}\) は
\begin{align}\overline{X} = \displaystyle \frac{X_1 + X_2 + \cdots + X_n}{n}\end{align}
標本平均 \(\overline{X}\) は、抽出される標本によって異なる値をとる確率変数です。
よって、\(\overline{X}\) の期待値・分散・標準偏差が計算できます。
母平均 \(m\)、母標準偏差 \(\sigma\) の母集団から大きさ \(n\) の無作為標本を抽出するとき、その標本平均を \(\overline{X}\) とすると
- \(\overline{X}\) の期待値
\begin{align}E(\overline{X}) = m\end{align} - \(\overline{X}\) の分散
\begin{align}V(\overline{X}) = \displaystyle \frac{\sigma^2}{n}\end{align} - \(\overline{X}\) の標準偏差
\begin{align}\sigma(\overline{X}) = \displaystyle \frac{\sigma}{\sqrt{n}}\end{align}
大きさ \(n\) の標本を何通りも無作為に抽出した場合、それらの標本平均 \(\overline{X}\) の期待値(平均)は理論上、母平均 \(m\) に等しくなります。
また、標本の大きさ \(n\) が大きいほど、\(\overline{X}\) のばらつき(分散 \(V(\overline{X})\) や標準偏差 \(\sigma(\overline{X})\))は小さくなります。
標本比率とは?
母集団について知りたいことが、何かの量(重さ、長さなど)ではなくて比率(陽性率、投票率など)の場合もありますよね。
そのときに調べるのが、標本比率です。
母集団の中で、ある特性 \(A\) をもつ個体の割合 \(p\) を「特性 \(A\) の母比率」という。
一方、抽出された標本の中で特性 \(A\) をもつ個体の割合 \(R\) を「特性 \(A\) の標本比率」という。
大きさ \(n\) の標本の中で特性 \(A\) をもつ個体数を \(X\) とおくと、
\begin{align}R = \displaystyle \frac{X}{n}\end{align}
中心極限定理(標本平均・標本比率の分布)
ここで、重要な統計の基本定理、中心極限定理について説明します。
母集団分布がどんな分布であっても、標本平均(または標本比率)の分布は標本の大きさを大きくすれば、近似的に正規分布に従う。
このとき、母集団分布が従う分布はわからないことに注意しましょう。
名前もないようなどこかに偏った分布かもしれないし、正規分布のように特徴的な分布かもしれません。
「正規分布」については、以下の記事で詳しく説明しています。

標本平均の分布の正規分布による近似
中心極限定理に従うと、標本平均の分布は正規分布で近似できます。
母平均 \(m\)、母標準偏差 \(\sigma\) の母集団から無作為抽出された大きさ \(n\) の標本について、標本平均 \(\overline{X}\) の分布は、\(n\) が大きいとき、近似的に正規分布 \(N\left(m, \displaystyle \frac{\sigma^2}{n}\right)\) に従う。
すなわち、
確率変数 \(Z = \displaystyle \frac{\overline{X} − m}{\displaystyle \frac{\sigma}{\sqrt{n}}}\)
は近似的に標準正規分布 \(N(0, 1)\) に従う。
一度に調べる標本の大きさ \(n\) が多いほど、標本間のばらつきは小さくなるし、標本平均の分布は正規分布に近づいていくのですね。
標本比率の分布の正規分布による近似
同様に、中心極限定理から、標本比率の分布も正規分布で近似できます。
特性 \(A\) の母比率が \(p\) である母集団から大きさ \(n\) の標本を無作為抽出するとき、特性 \(A\) の標本比率 \(R\) は、\(n\) が大きいとき、近似的に正規分布 \(N\left(p, \displaystyle \frac{p(1 − p)}{n}\right)\) に従うとみなせる。
標本比率は、各個体が特性 \(A\) を「もつか」「もたないか」で決まるものですから、二項分布に従います。
そして、二項分布は \(n\) を大きくすると近似的に正規分布に従うのでしたね。
大きさ \(n\) の標本のうち、特性 \(A\) をもつ個体の個数を \(X\) とおくと、特性 \(A\) の標本比率 \(R\) は
\(R = \displaystyle \frac{X}{n}\)
ある個体が特性 \(A\) をもつ確率は母比率 \(p\) とみることができるから、
確率変数 \(X\) は二項分布 \(B(n, p)\) に従う。
標本比率 \(R\) も確率変数であり、その平均は \(X\) の \(\displaystyle \frac{1}{n}\) 倍、分散は \(\displaystyle \frac{1}{n^2}\) 倍となる。
よって、\(n\) が十分に大きいとき、
\(X\) は近似的に正規分布 \(N(np, np(1 − p))\) に従うので、
\(R\) は近似的に正規分布 \(N\left(p, \displaystyle \frac{p(1 − p)}{n}\right)\) に従う。
大数の法則
中心極限定理と合わせて重要な統計の基本定理に、大数の法則があります。
母平均 \(m\) の母集団から大きさ \(n\) の無作為標本を抽出するとき、\(n\) が大きくなるに従い、その標本平均 \(\overline{X}\) は母平均 \(m\) に近づく。
\begin{align}\displaystyle \lim_{n \to \infty} \overline{X} = m\end{align}
大きな母集団から標本を \(1\) 個だけとってきたら母平均とはまったくかけ離れていてもおかしくないけれど、標本を \(100\) 個とってきた標本平均は母平均に近づきそうですよね。
標本平均 \(\overline{X}\) を理論値である母平均 \(m\)(= 期待値 \(E(\overline{X})\))に近づけたければ、予算や労力の許す限り、標本の大きさを大きくした方が近づくということですね。
母集団と標本の計算問題
それでは、母集団と標本の計算問題に挑戦しましょう。
計算問題①「母集団の統計量を求める」
\(1\), \(2\), \(3\) の数字を記入した球が、それぞれ \(1\) 個、\(4\) 個、\(5\) 個の計 \(20\) 個あり、これらを袋の中に入れた。これを母集団として、次の問いに答えよ。
(1) 球に書かれている数字を変量 \(X\) としたとき、母集団分布を示せ。
(2) 母平均 \(m\)、母標準偏差 \(\sigma\) を求めよ。
本問題では、袋に入った \(20\) 個の球が母集団ですね。
母集団の平均や標準偏差は、確率分布のはじめに習った定義どおり計算できます。
球に書かれた数字 \(X\) の分布、すなわち母集団分布は次のようになる。
\(X\) |
\(1\) |
\(2\) |
\(3\) |
計 |
\(P\) |
\(\displaystyle \frac{1}{10}\) |
\(\displaystyle \frac{4}{10}\) |
\(\displaystyle \frac{5}{10}\) |
\(1\) |
よって
\(\begin{align}m &= E(X) \\&= 1 \cdot \displaystyle \frac{1}{10} + 2 \cdot \displaystyle \frac{4}{10} + 3 \cdot \displaystyle \frac{5}{10}\\&= \displaystyle \frac{1 + 8 + 15}{10}\\&= \displaystyle \frac{24}{10}\\&= \displaystyle \frac{12}{5}\end{align}\)
また
\(\begin{align}E(X^2) &= 1^2 \cdot \displaystyle \frac{1}{10} + 2^2 \cdot \displaystyle \frac{4}{10} + 3^2 \cdot \displaystyle \frac{5}{10}\\&= \displaystyle \frac{1 + 16 + 45}{10}\\&= \displaystyle \frac{62}{10}\\&= \displaystyle \frac{31}{5}\end{align}\)
よって
\(\begin{align}\sigma &= \sqrt{V(X)}\\&= \sqrt{E(X^2) − \{E(X)\}^2} \\&= \sqrt{\displaystyle \frac{31}{5} − \left(\frac{12}{5}\right)^2}\\&= \sqrt{\displaystyle \frac{155 − 144}{25}}\\&= \displaystyle \frac{\sqrt{11}}{5}\end{align}\)
答え: \(m = \displaystyle \frac{12}{5}\)、\(\sigma = \displaystyle \frac{\sqrt{11}}{5}\)
計算問題②「標本平均の統計量を求める」
ある市に居住する衆議院議員選挙の有権者の中で、政党 A の支持率は \(62\) % である。
この市の有権者の中から無作為に \(100\) 人を抽出するとき、\(k\) 番目に抽出された人が政党 A 支持なら \(1\)、不支持なら \(0\) の値を対応させる確率変数を \(X_k\) とする。
(1) 標本平均 \(\overline{X} = \displaystyle \frac{1}{100}(X_1 + X_2 + \cdots + X_{100})\) の期待値 \(E(\overline{X})\) と標準偏差 \(\sigma(\overline{X})\) を求めよ。
(2) 標本平均の標準偏差を \(0.03\) 以下にするためには、抽出される標本の大きさは少なくとも何人以上必要か。
「支持率」という特性について、確率変数の変量を \(1\), \(0\) に定量化しているのですね。
標本平均の期待値、標準偏差の公式に従いましょう。
政党 A の支持率 \(62\) %、不支持率 \(38\) % であるから、
母平均 \(m\) は
\(\begin{align}m &= E(X_k) \\&= 1 \cdot 0.62 + 0 \cdot 0.38 \\&= 0.62\end{align}\)
また、
\(\begin{align}E(X_k^2) &= 1^2 \cdot 0.62 + 0^2 \cdot 0.38 \\&= 0.62\end{align}\)
母標準偏差 \(\sigma\) は
\(\begin{align}\sigma &= \sqrt{V(X_k)} \\&= \sqrt{E(X_k^2) − \{E(X)}^2\}\\&= \sqrt{0.62 − (0.62)^2}\\&= \sqrt{0.2356}\end{align}\)
(1)
\(E(\overline{X}) = m = 0.62\)
\(\begin{align}\sigma(\overline{X}) &= \displaystyle \frac{\sigma}{\sqrt{100}}\\&= \displaystyle \frac{\sqrt{0.2356}}{10}\\&≒ \displaystyle \frac{0.49}{10}\\&≒ 0.05\end{align}\)
答え: \(E(\overline{X}) = 0.62\)、\(\sigma(\overline{X}) = 0.05\)
(2)
標本の大きさを \(n\) 人とすると
\(\sigma(\overline{X}) \leq 0.03\) より
\(\displaystyle \frac{\sigma}{\sqrt{n}} \leq 0.03\)
\(\sqrt{n} \geq \displaystyle \frac{\sigma}{0.03}\)
より
\(\begin{align}n \geq \displaystyle \frac{\sigma^2}{0.0009} &= \displaystyle \frac{0.2356}{0.0009} \\&= 261.77\cdots\end{align}\)
したがって、少なくとも \(262\) 人以上必要である。
答え: \(262\) 人以上
計算問題③「標本平均の分布を考える」
体長が平均 \(50 \ \mathrm{cm}\)、標準偏差 \(3 \ \mathrm{cm}\) の正規分布に従う生物集団があるとする。
(1) \(4\) 個の個体を無作為に取り出すとき、その標本平均が \(53 \ \mathrm{cm}\) 以上となる確率を求めよ。
(2) \(16\) 個の個体を無作為に取り出すとき、その標本平均が \(49 \ \mathrm{cm}\) 以上 \(51 \ \mathrm{cm}\) 以下となる確率を求めよ。
現実的には珍しいケースですが、この問題では母集団分布が正規分布に従うことがすでにわかっています。
この場合も、標本平均の分布は正規分布に従います。
(1)
母集団が正規分布 \(N(50, 3^2)\) に従うので、
大きさ \(4\) からなる標本の標本平均 \(\overline{X}\) は正規分布 \(N\left(50, \displaystyle \frac{3^2}{4}\right)\) に従う。
よって、
\(Z = \displaystyle \frac{\overline{X} − 50}{\frac{3}{2}}\) とおくと、\(Z\) は標準正規分布 \(N(0, 1)\) に従う。
したがって、
\(\begin{align}P(\overline{X} \geq 53) &= P(Z \geq 2) \\&= 0.5 − p(2)\\&= 0.5 − 0.4772\\&= 0.0228\end{align}\)
答え: \(0.0228\)
(2)
母集団が正規分布 \(N(50, 3^2)\) に従うので、
大きさ \(16\) からなる標本の標本平均 \(\overline{X}\) は正規分布 \(N\left(50, \displaystyle \frac{3^2}{16}\right)\) に従う。
よって、
\(Z = \displaystyle \frac{\overline{X} − 50}{\frac{3}{4}}\) とおくと、\(Z\) は標準正規分布 \(N(0, 1)\) に従う。
したがって、
\(\begin{align}P(49 \leq \overline{X} \leq 51) &= P\left(−\displaystyle \frac{4}{3} \leq Z \leq \displaystyle \frac{4}{3}\right) \\&≒ 2p(1.33)\\&= 2 \cdot 0.4082\\&= 0.8164\end{align}\)
答え: \(0.8164\)
計算問題④「標本比率の分布を考える」
ある県における男児と女児の出生率が等しいことがわかっている。ある年に、この県の新生児の中から無作為に \(250\) 人抽出したときの女児の割合を \(R\) とする。標本比率 \(R\) が \(50\) % 以上、\(55\) % 以下である確率を求めよ。
標本の大きさが \(250\) と大きいので、中心極限定理より、標本比率 \(R\) が近似的に正規分布に従うとみなせます。
母比率 \(p = 0.5\)
標本の大きさ \(n = 250\)
であるから、
\(R\) の期待値は
\(E(R) = p = 0.5\)
\(R\) の標準偏差は
\(\begin{align}\sigma(R) &= \sqrt{\displaystyle \frac{p(1 − p)}{n}} \\&= \sqrt{\displaystyle \frac{0.5 \cdot 0.5}{250}}\\&= \displaystyle \frac{0.25}{250}\\&= \displaystyle \frac{1}{1000}\\&= \displaystyle \frac{\sqrt{10}}{100}\end{align}\)
\(n = 250\) は十分大きいから、標本比率 \(R\) は正規分布 \(N\left(0.5, \left(\displaystyle \frac{\sqrt{10}}{100}\right)^2\right)\) に従う。
\(Z = \displaystyle \frac{R − 0.5}{\frac{\sqrt{10}}{100}}\) とおくと、\(Z\) は標準正規分布 \(N(0, 1)\) に従うから、
\(P(0.50 \leq R \leq 0.55)\)
\(= P\left(0 \leq Z \leq \displaystyle \frac{\sqrt{10}}{2}\right)\)
\(≒ p(1.58)\)
\(= 0.4429\)
答え: \(0.4429\)
以上で問題も終わりです!
この記事で説明した中心極限定理を利用すると、標本平均から母平均を、標本比率から母平均を推定することができます。
詳しくは、次の記事で説明しています!
