この記事では、「信頼区間」や「信頼度」の意味をわかりやすく解説します。
母平均や母比率の推定の問題の解き方も説明しますので、ぜひこの記事を通してマスターしてくださいね!
目次
信頼区間とは?
信頼区間とは、母集団の統計量(真の値)がある確率で収まる値の範囲のことで、区間推定で調べる対象です。
信頼区間が的中する(= 真の値が本当にその範囲に収まる)確率を「信頼度」といいます。
「区間推定」とは、統計的な推測の手法の一つです。
ピンとこない人は、この記事の後半にある「【補足】統計的な推測とは?」を先に確認しましょう!
信頼度の意味
このとき、信頼度 \(100\) % が何を意味するかというと、「標本を変えて区間推定を何回やっても、推定した信頼区間の中に百発百中で真の値が収まる」ことです。
よって、例えば「信頼度 \(95\) % の信頼区間」なら、標本を変えて区間推定を何回もやると、\(100\) 回に \(5\) 回くらいは真の値を含まない区間が出ると考えられます。
ちなみに、信頼区間の中に真の値が含まれていたとしても、信頼区間のどのあたりにあるかは検討がつきません。
信頼区間の計算式
信頼区間は、次の計算式で与えられます(ただし、母平均・母比率の推定の場合のみ)。
\((\text{①標本統計量}) \pm (\text{②信頼度が与える倍率}) \times (\text{③標本統計量の標準偏差})\)
(見切れる場合は横へスクロール)
標本平均から母平均を推定する場合、①は標本平均 \(\overline{X}\)、③は標本平均の標準偏差 \(\displaystyle \frac{\sigma}{\sqrt{n}}\) です。
それぞれについて、少し深掘りしていきましょう。
① 標本統計量
信頼区間の算出に用いる標本統計量が、区間の中央に当たります。
母平均の推定においては、標本平均 \(\overline{X}\) のことですね。
したがって、推定の際に用いた標本の \(\overline{X}\) が運悪く母平均から大きく離れた値だと、母平均を含まない信頼区間になります。
② 信頼度が与える倍率
信頼度は、「標本統計量の標準偏差の何倍までを信頼できる区間の幅とするか」を決めます。
この倍率が何を根拠に計算できるかというと、「中央極限定理」です。
「中央極限定理」については以下の記事で説明しています。
母集団と標本とは?統計調査の意味や求め方をわかりやすく解説!
具体的には、標準正規分布において全体のうち信頼度分のデータが分布する範囲 \(u\) を正規分布表から見つけます。
そして、標準正規分布から正規分布に置き換え、「真の値から標準偏差の \(u\) 倍までの範囲は信頼することとしよう」と考えます。
したがって、例えば信頼度 \(95\) % の場合、\(2 \cdot 1.96 \times (\text{標準偏差})\) が信頼区間の幅となります。
信頼度は \(90\) %, \(95\) %, \(99\) % に設定することが多いので、「\(1.645\)」「\(1.96\)」「\(2.58\)」の数字に見慣れておきましょう。
- 信頼度 \(90\) %
正規分布表で \(\displaystyle \frac{90}{2 \cdot 100} = 0.4500\) に当たる \(u = 1.645\) - 信頼度 \(95\) %
正規分布表で \(\displaystyle \frac{95}{2 \cdot 100} = 0.4750\) に当たる \(u = 1.96\) - 信頼度 \(99\) %
正規分布表で \(\displaystyle \frac{99}{2 \cdot 100} = 0.4950\) に当たる \(u = 2.58\)
正規分布表の見方がわからない人は、以下の記事で復習しましょう。
正規分布とは?表の見方や計算問題をわかりやすく解説!
③ 標本統計量の標準偏差
標本統計量の標準偏差は、標本統計量の分布の広がり方を反映するため、信頼区間の広さに影響します。
母平均の推定で言えば、標本平均の標準偏差 \(\displaystyle \frac{\sigma}{\sqrt{n}}\) がこれに当たります。
標本の大きさ \(n\) が大きいほど、また母標準偏差 \(\sigma\)(母集団分布のばらつき)が小さいほど信頼区間の幅が狭くなり、精度の高い推定ができます。
標本平均の標準偏差は、「標準誤差」と呼ばれることもあります。
母平均の推定の公式
ここでは、標本平均から母平均を区間推定する公式を示します。
母平均 \(m\)、母標準偏差 \(\sigma\) の母集団から抽出された大きさ \(n\) の無作為標本の標本平均 \(\overline{X}\) から、母平均 \(m\) を信頼度 \(95\) % で推定することを考える。
正規分布表より、\(P(|Z| \leq 1.96) = 0.95\) であるから
\begin{align}P\left(|\overline{X} − m| \leq 1.96 \cdot \displaystyle \frac{\sigma}{\sqrt{n}} \right) = 0.95\end{align}
よって、\(n\) が大きいとき、母平均 \(m\) に対する信頼度 \(95\) % の信頼区間は
\begin{align}\left[\overline{X} − 1.96 \cdot \displaystyle \frac{\sigma}{\sqrt{n}}, \overline{X} + 1.96 \cdot \displaystyle \frac{\sigma}{\sqrt{n}} \right]\end{align}
信頼度が \(99\) % であれば、「\(1.96\)」を「\(2.58\)」に変えるだけです。
なお、実際は母標準偏差 \(\sigma\) がわかっているケースは少ないので、少しだけ違う方法をとることが多いです。高校レベルの問題では、上記公式で対応できます。
母比率の推定の公式
ここでは、標本比率から母比率を区間推定する公式を示します。
ある特性の母比率 \(p\) の母集団から抽出された大きさ \(n\) の無作為標本の標本比率 \(R\) から、母比率 \(p\) を信頼度 \(95\) % で推定することを考える。
正規分布表より、\(P(|Z| \leq 1.96) = 0.95\) であるから
\begin{align}P\left(|R − p| \leq 1.96 \cdot \sqrt{\displaystyle \frac{p(1 − p)}{n}} \right) = 0.95\end{align}
(見切れる場合は横へスクロール)
\(n\) が大きいとき、大数の法則により \(R\) は \(p\) に近いとみなせるので、
母比率 \(p\) に対する信頼度 \(95\) % の信頼区間は
\begin{align}\left[R − 1.96 \cdot \sqrt{\displaystyle \frac{R(1 − R)}{n}}, R + 1.96 \cdot \sqrt{\displaystyle \frac{R(1 − R)}{n}} \right]\end{align}
(見切れる場合は横へスクロール)
注目する統計量が「比率」の場合、標本統計量は標本比率 \(R\)、その標準偏差は \(\sqrt{\displaystyle \frac{p(1 − p)}{n}}\) です。ただし、母比率 \(p\) は未知の値ですから、標本の大きさ \(n\) を大きくすることで、標準偏差を \(\sqrt{\displaystyle \frac{R(1 − R)}{n}}\) で近似します。
母平均の推定と同様に、信頼度が \(99\) % であれば、「\(1.96\)」を「\(2.58\)」に変えるだけです。
【補足】統計的な推測とは?
ここで、そもそも統計的な推測とは何かについて整理してみましょう。
統計調査の目的は、「母集団のある特性を知ること」でした。
母集団全体を調べられれば手っ取り早いものの、母集団が大きいと調べ切るのは大変です。
そこで、母集団から標本を抽出して、そこから母集団の特性を推測しようと試みるのが、統計的な推測(または推測統計)です。
統計的な推測の手法(推定と検定)
統計的な推測には、大きく分けて「推定」と「検定(仮説検定)」の \(2\) つがあります。
調べたい統計量の種類(平均値、比率、分散など)やデータタイプ(質的、量的)、比較対象の有無(単なる推定や検定、\(2\) 群・\(3\) 群以上の差の検定)などに応じて、さまざまな分析手法に分かれていきます。
なお、推定や検定で調べられる母集団の統計量にはさまざまな種類があり、総称して「母数」と呼ぶことがあります。これに対応する標本の統計量を「標本統計量」といいます。
(母数 – 標本統計量の例)
母平均 – 標本平均、母比率 – 標本比率、母分散 – 標本分散…など
推定(点推定と区間推定)
推定のうち、母集団の統計量をピンポイントで推定することを「点推定」、母集団の統計量が収まるであろう区間(幅)を推定することを「区間推定」といいます。
点推定では「その推定値がどれぐらい確かなのか」が示されないので、真の値と一致する確証もなく、どのくらいズレているのかもわかりません。
一方、区間推定では、推定値と真の値とのズレも考慮に入れて、「真の値はこのくらいの確率でこの区間に収まるだろう」という範囲(= 信頼区間)を予想します。
このうち、高校数学では区間推定を学習し、その中でも特に「母平均の推定」と「母比率の推定」を扱うわけです。
(仮説)検定
一方の(仮説)検定では、母集団の統計量ではなく「母集団についてのある仮説が統計的に成り立つかどうか」を、得られた標本から判断します。
例えば、「ある症状に対する治療薬を患者に投与したときに、その治療薬には本当に効果があるのか?」を調べるには、(仮説)検定が必須です(いわゆる「臨床試験」や「治験」と言われるものです)。
このように、(仮説)検定は医学・科学・人文学などの学術研究、またビジネス(マーケティングなど)において、なくてはならない統計手法です。
高校では詳しく習いませんが、大学や社会に出てから目にする機会が多くなるはずです。
気になる方は統計学の教材などで学んでみてくださいね!
統計的な推測の計算問題
それでは、統計的な推測の問題に挑戦しましょう!
計算問題①「母平均を信頼度 \(95\) %で推定する」
大量生産された製品 A の中から無作為に \(400\) 個を抽出し、重さを量ったところ、その平均値は \(1983 \ \mathrm{g}\) だった。母標準偏差が \(112 \ \mathrm{g}\) であるとき、この製品の母平均 \(m \ \mathrm{g}\) に対して、信頼度 \(95\) % の信頼区間を求めよ。
母平均の区間推定ですね。
わかっている統計量を整理して、公式に当てはめましょう。
母標準偏差 \(\sigma = 112\)
標本平均 \(\overline{X} = 1983\)
標本の大きさ \(n = 400\)
求める信頼区間は
\(\left[\overline{X} − 1.96 \cdot \displaystyle \frac{\sigma}{\sqrt{n}}, \overline{X} + 1.96 \cdot \displaystyle \frac{\sigma}{\sqrt{n}} \right]\)
\(\left[1983 − 1.96 \cdot \displaystyle \frac{112}{\sqrt{400}}, 1983 + 1.96 \cdot \displaystyle \frac{112}{\sqrt{400}} \right]\)
(見切れる場合は横へスクロール)
\(\begin{align}1.96 \cdot \displaystyle \frac{112}{\sqrt{400}} &= \displaystyle \frac{112}{20} \\&= 1.96 \cdot 5.6 \\&= 10.976 \\&≒ 11\end{align}\)
より、
\([1983 − 11, 1983 + 11]\)
すなわち
\([1972, 1994]\)
答え: \([1972, 1994]\)(単位は \(\mathrm{g}\))
計算問題②「母比率を信頼度 \(95\) %で推定する」
あるタイヤ製造工場で製造されたタイヤ \(400\) 本を無作為に選んで調べたところ、\(8\) 本が不良品であった。この工場で製造されたタイヤ全体に対して不良品の含まれる比率を \(95\) % の信頼度で推定せよ。
母比率の区間推定です。
標本比率の標準偏差を求め、公式に当てはめましょう。
標本比率 \(R = \displaystyle \frac{8}{400} = 0.02\)
\(R\) の標準偏差は
\(\begin{align}\sqrt{\displaystyle \frac{R(1 − R)}{n}} &= \sqrt{\displaystyle \frac{0.02 \cdot 0.98}{400}} \\&= \sqrt{\left(\displaystyle \frac{0.14}{20}\right)^2} \\&= 0.007\end{align}\)
不良品の含まれる比率 \(p\) の信頼度 \(95 %\) の信頼区間は
\(\left[R − 1.96 \cdot \sqrt{\displaystyle \frac{R(1 − R)}{n}}, R + 1.96 \cdot \sqrt{\displaystyle \frac{R(1 − R)}{n}} \right]\)
(見切れる場合は横へスクロール)
\([0.02 − 1.96 \cdot 0.007, 0.02 + 1.96 \cdot 0.007]\)
\(1.96 \cdot 0.007 = 0.01372 ≒ 0.014\) より
\([0.02 − 0.014, 0.02 + 0.014]\)
すなわち
\([0.006, 0.034]\)
答え: \([0.006, 0.034]\)
計算問題③「標本をいくつ抽出すればよいか」
サイコロを投げて \(1\) の目が出る確率を信頼度 \(95\) % で推定したい。このとき、信頼区間の幅を \(0.1\) 以下にするには、サイコロを何回以上投げればよいか。
サイコロの目の出方はランダムなはずですから、標本比率は \(R = \displaystyle \frac{1}{6}\) とみなしてOKです。
信頼区間の幅は区間の両端の差、すなわち \(2 \times 1.96 \sqrt{\displaystyle \frac{R(1 − R)}{n}}\) で求められます(信頼度 \(95\) %の場合)。
サイコロを投げる回数(標本の大きさ)を \(n\) とする。
\(1\) の目が出る標本比率を \(R\) とおくと、
信頼度 \(95\) %の信頼区間の幅は
\(2 \cdot 1.96 \sqrt{\displaystyle \frac{R(1 − R)}{n}}\)
\(R = \displaystyle \frac{1}{6}\) とみてよいから、信頼区間の幅が \(0.1\) 以下になるとき
\(2 \cdot 1.96 \sqrt{\displaystyle \frac{1}{6} \cdot \frac{5}{6} \cdot \frac{1}{n}} \leq 0.1\)
\(3.92 \cdot \displaystyle \frac{\sqrt{5}}{6} \cdot \frac{1}{\sqrt{n}} \leq 0.1\)
\(39.2 \cdot \displaystyle \frac{\sqrt{5}}{6} \cdot \frac{1}{\sqrt{n}} \leq 1\)
\(\begin{align}\sqrt{n} &\geq 39.2 \cdot \displaystyle \frac{\sqrt{5}}{6} \\&= \displaystyle \frac{392\sqrt{5}}{60} \\&= \displaystyle \frac{98\sqrt{5}}{15}\end{align}\)
両辺を平方して
\(\begin{align}n &\geq \displaystyle \frac{98^2 \cdot 5}{15^2} \\&= \displaystyle \frac{9604}{45} \\&= 213.42\cdots\end{align}\)
したがって、\(214\) 回以上投げればよい。
答え: \(214\) 回以上
以上で問題も終わりです!
高校で習う区間推定は、そのほかの統計的な推測の手法を理解する大きな足がかりになります。
この機会にぜひマスターしてくださいね!