この記事では、「標準偏差」の意味や求め方をわかりやすく解説していきます。
計算問題の解き方や、分散・標準語差との違いも説明するので、この記事を通してぜひマスターしてくださいね!
目次
標準偏差とは?
標準偏差とは、データの散らばり度合い(ばらつき)を表す値のことをいいます。
標準偏差が大きいほどデータのばらつきが大きく、標準偏差が小さいほどばらつきが小さいことを意味します。
標準偏差の記号
標準偏差は、「\(\sigma\)」または「\(s\)」の記号で表されます。
- \(\sigma\):母集団の標準偏差
- \(s\):標本の標準偏差
統計調査において母集団全体のデータを集めるのはなかなか難しいので、よく目にするのは標本の標準偏差 \(s\) かもしれませんね。
母集団は「調査の対象全体」、標本は「母集団から抜き出された対象の一部」を指します。
母集団と標本とは?統計調査の意味や求め方をわかりやすく解説!
標準偏差の公式
標準偏差の公式は以下のとおりです。
標準偏差を \(s\)、データの総数を \(n\)、それぞれのデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\)、平均値を \(\overline{x}\) とすると、
\begin{align}\color{red}{s = \displaystyle \sqrt{\frac{1}{n} \{(x_1 − \overline{x})^2 + (x_2 − \overline{x})^2 + \cdots + (x_n − \overline{x})^2\}}}\end{align}
または
\begin{align}\color{red}{s = \displaystyle \sqrt{\overline{x^2} − (\overline{x})^2}}\end{align}
(見切れる場合は横へスクロール)
標準偏差は、分散の正の平方根をとります。
つまり、「\(\color{red}{\text{標準偏差} = \sqrt{\text{分散}}}\)」ということを覚えておけば、新たに公式を覚える必要はありませんね!
標準偏差の求め方
例題を通して標準偏差の求め方を説明していきます。
次のデータは、\(5\) 人の学生が一日に読書する時間 \(x\) (分) である。
\(5\), \(30\), \(10\), \(40\), \(15\)
このデータの標準偏差 \(s\) を求めなさい。
標準偏差は分散の正の平方根なので、途中までは分散の求め方とまったく同じです。
ステップごとに見ていきましょう。
まず、このデータの平均値 \(\overline{x}\) を求めます。
平均値 \(\overline{x}\) を求めるには、すべてのデータの値を足してデータの総数で割ります。
\(\begin{align} \overline{x} &= \frac{x_1 + x_2 + x_3 + x_4 + x_5}{5} \\&= \frac{5 + 30 + 10 + 40 + 15}{5} \\ &= \frac{100}{5} \\ &= 20 \end{align}\)
次に、それぞれのデータの値から平均値を引いた偏差 \(x_i − \overline{x}\) を求めます。
\(x_1 − \overline{x} = 5 − 20 = − 15\)
\(x_2 − \overline{x} = 30 − 20 = 10\)
\(x_3 − \overline{x} = 10 − 20 = − 10\)
\(x_4 − \overline{x} = 40 − 20 = 20\)
\(x_5 − \overline{x} = 15 − 20 = − 5\)
先ほどの偏差を \(2\) 乗していきます。
公式でいうと、
\((x_1 − \overline{x})^2\), \((x_2 − \overline{x})^2\), \(\cdots\) の部分にあたります。
\((x_1 − \overline{x})^2 = (− 15)^2 = 225\)
\((x_2 − \overline{x})^2 = 10^2 = 100\)
\((x_3 − \overline{x})^2 = (− 10)^2 = 100\)
\((x_4 − \overline{x})^2 = 20^2 = 400\)
\((x_5 − \overline{x})^2 = (− 5)^2 = 25\)
偏差の \(2\) 乗の合計をデータの総数で割ると、分散 \(s^2\) が求まります。
\(s^2\)
\(= \displaystyle \frac{(x_1 − \overline{x})^2 + (x_2 − \overline{x})^2 + \cdots + (x_5 − \overline{x})^2}{5}\)
\(= \displaystyle \frac{225 + 100 + 100 + 400 + 25}{5}\)
\(= \displaystyle \frac{850}{5}\)
\(= 170\)
分散までわかれば、あとは解けたも同然です。
分散の正の平方根をとれば、標準偏差が求められます。
\(s = \sqrt{s^2} = \sqrt{170}\)
このように、標準偏差が \(\color{red}{\sqrt{170}}\) と求められました!
分散は、表を使って効率的に計算できます。
標準偏差は分散の正の平方根をとるだけなので、分散まで表で求めるのもオススメですよ!
\(i\) | \(x_i\) | \(x_i − \overline{x}\) | \((x_i − \overline{x})^2\) |
\(1\) | \(5\) | \(−15\) | \(225\) |
\(2\) | \(30\) | \(10\) | \(100\) |
\(3\) | \(10\) | \(−10\) | \(100\) |
\(4\) | \(40\) | \(20\) | \(400\) |
\(5\) | \(15\) | \(−5\) | \(25\) |
合計 | \(100\) | − | \(850\) |
平均 | \(20\) | − |
\(\color{red}{170}\) |
分散・標準誤差との違い
標準偏差とよく似ている、分散や標準誤差との違いについて解説していきます。
それぞれを記号で表すと次のようになります。
- 分散: \(s^2\)
- 標準偏差: \(s\)
- 標準誤差: \(\displaystyle \frac{s}{\sqrt{n}}\)
標準偏差と分散の違い
標準偏差と分散はどちらもデータの散らばり度合い(ばらつき)を示す値ですが、最大の違いは、「標準偏差が分散の正の平方根であること」です。
つまり、分散と標準偏差は単位の次元が異なります。
分散は元データの \(2\) 乗の次元になっているのに対し、標準偏差は元データと同じ単位の次元となります。
よって、データのばらつきを評価するときには、分散よりも標準偏差の方が直感的にわかりやすく、よく用いられやすいといえます。
(例)クラス \(30\) 人の期末テストの結果
- 平均点:\(69 \ \mathrm{(点)}\)
- 分散:\(315.4 \ \mathrm{(点^2)}\)
- 標準偏差:\(17.8 \ \mathrm{(点)}\)
→ 大半の人がテストで \(69 \pm 17.8 \mathrm{(点)}\) の結果だった
標準偏差と標準誤差の違い
標準誤差とは、推定量の標準偏差です。
標準偏差が得られたデータのばらつき具合を示すのに対し、標準誤差はそのデータの平均値がどの程度の精度をもっているか(= 母集団の平均値に近いかどうか)を示します。
推定量
標本から母集団の性質を推定した統計量のこと。
母集団の性質と標本の性質は、まったく同じとは限りません。
あるデータを分析するときに本当に知りたいのは母集団の情報ですが、それを知るためには標本から推定する必要があり、推定量と本当の(母集団の)統計量には必ず誤差が生じます。
標準誤差は、この誤差を「推定量の標準偏差」として表したものなのです。
したがって、標準誤差が小さいほど推定量のばらつきが小さい、つまり、推定された平均値が母集団の平均値に近いことを示します。
(例)日本人女性(母集団)の身長を推定するために、\(100\) 人(標本)の身長を測定
- 標本の平均値が \(158 \ \mathrm{cm}\)、標準誤差が \(2 \ \mathrm{cm}\) の場合
→ 母集団の平均値も \(158 \ \mathrm{cm}\) に近い可能性が高い - 標本の平均値が \(158 \ \mathrm{cm}\)、標準誤差が \(10 \ \mathrm{cm}\) の場合
→ 母集団の平均値は \(158 \ \mathrm{cm}\) 付近ではない可能性も…
このように、標準偏差と標準誤差は似ているようで、まったく違うことを意味するのですね。
標準偏差の計算問題
最後に、標準偏差の計算問題を解いてみましょう。
計算問題①「欠席者数の標準偏差を求める」
次のデータは、ある小学校の学年ごとの \(1\) 日の欠席者数である。
このデータの標準偏差を求めなさい。
学年 | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) | \(6\) |
---|---|---|---|---|---|---|
欠席者数(人) | \(8\) | \(4\) | \(5\) | \(10\) | \(7\) | \(8\) |
「平均値」→「偏差の \(2\) 乗」→「分散」→「標準偏差」の順に着実に求めていきましょう。
欠席者数の平均値は、
\(\displaystyle \frac{8 + 4 + 5 + 10 + 7 + 8}{6} = 7\)
各学年の欠席者数の偏差の \(2\) 乗は、
\((8 − 7)^2 = 1^2 = 1\)
\((4 − 7)^2 = (− 3)^2 = 9\)
\((5 − 7)^2 = (− 2)^2 = 4\)
\((10 − 7)^2 = 3^2 = 9\)
\((7 − 7)^2 = 0\)
\((8 − 7)^2 = 1^2 = 1\)
よって、分散 \(s^2\) は
\(\begin{align} s^2 &= \displaystyle \frac{1}{6} (1+ 9 + 4 + 9 + 0 + 1) \\ &= \frac{1}{6} \cdot 24 \\ &= 4\end{align}\)
したがって、標準偏差 \(s\) は
\(s = + \sqrt{s^2} = \sqrt{4} = 2\)
答え: \(2\)
計算問題②「表を使って標準偏差を求める」
次の表を埋め、データの標準偏差を求めなさい。
\(i\) | \(x_i\) | \(x_i − \overline{x}\) | \((x_i − \overline{x})^2\) |
---|---|---|---|
\(1\) | \(70\) | ③ | ⑧ |
\(2\) | \(80\) | ④ | ⑨ |
\(3\) | \(80\) | ⑤ | ⑩ |
\(4\) | \(75\) | ⑥ | ⑪ |
\(5\) | \(70\) | ⑦ | ⑫ |
合計 | ① | − | ⑬ |
平均 | ② | − | 分散 ⑭ |
表を埋めていくと、分散が求まります。それを利用して標準偏差を求めましょう。
表より、分散は \(20\) であるから、標準偏差は
\(+\sqrt{20} = 2\sqrt{5}\)
答え:
表は次の通り。
\(i\) | \(x_i\) | \(x_i − \overline{x}\) | \((x_i − \overline{x})^2\) |
---|---|---|---|
\(1\) | \(70\) | ③ \(\color{red}{−5}\) | ⑧ \(\color{red}{25}\) |
\(2\) | \(80\) | ④ \(\color{red}{5}\) | ⑨ \(\color{red}{25}\) |
\(3\) | \(80\) | ⑤ \(\color{red}{5}\) | ⑩ \(\color{red}{25}\) |
\(4\) | \(75\) | ⑥ \(\color{red}{0}\) | ⑪ \(\color{red}{0}\) |
\(5\) | \(70\) | ⑦ \(\color{red}{−5}\) | ⑫ \(\color{red}{25}\) |
合計 | ① \(\color{red}{375}\) | − | ⑬ \(\color{red}{100}\) |
平均 | ② \(\color{red}{75}\) \((\overline{x})\) | − | 分散 ⑭ \(\color{red}{20}\) |
標準偏差 \(\color{red}{2\sqrt{5}}\)
以上で問題も終わりです!
標準偏差について理解が深まりましたか?
分散や標準誤差との違いもしっかりと区別しておけるといいですね!