平均値・中央値・最頻値の違い!求め方、使い分け、計算問題

この記事では、「平均値」「中央値」「最頻値」の意味や、問題の解き方をできるだけわかりやすく解説していきます。

それぞれの求め方、グラフ、使い分けなども紹介していきますので、この記事を通してぜひマスターしてくださいね。

 

代表値(平均値・中央値・最頻値)とは?

平均値・中央値・最頻値は、あるデータの代表値の一種です。

代表値

データ分布の何らかの特徴を示す数値。

 

まずは、それぞれの定義について理解しましょう。

平均値・中央値・最頻値の定義
  • 平均値
    全データの値の合計をデータの総数で割った値
  • 中央値
    データの値を大きさ順に並べたとき、中央の位置にくる値
  • 最頻値
    データの中で、最も個数(出現頻度)の多い値

それぞれの代表値の長所と短所、使いどころを順番に見ていきましょう。

 

平均値の特徴

平均値の長所は、すべてのデータの大きさを考慮した値であることです。

一方で、外れ値が存在すると、平均値はそれも考慮してしまうため、データの実態を反映できなくなるおそれがあります。

一般的に、平均値はデータ全体の大まかな特徴を知る際に使います。

 

中央値の特徴

中央値の長所は、外れ値の影響をほとんど受けないことです。

一方で、中央値はすべてのデータを考慮した分析結果にならないという欠点もあります。

また、データの一部分にしか注目しないため、データ全体の変化(前年度との比較など)や、他のデータセットとの比較には向いていません。

データの中で、いわゆる「普通」の値を知る際に使います。データの中に外れ値が含まれている場合も信頼できる代表値となります。

 

最頻値の特徴

最頻値の長所は、中央値同様、外れ値の影響をほとんど受けないということです。

一方で、データの数が少ない場合に最頻値を用いると、全体の傾向と異なる分析結果となってしまうおそれもあります。

十分なデータの数がある際に信頼できる代表値です。

 

平均値・中央値・最頻値の求め方

それでは、平均値・中央値・最頻値それぞれの求め方を確認していきましょう。

平均値の公式

平均値を出すには、単純にすべてのデータを足して、データの個数で割ればいいですね。

平均値の公式

\(n\) 個のデータ \(x_1\), \(x_2\), \(x_3\), \(\cdots\), \(x_n\) があるとき、データの平均値 \(\bar{x}\) は

\begin{align}\color{red}{\displaystyle \bar{x} =\frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}}\end{align}

 

中央値の公式

中央値は、データの個数が奇数のときと偶数のときで求め方が異なります。

中央値の求め方

\(n\) 個のデータを小さい順に \(x_{(1)}\), \(x_{(2)}\), \(x_{(3)}\), \(\cdots\) , \(x_{(n)}\) と並べたとき、データの中央値 \(M_e\) は

  • \(n\) が奇数の場合
    \begin{align}\color{red}{\displaystyle M_e = x_{\left(\frac{n + 1}{2}\right)}}\end{align} 
  • \(n\) が偶数の場合
    \begin{align}\color{red}{\displaystyle M_e = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}}\end{align}

記号で書くと複雑に見えますが、要は奇数ならど真ん中、偶数なら真ん中の \(2\) つの平均をとればよいですね。

 

最頻値の公式

最頻値を求めるには、データの値の個数を数え上げる必要があります。表などを書くとやりやすいですね。

最頻値の求め方

\(n\) 個のデータ \(x_1\), \(x_2\), \(x_3\), \(\cdots\), \(x_n\) のうち、最も頻繁に観測された数値 \(x\) が最頻値 \(M_o\) である。

また、最も頻繁に観測された数値が \(2\) つ以上ある場合、そのすべてが最頻値となります。

 

例題「平均値・中央値・最頻値を求める」

例題を通して、平均値・中央値・最頻値を求めてみましょう。

例題

\(19\) 人の \(10\) 点満点の数学のテストのデータは以下のようになった。

このデータの平均値、中央値、最頻値を求めよ。

\(1\), \(2\), \(2\), \(2\), \(2\), \(3\), \(3\), \(3\), \(3\), \(4\), \(6\), \(7\), \(8\), \(9\), \(9\), \(9\), \(9\), \(9\), \(10\)

 

まずは平均値です。

すべての値を足して、データの個数で割ればよいですね。

(見切れる場合は横へスクロール)

 

データの個数は \(19\) 個であるから、平均値は

\(\displaystyle \frac{1 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 4 + 6 + 7 + 8 + 9 + 9 + 9 + 9 + 9 + 10}{19}\)

\(\displaystyle = \frac{101}{19}\)

\(= 5.32\)

よって、平均値は \(\color{red}{5.32}\) です。

 

続いて、中央値です。

データはすでに大きさ順に並んでいるので、何人目が中央かを調べましょう。

試験を受けた人数は \(19\) 人(奇数)であるから、

\(\displaystyle \frac{19 + 1}{2} = \frac{20}{2} = 10\)

よって、 \(10\) 人目の点数が中央値で、その値は \(4\) 。

したがって、中央値は \(\color{red}{4}\)です。

 

最後に、最頻値です。

テストの点数の出現頻度(ここでは人数)を調べたいので、簡単な表を書くとよいでしょう。

テストの点数と人数の関係は次のようになる。

点数 \(1\) \(2\) \(3\) \(4\) \(5\) \(6\) \(7\) \(8\) \(9\) \(10\)
人数 \(1\) \(4\) \(4\) \(1\) \(0\) \(1\) \(1\) \(1\) \(5\) \(1\)

 

\(9\) 点を取った人が \(5\) 人で最も多いため、最頻値は \(9\) 。

最頻値は \(\color{red}{9}\) と求められましたね!

 

ちなみに、このデータをヒストグラムで表すと下の図のようになります。

横軸(階級)にテストの点数、縦軸(度数)に人数をとり、点数ごとに棒グラフを作成するとヒストグラムが得られます。

ヒストグラムを書くと、データの分布が一目で把握できますね。

補足

「ヒストグラム」については、以下の記事で詳しく説明しています。

ヒストグラムとは?作り方(書き方)や階級・データ区間の決め方

 

平均値・中央値・最頻値の使い分け

それでは、\(3\) つの代表値はどう使い分ければよいのでしょうか。

基本的には、得られたデータの「何を分析したいか」に応じて代表値を選びます。

Tips
  • データ全体の傾向や変化を考慮した分析をしたい
    平均値
    (例)身長の分布
  • 極端な値の影響を抑えたデータの代表値を見たい
    中央値
    (例)世帯収入の分布
  • 人気・嗜好を知りたいときなど、とにかく個数が多いデータを重視したい
    最頻値
    (例)商品別の売り上げ個数の分布

データがバランスよく中央からすそに向けて分布している場合(正規分布など)は、平均値・中央値・最頻値がほとんど同じような値に落ち着くので、どれを代表値としても問題ありません。

一方で、代表値を使う際は次のことに注意も必要です。

 

代表値を選ぶときの注意点

データの分布のしかたによっては、代表値が適切にデータの特徴を反映できないこともあります。

データがすそ寄りに傾いて分布している場合や外れ値が存在する場合には、平均値・中央値・最頻値が大きく異なる上に、データの大きな特徴を逃しかねません。

 

また、データ全体の傾向を読み取るのに、代表値だけでは不十分であるケースも多いです。

例えば、データの散らばり具合などは代表値からは判断できませんよね。

代表値は、データの特徴のごく一部分だけを反映した数値に過ぎないということを頭に入れておきましょう!

 

平均値・中央値・最頻値の計算問題

最後に、練習問題に挑戦して、平均値・中央値・最頻値についての理解を深めましょう。

計算問題「テストの代表値を求める」

計算問題

\(20\) 人の \(100\) 点満点の数学のテストのデータは以下のようになった。

\(93\), \(46\), \(73\), \(54\), \(100\), \(65\), \(72\), \(87\), \(89\), \(100\), \(91\), \(92\), \(45\), \(92\), \(88\), \(93\), \(94\), \(98\), \(66\), \(100\)

このとき、平均値、中央値、最頻値を求めよ。

 

データが大きい順に並んでいなかったり、データの数が多かったりするときは、数えもれや計算ミスがないように気をつけましょう。

また、データの個数が偶数の場合は中央の \(2\) つの平均値が中央値でしたね。

解答

 

データを小さい順に並べると、

\(45\), \(46\), \(54\), \(65\), \(66\), \(72\), \(73\), \(87\), \(88\), \(89\), \(91\), \(92\), \(92\), \(93\), \(93\), \(94\), \(98\), \(100\), \(100\), \(100\)

 

全員の合計点は、

\(45 + 46 + 54 + 65 + 66 + 72 + 73 + 87\)

\(+ \ 88 + 89 + 91 + 92 + 92 + 93 + 93\)

\(+ \ 94 + 98 + 100 + 100 + 100\)

\(= 1638\)

 

合計点を人数で割ると、平均値は

\(\displaystyle \frac{1638}{20} = 81.9\)(点)

 

 

また、\(\displaystyle \frac{20 + 1}{2} = 10.5\) より、

\(10\) 番目と \(11\) 番目の点数の平均が中央値であるから

\(\displaystyle \frac{81 + 91}{2} = 90\)(点)

 

また、データの個数について、

  • \(92\) 点、 \(93\) 点: \(2\) 人ずつ
  • \(100\) 点: \(3\) 人
  • その他の点数: \(1\) 人ずつ

であるから、最頻値は \(100\)(点)

 

答え:

平均値 \(81.9\) 点、中央値 \(90\) 点、最頻値 \(100\) 点

以上で終わりです!

 

データの分析において平均値・中央値・最頻値は重要な概念なので、しっかりとマスターしましょう!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です