平均値・中央値・最頻値の違い!求め方、使い分け、計算問題

この記事では、「平均値」「中央値」「最頻値」の意味や違いをできるだけわかりやすく解説していきます。

それぞれの求め方や使い分けも紹介していきますので、この記事を通してぜひマスターしてくださいね。

 

代表値(平均値・中央値・最頻値)とは?

平均値・中央値・最頻値は、あるデータの代表値(データ分布の何らかの特徴を示す数値)の一種です。

それぞれの定義は次のとおりです。

平均値・中央値・最頻値の定義
  • 平均値
    全データの値の合計をデータの総数で割った値
  • 中央値
    データの値を大きさ順に並べたとき、中央の位置にくる値
  • 最頻値
    データの中で、最も個数(出現頻度)の多い値

それぞれの代表値の長所と短所、使いどころを順番に見ていきましょう。

 

平均値の特徴

平均値の長所は、すべてのデータの大きさを考慮した値であることです。

一方で、外れ値が存在すると、平均値はそれも考慮してしまうため、データの実態を正しく反映できなくなるおそれがあります。

一般的に、平均値はデータ全体の大まかな特徴を知る際に使います。

 

中央値の特徴

中央値の長所は、外れ値の影響をほとんど受けないことです。

一方で、中央値はすべてのデータを考慮した分析結果にならないという欠点もあります。

また、データの一部分にしか注目しないため、データ全体の変化(前年度との比較など)や、他のデータセットとの比較には向いていません。

データの中で、いわゆる「普通」の値を知る際に使います。データの中に外れ値が含まれている場合も信頼できる代表値となります。

 

最頻値の特徴

最頻値の長所は、中央値同様、外れ値の影響をほとんど受けないということです。

一方で、データの数が少ない場合に最頻値を用いると、全体の傾向と異なる分析結果となってしまうおそれもあります。

十分なデータの数がある際に信頼できる代表値です。

 

平均値・中央値・最頻値の求め方

それでは、平均値・中央値・最頻値の公式と求め方を説明します。

平均値の公式

平均値を出すには、単純にすべてのデータを足して、データの個数で割ります。

平均値の公式

\(n\) 個のデータ \(x_1\), \(x_2\), \(x_3\), \(\cdots\), \(x_n\) があるとき、データの平均値 \(\bar{x}\) は

\begin{align}\color{red}{\displaystyle \bar{x} =\frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}}\end{align}

 

中央値の公式

中央値は、データの個数が奇数のときと偶数のときで求め方が異なります。

中央値の求め方

\(n\) 個のデータを小さい順に \(x_{(1)}\), \(x_{(2)}\), \(x_{(3)}\), \(\cdots\) , \(x_{(n)}\) と並べたとき、データの中央値 \(M_e\) は

  • \(n\) が奇数の場合
    \begin{align}\color{red}{\displaystyle M_e = x_{\left(\frac{n + 1}{2}\right)}}\end{align} 
  • \(n\) が偶数の場合
    \begin{align}\color{red}{\displaystyle M_e = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}}\end{align}

記号で書くと複雑に見えますが、要は奇数ならど真ん中、偶数なら真ん中の \(2\) つの平均をとればよいですね。

 

最頻値の公式

最頻値を求めるには、データの値の個数を数え上げます。表を使うとやりやすいですね。

最頻値の求め方

\(n\) 個のデータ \(x_1\), \(x_2\), \(x_3\), \(\cdots\), \(x_n\) のうち、最も頻繁に観測された数値 \(x\) が最頻値 \(M_o\) である。

また、最も頻繁に観測された数値が \(2\) つ以上ある場合、そのすべてが最頻値となります。

 

例題「平均値・中央値・最頻値を求める」

例題を通して、平均値・中央値・最頻値の求め方を説明します。

例題

\(19\) 人の \(10\) 点満点の数学のテストの結果は以下のようになった。

このデータの平均値、中央値、最頻値を求めよ。

\(1\), \(2\), \(2\), \(2\), \(2\), \(3\), \(3\), \(3\), \(3\), \(4\), \(6\), \(7\), \(8\), \(9\), \(9\), \(9\), \(9\), \(9\), \(10\)

 

平均値の求め方

平均値を出すには、すべての値を足してデータの個数で割ればよいですね。

(見切れる場合は横へスクロール)

 

データの個数は \(19\) 個であるから、平均値は

\(\displaystyle \frac{1 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 4 + 6 + 7 + 8 + 9 + 9 + 9 + 9 + 9 + 10}{19}\)

\(\displaystyle = \frac{101}{19}\)

\(= 5.32\)

よって、平均値は \(\color{red}{5.32}\) です。

 

中央値の求め方

データはすでに大きさ順に並んでいるので、何人目が中央かを調べましょう。

試験を受けた人数は \(19\) 人(奇数)であるから、

\(\displaystyle \frac{19 + 1}{2} = \frac{20}{2} = 10\)

よって、\(10\) 人目の点数が中央値で、その値は \(4\) 。

したがって、中央値は \(\color{red}{4}\)です。

 

最頻値の求め方

テストの点数の出現頻度(ここでは人数)を調べたいので、簡単な表を書いて調べます。

テストの点数ごとの人数は次のようになる。

点数 \(1\) \(2\) \(3\) \(4\) \(5\) \(6\) \(7\) \(8\) \(9\) \(10\)
人数 \(1\) \(4\) \(4\) \(1\) \(0\) \(1\) \(1\) \(1\) \(5\) \(1\)

 

\(9\) 点を取った人が \(5\) 人で最も多いため、最頻値は \(9\) 。

したがって、最頻値は \(\color{red}{9}\) です。

 

ちなみに、このデータをヒストグラムで表すと次のようになります。

ヒストグラムを書くと、データの分布が一目で把握できますね。

 

平均値・中央値・最頻値の使い分け

代表値の使い分けについて説明します。

基本的には、得られたデータの「何を分析したいか」に応じて代表値を選びます。

Tips
  • データ全体の傾向や変化を考慮した分析をしたい → 平均値
    (例)身長の分布
  • 極端な値の影響を抑えたデータの代表値を見たい → 中央値
    (例)世帯収入の分布
  • 人気・嗜好を知りたいなど、とにかく個数が多いデータを重視したい → 最頻値
    (例)商品別の売り上げ個数の分布

データがバランスよく中央からすそに向けて分布している場合(正規分布など)は、平均値・中央値・最頻値がほとんど同じような値に落ち着くので、どれを代表値としても問題ありません。

一方で、代表値を使う際は次のことに注意が必要です。

 

代表値を使うときの注意点

データの分布のしかたによっては、代表値が適切にデータの特徴を反映できないこともあります。

データがすそ寄りに傾いて分布している場合や外れ値が存在する場合には、平均値・中央値・最頻値が大きく異なる上に、データの大きな特徴を逃しかねません。

 

また、データ全体の傾向を読み取るのに、代表値だけでは不十分であるケースも多いです。

例えば、データの散らばり具合などは代表値からは判断できませんよね。

代表値は、データの特徴のごく一部分だけを反映した数値に過ぎないということを頭に入れておきましょう!

 

平均値・中央値・最頻値の計算問題

最後に、平均値・中央値・最頻値の計算問題に挑戦しましょう。

計算問題「テストの代表値を求める」

計算問題

\(20\) 人の \(100\) 点満点の数学のテストのデータは以下のようになった。

\(93\), \(46\), \(73\), \(54\), \(100\), \(65\), \(72\), \(87\), \(89\), \(100\), \(91\), \(92\), \(45\), \(92\), \(88\), \(93\), \(94\), \(98\), \(66\), \(100\)

このとき、平均値、中央値、最頻値を求めよ。

 

データが大きさ順に並んでいなかったり、データの数が多かったりするときは、数えもれや計算ミスがないように気をつけましょう。

また、データの個数が偶数の場合は中央の \(2\) つの平均が中央値でしたね。

解答

 

データを小さい順に並べると、

\(45\), \(46\), \(54\), \(65\), \(66\), \(72\), \(73\), \(87\), \(88\), \(89\), \(91\), \(92\), \(92\), \(93\), \(93\), \(94\), \(98\), \(100\), \(100\), \(100\)

 

全員の合計点は、

\(45 + 46 + 54 + 65 + 66 + 72 + 73 + 87\)

\(+ \ 88 + 89 + 91 + 92 + 92 + 93 + 93\)

\(+ \ 94 + 98 + 100 + 100 + 100\)

\(= 1638\)

 

合計点を人数で割ると、平均値は

\(\displaystyle \frac{1638}{20} = 81.9\)(点)

 

 

また、\(\displaystyle \frac{20 + 1}{2} = 10.5\) より、

\(10\) 番目と \(11\) 番目の点数の平均が中央値であるから

\(\displaystyle \frac{81 + 91}{2} = 90\)(点)

 

また、データの個数について、

  • \(92\) 点、 \(93\) 点: \(2\) 人ずつ
  • \(100\) 点: \(3\) 人
  • その他の点数: \(1\) 人ずつ

であるから、最頻値は \(100\)(点)

 

答え:

平均値 \(81.9\) 点、中央値 \(90\) 点、最頻値 \(100\) 点

以上で終わりです!

 

データの分析において平均値・中央値・最頻値は重要な概念なので、しっかりとマスターしましょう!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です