ヒストグラムとは?作り方(書き方)や階級・データ区間の決め方

この記事では、「ヒストグラム」についてわかりやすく解説していきます。

ヒストグラムの作り方や、階級・データ区間の決め方、代表値(平均値・中央値・最頻値)の問題なども説明していくので、ぜひこの記事を通してマスターしてくださいね!

 

ヒストグラムとは?

ヒストグラムとは、集めたデータを区間ごとに区切り、各区間にどのくらいの個数のデータが属するか度数分布)を表した柱状のグラフです。

つまり、度数分布表を棒グラフで表したものですね。

補足

「度数分布」や「度数分布表」については、以下の記事を参考にしてください!

度数分布とは?表や多角形の作り方、平均値・中央値・最頻値の問題

 

実際のヒストグラムを見ながら、形や用語を理解していきましょう。

ヒストグラムは、横軸に階級、縦軸に度数をとったグラフです。

  • 階級
    データを値の範囲で区切った \(1\) つの区間(データ区間
  • 度数
    各階級に属するデータの個数

そして、\(1\) つの階級がとる値の範囲を「階級の幅」、各階級の中央の値を「階級値」といいます。

 

ヒストグラムを見ると、どのような範囲にデータが多く分布するのか、データが密集している/ばらけているなど、データの特徴を視覚的に把握しやすくなります。

 

ヒストグラムの作り方【例題】

ここでは、例題を通してヒストグラムの作り方を説明していきます。

例題

次のデータのヒストグラムを作りなさい。

\(11\), \(12\), \(18\), \(18\), \(20\), \(21\), \(25\), \(26\), \(31\), \(32\), \(34\), \(36\), \(37\), \(37\), \(39\), \(41\), \(44\), \(45\), \(46\), \(50\), \(51\), \(54\), \(55\), \(57\), \(57\)

 

ヒストグラムは次のステップで作成できます。

STEP.1
階級の両端と幅を決める

ヒストグラムを作るには、まず「階級の両端(最小値・最大値)」と「階級の幅」を適切に決める必要があります。

Tips
  • 階級の両端
    →扱うデータが必ずどこかの階級に属するように決める
  • 階級の幅
    →データの特徴もよるが、階級の数が \(5\) ~ \(8\) 個くらいになるように設定するのが好ましい

階級の幅が広すぎると、多くのデータが同じ階級に属してしまい、細かい分布傾向が読み取りづらくなります。

また、階級の幅が狭すぎても、データが \(1\) つも属さないような階級が増えるなど、無駄に細かいグラフになってしまいます。

 

例題では、最小のデータが \(11\)、最大のデータが \(57\) なので、\(10\) ~ \(60\) の範囲で階級を設定すればよさそうですね。

また、今回は階級の幅を \(10\) に設定してみましょう。

 

STEP.2
度数分布表を作成する

決定した階級の幅に基づいて、度数分布表を作成します。

階級の両端を \(10\) ~ \(60\)、階級の幅を \(10\) としたので、「\(10\) ~ \(20\)」「\(20\) ~ \(30\)」「\(30\) ~ \(40\)」「\(40\) ~ \(50\)」「\(50\) ~ \(60\)」の \(5\) つの階級が設定できますね。

それぞれの階級に属するデータの個数を数え、度数列を埋めましょう。

階級 度数
\(10\) 以上 \(20\) 未満 \(4\)
\(20\) 以上 \(30\) 未満 \(4\)
\(30\) 以上 \(40\) 未満 \(7\)
\(40\) 以上 \(50\) 未満 \(4\)
\(50\) 以上 \(60\) 未満 \(6\)
合計 \(25\)

この表を元に、ヒストグラムを作成していきます。

 

STEP.3
軸を書く

まず、横軸に階級、縦軸に度数をとります。

 

STEP.4
目盛りをふる

次に、階級と度数の最大の値を考慮して目盛りをふっていきます。

 

STEP.5
度数をプロットする

そして、それぞれの階級の中央あたりに度数の値の点を打っていきます。

 

STEP.6
棒グラフを書く

最後に、それらの点を上辺とした長方形を書いていきます。

これでヒストグラムの完成です!

 

完了

いかがでしたか?

階級の幅は問題で与えられている場合も多いので、その場合は問題に従いましょう。

 

ヒストグラムと代表値の公式

次に、ヒストグラムから平均値・中央値・最頻値を求める公式を説明していきます。

ヒストグラムと平均値

まずは、ヒストグラムから平均値を求める公式です。

平均値

\begin{align}\color{red}{\displaystyle \text{平均値} = \frac{\text{(階級値) $\times$ (度数) の合計}}{度数の合計}}\end{align}

平均値は、すべてのデータの値を足してデータ個数で割った値のことでしたね。

しかし、ヒストグラムからは具体的な個々のデータの値がわかりません。

そこで、個々のデータの値は階級値に等しいと仮定して合計を算出し、それを度数の合計(データ個数)で割ることによって求めます。

 

ヒストグラムと中央値

次に、ヒストグラムから中央値を求める公式です。

中央値

\(n\) 個のデータがあるとき、中央値は以下の通り。

  • \(n\) が奇数の場合
    大きさが \(\displaystyle \frac{n + 1}{2}\) 番目のデータが属する階級の階級値
  • \(n\) が偶数の場合
    大きさが \(\displaystyle \frac{n}{2}\) 番目と \(\displaystyle \frac{n}{2} + 1\) 番目のデータが属する階級の階級値

中央値とは、データを大きさ順に並べたとき、ちょうど真ん中にくる値のことでした。

ヒストグラムから求める場合は、データの個数のちょうど真ん中の値が属する階級の階級値を中央値とします。

補足

もし中央に位置する \(2\) つが異なる階級に属している場合は、その \(2\) つの階級値の平均をとった値が中央値となります。

 

ヒストグラムと最頻値

最後に、最頻値の求め方です。

最頻値

最頻値:度数が最も多い階級の階級値

最頻値とは、データの中で最も頻繁に出てくる値のことですね。

つまり、ヒストグラムから求める場合は、度数が最も多い階級の階級値が最頻値となります。

ヒストグラムで最も高い棒グラフを見つけるだけなので、とても簡単ですね。

 

例題「ヒストグラムから代表値を求める」

例題でヒストグラムから代表値を求めてみましょう!

例題

次のヒストグラムをもとに、平均値・中央値・最頻値の値をそれぞれ求めなさい。

 

度数分布表を作ってもいいのですが、ここではヒストグラムに書き込んでいくスタイルで求めてみましょう!

まずは階級ごとの度数を知りたいので、グラフの縦軸の値を読み取って棒グラフの上に書き込みます。

そして、度数の合計を求めて右端に書いておきます。

 

また、各階級の階級値も書き込んでおきます。

これで準備が整いました。

 

それではまず、平均値を求めましょう。

階級値と度数をかけ合わせたものを足して、度数の合計 \(50\) で割ります。

\(5 \times 10 + 15 \times 13 + 25 \times 5 \) \(+ \ 35 \times 2 + 45 \times 20\) \(= 1340\)

より、平均値は

\(\displaystyle \frac{1340}{50} = 26.8\)

よって平均値は、\(\color{red}{26.8}\) となります。

 

次に中央値を求めます。

度数の合計が \(50\) と偶数なので、真ん中にくるデータは \(25\) 番目と \(26\) 番目ですね。

階級が低い方から度数の位置を確認すると、\(25\) 番目と \(26\) 番目はともに \(20\) 以上 \(30\) 未満の階級に属しています。

よってこの階級の階級値、\(\color{red}{25}\) が中央値となります。

 

最後に最頻値です。

ヒストグラムを見ると、最も度数が多いのは \(40\) 以上 \(50\) 未満の階級ですね。

よって最頻値は、その階級値である \(\color{red}{45}\) となります。

答えをまとめると次の通りです。

答え:

平均値 \(\color{red}{26.8}\)

中央値 \(\color{red}{25}\)

最頻値 \(\color{red}{45}\)

 

【参考】正規分布のヒストグラム

さまざまなデータのヒストグラムを作っていくと、左右対称で釣り鐘型をしたきれいな形になるものが多くみられます。

例えば、身長や体重の調査データ、サイコロを何度も投げたときの出目の合計の実験データなど、自然発生的な現象でこのようなヒストグラムが得られることが多いです。

 

このように、平均値付近の度数が多く、平均値から遠ざかるほど度数が緩やかに少なくなっていく左右対称の分布を「正規分布(ガウス分布)」といいます。

あるデータが正規分布に従うと仮定できると、ランダムに選んだデータ値が特定の階級に属する確率を求めることができます。

そのため、正規分布のグラフでは、横軸を「観測データ(確率変数)」、縦軸を「その値が生じる確率(確率密度)」ととらえるのです。

統計学では、取り扱うデータが正規分布であると仮定してさまざまな統計分析を行うことができます。

統計学に興味のある人は、ぜひ学びを深めていってくださいね!

補足

「正規分布」については、以下の記事で詳しく説明しています。

正規分布とは?表の見方や計算問題をわかりやすく解説!

 

ヒストグラムの練習問題

それでは最後に、ヒストグラムの練習問題に挑戦しましょう!

練習問題「適切なヒストグラムを選ぶ」

練習問題

生徒 \(30\) 人のあるクラスで \(10\) 点満点の小テストを実施したところ、得点の最頻値が \(7\) 点、中央値が \(7.5\) 点、平均値が \(5.8\) 点でした。

このとき、このテストの得点分布を表したヒストグラムとして最も適切なものを次のア~エから \(1\) つ選んでください。

 

わかりやすい値から確認していきます。

つまり、最頻値→中央値→平均値の順にグラフと照らし合わせていきましょう。

解答

 

 

\(\text{最頻値} = 7 \text{点}\) より、最頻値が \(5\) 点のエは不適。

\(\text{中央値} = 7.5 \text{点}\) より、中央値が \(5.5\) 点のアは不適。

 

よって、残りのイとウの平均値を確認すると、

イの平均値は、

\((0 \cdot 1 + 1 \cdot 3 + 2 \cdot 0 + 3 \cdot 1 + 4 \cdot 5\) \(+ \ 5 \cdot 2 + 6 \cdot 2 + 7 \cdot 8 + 8 \cdot 5 + 9 \cdot 2\) \(+ \ 10 \cdot 1) \div 30\)

\(= 173 \div 30\)

\(= 5.733333\cdots\)

よって、不適。

 

ウの平均値は、

\((0 \cdot 1 + 1 \cdot 1 + 2 \cdot 2 + 3 \cdot 2 + 4 \cdot 2\) \(+ \ 5 \cdot 6 + 6 \cdot 1 + 7 \cdot 9 + 8 \cdot 7 + 9 \cdot 0\) \(+ \ 10 \cdot 0) \div 30\)

\(= 174 ÷ 30\)

\(= 5.8\)

よって、適する。

 

答え: ウ

以上で練習問題も終わりです!

 

ヒストグラムについて理解が深まりましたか?

度数分布表とともにしっかりとマスターしておきましょうね!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です