この記事では、「ヒストグラム」についてできるだけわかりやすく解説していきます。
ヒストグラムの書き方(階級・区間の幅を決めるところから)、平均値・中央値・最頻値を求める問題なども説明していくので、ぜひこの記事を通してマスターしてくださいね!
目次
ヒストグラムとは?
ヒストグラムとは、集めたデータを区間ごとに区切り、各区間にどのくらいの個数のデータが属するか(度数分布)を表した柱状のグラフです。
ヒストグラムでは、横軸に階級、縦軸に度数をとります。
- 階級:データを値の範囲で区切った \(1\) つの区間(データ区間)
- 度数:各階級に属するデータの個数
そして、\(1\) つの階級がとる値の範囲を「階級の幅」、各階級の中央値を「階級値」といいます。
ヒストグラムを見ると、どのような範囲にデータが多く分布するのか、データが密集している/ばらけているなど、データの特徴を視覚的に把握しやすくなります。
ヒストグラムの書き方
次の例題を通して、一からヒストグラムを作る方法を説明します。
次のデータのヒストグラムを作りなさい。
\(11\), \(12\), \(18\), \(18\), \(20\), \(21\), \(25\), \(26\), \(31\), \(32\), \(34\), \(36\), \(37\), \(37\), \(39\), \(41\), \(44\), \(45\), \(46\), \(50\), \(51\), \(54\), \(55\), \(57\), \(57\)
ヒストグラムを作るには、まず「階級の両端(最小値・最大値)」と「階級の幅」を適切に決める必要があります。
- 階級の両端
→扱うデータが必ずどこかの階級に属するように決める - 階級の幅
→データの特徴もよるが、階級の数が \(5\) ~ \(8\) 個程度になるような幅に設定するのが好ましい
階級の幅が広すぎると、多くのデータが同じ階級に属してしまい、細かい分布傾向が読み取りづらくなります。
また、階級の幅が狭すぎても、データが \(1\) つも属さないような階級が増えるなど、無駄に細かいグラフになってしまいます。
最小のデータが \(11\)、最大のデータが \(57\) なので、\(10\) ~ \(60\) の範囲で階級を作る。
また、階級の幅は \(10\) とする。
決定した階級の幅に基づいて、度数分布表を作成します。
階級の両端を \(10\) ~ \(60\)、階級の幅を \(10\) としたので、「\(10\) ~ \(20\)」「\(20\) ~ \(30\)」「\(30\) ~ \(40\)」「\(40\) ~ \(50\)」「\(50\) ~ \(60\)」の \(5\) つの階級が設定できますね。
それぞれの階級に属するデータの個数を数え、度数列を埋めましょう。
階級 | 度数 |
\(10\) 以上 \(20\) 未満 | \(4\) |
\(20\) 以上 \(30\) 未満 | \(4\) |
\(30\) 以上 \(40\) 未満 | \(7\) |
\(40\) 以上 \(50\) 未満 | \(4\) |
\(50\) 以上 \(60\) 未満 | \(6\) |
合計 | \(25\) |
この表を元に、ヒストグラムを作成していきます。
まず、横軸に階級、縦軸に度数をとります。
次に、階級と度数の最大の値を考慮して目盛りをふっていきます。
今回、階級の上端は \(60\) なので横軸は \(60\) 以上、最も多い度数は \(7\) なので縦軸は \(7\) 以上の目盛りをとるとよいでしょう。
そして、それぞれの階級の中央あたりに度数の値の点を打っていきます。
度数は一番下の階級(\(10\) 以上 \(20\) 未満)から順に、\(4\), \(4\), \(7\), \(4\), \(6\) ですね。
最後に、それらの点を上辺とした長方形を書いていきます。
これでヒストグラムの完成です!
いかがでしたか?
階級の幅は問題で与えられている場合も多いので、その場合は問題に従いましょう。
ヒストグラムからの代表値の求め方
ヒストグラムから平均値・中央値・最頻値を求める方法は、度数分布表から求めるときと同じです。
- 平均値
\(\begin{align}\displaystyle \text{平均値} = \frac{\text{(階級値) $\times$ (度数) の合計}}{度数の合計}\end{align}\) - 中央値
データを大きさ順に並べたとき、中央にあるデータが属する階級の階級値 - 最頻値
度数が最も多い階級の階級値
度数分布表から代表値を求める方法について説明しています。
度数分布表の読み方と作り方、代表値の求め方を徹底解説!
例題「ヒストグラムから平均値・中央値・最頻値を求める」
例題を通して、ヒストグラムから平均値・中央値・最頻値を求める手順を説明します。
次のヒストグラムにおける平均値・中央値・最頻値をそれぞれ求めなさい。
度数分布表を作ってもいいのですが、ここではヒストグラムに書き込んでいくスタイルで求めてみます。
まずは階級ごとの度数を知りたいので、グラフの縦軸の値を読み取って棒グラフの上に書き込みます。
そして、度数の合計を求めて右端に書いておきます。
次に、各階級の階級値を書き込んでおきます。
これで準備が整いました。
それではまず、平均値を求めましょう。
各階級の階級値と度数をかけ合わせたものを足して、度数の合計 \(50\) で割ります。
\(5 \times 10 + 15 \times 13 + 25 \times 5 \) \(+ \ 35 \times 2 + 45 \times 20\) \(= 1340\)
より、平均値は
\(\displaystyle \frac{1340}{50} = \color{red}{26.8}\)
中央値は、大きさ順で真ん中のデータが属する階級の階級値でしたね。
度数の合計が \(50\) と偶数なので、真ん中にくるデータは \(25\) 番目と \(26\) 番目である。
階級が低い方から度数の位置を確認すると、\(25\) 番目と \(26\) 番目はともに \(20\) 以上 \(30\) 未満の階級に属している。
よって、中央値は \(\color{red}{25}\)
最頻値は、ヒストグラムで最も高い棒グラフの階級値です。
ヒストグラムを見ると、最も度数が多いのは \(40\) 以上 \(50\) 未満の階級ですね。
\(40\) 以上 \(50\) 未満に属するデータが最も多いので、
最頻値は \(\color{red}{45}\)
答えをまとめると次の通りです。
答え:
平均値 \(\color{red}{26.8}\)
中央値 \(\color{red}{25}\)
最頻値 \(\color{red}{45}\)
【参考】正規分布のヒストグラム
さまざまなデータのヒストグラムを作っていくと、左右対称で釣り鐘型をしたきれいな形になるものが多くみられます。
例えば、身長や体重の調査データ、サイコロを何度も投げたときの出目の合計の実験データなど、自然発生的な現象でこのようなヒストグラムが得られることが多いです。
このように、平均値付近の度数が多く、平均値から遠ざかるほど度数が緩やかに少なくなっていく左右対称の分布を「正規分布(ガウス分布)」といいます。
あるデータが正規分布に従うと仮定できると、ランダムに選んだデータ値が特定の階級に属する確率を求めることができます。
そのため、正規分布のグラフでは、横軸を「観測データ(確率変数)」、縦軸を「その値が生じる確率(確率密度)」ととらえるのです。
統計学では、取り扱うデータが正規分布であると仮定してさまざまな統計分析を行うことがあります。
統計学に興味のある人は、ぜひ学びを深めていってくださいね!
ヒストグラムの練習問題
それでは最後に、ヒストグラムの練習問題に挑戦しましょう!
練習問題「ヒストグラムを読み取り、選ぶ」
生徒 \(30\) 人のあるクラスで \(10\) 点満点の小テストを実施したところ、得点の最頻値が \(7\) 点、中央値が \(7.5\) 点、平均値が \(5.8\) 点でした。
このとき、このテストの得点分布を表したヒストグラムとして最も適切なものを次のア~エから \(1\) つ選んでください。
わかりやすい値から確認していきます。
つまり、最頻値→中央値→平均値の順にグラフと照らし合わせていきましょう。
\(\text{最頻値} = 7 \text{点}\) より、最頻値が \(5\) 点のエは不適。
\(\text{中央値} = 7.5 \text{点}\) より、中央値が \(5.5\) 点のアは不適。
よって、残りのイとウの平均値を確認すると、
イの平均値は、
\((0 \cdot 1 + 1 \cdot 3 + 2 \cdot 0 + 3 \cdot 1 + 4 \cdot 5\) \(+ \ 5 \cdot 2 + 6 \cdot 2 + 7 \cdot 8 + 8 \cdot 5 + 9 \cdot 2\) \(+ \ 10 \cdot 1) \div 30\)
\(= 173 \div 30\)
\(= 5.733333\cdots\)
よって、不適。
ウの平均値は、
\((0 \cdot 1 + 1 \cdot 1 + 2 \cdot 2 + 3 \cdot 2 + 4 \cdot 2\) \(+ \ 5 \cdot 6 + 6 \cdot 1 + 7 \cdot 9 + 8 \cdot 7 + 9 \cdot 0\) \(+ \ 10 \cdot 0) \div 30\)
\(= 174 ÷ 30\)
\(= 5.8\)
よって、適する。
答え: ウ
以上で練習問題も終わりです!
ヒストグラムについて理解が深まりましたか?
度数分布表とともにしっかりとマスターしておきましょうね!