データの分析を総まとめ!公式の覚え方や裏ワザ【重要記事一覧】

データの分析に関するさまざまな公式をまとめていきます。

詳細記事へのリンクも載せていますので、気になる問題や解き方があればぜひ参考にしてくださいね!

 

データの代表値

データ全体の特徴を表す数値を代表値といいます。

代表値には、「平均値」「中央値」「最頻値」があり、データの種類や目的によって使い分けます。

平均値・中央値・最頻値の違い!求め方、使い分け、計算問題

 

平均値 \(\bar{x}\)

平均値とは、データの値の合計をデータの総数で割った値です。

平均値

\(n\) 個のデータ \(x_1\), \(x_2\), \(x_3\), \(\cdots\), \(x_n\) があるとき、データの平均値 \(\bar{x}\) は

\begin{align}\displaystyle \bar{x} =\frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}\end{align}

 

中央値 \(M_e\)

中央値とは、データの値を大きさ順に並べたとき、中央の位置にくる値です。

中央値

\(n\) 個のデータを小さい順に \(x_{(1)}\), \(x_{(2)}\), \(x_{(3)}\), \(\cdots\), \(x_{(n)}\) と並べたとき、データの中央値 \(M_e\) は

  • \(n\) が奇数の場合
    \begin{align}\displaystyle M_e = x_{(\frac{n + 1}{2})}\end{align}
  • \(n\) が偶数の場合
    \begin{align}\displaystyle M_e = \frac{x_{(\frac{n}{2})} + x_{(\frac{n}{2} + 1)}}{2}\end{align}

 

最頻値 \(M_o\)

最頻値とは、データの中で最も個数(出現頻度)の多い値です。

最頻値

\(n\) 個のデータ \(x_1\), \(x_2\), \(x_3\), \(\cdots\), \(x_n\) のうち、最も頻繁に観測された数値 \(x\) が最頻値 \(M_o\) である。

 

データの散らばりの可視化

得られたデータを図表に整理して可視化すると、データの散らばりや傾向がつかみやすくなります。

箱ひげ図

箱ひげ図とは、データの「最小値」「最大値」「中央値」「平均値」「第 \(1\) 四分位数」「第 \(3\) 四分位数」をまとめた図です。

 

度数分布・ヒストグラム

集めたデータをいくつかの区間(= 階級)に分け、各区間のデータ個数を可視化したものを「度数分布」といいます。

度数分布を表にまとめたものは「度数分布表」、棒グラフで表したものは「ヒストグラム」、折れ線グラフで表したものは「度数分布多角形」といいます。

度数分布とは?表や多角形の作り方、平均値・中央値・最頻値の問題 ヒストグラムとは?作り方(書き方)や階級・データ区間の決め方

 

データの散らばりの数値化

データの散らばり具合を客観的に評価するいくつかの指標が存在します。

偏差 \(x_i − \bar{x}\)

個々のデータとデータ全体の平均値との差を「偏差」といいます。

偏差

個々のデータを \(x_i\)、データの平均値を \(\bar{x}\) とすると、

 \begin{align}(\text{偏差}) = x_i − \bar{x}\end{align}

偏差は平均値からのズレなので、正の値をとることもあれば負の値をとることもあります。

 

分散 \(s^2\)

分散とは、データの散らばり度合いやばらつきを表す値です。

分散とは?公式、求め方や計算問題、分散分析・多重比較の意味も!

分散は、偏差の二乗平均で定義されます。

分散の公式①

分散を \(s^2\)、データの総数を \(n\)、それぞれのデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\)、平均値を \(\bar{x}\) とすると、

\begin{align}\displaystyle s^2 = \frac{\{(x_1 − \bar{x})^2 + (x_2 − \bar{x})^2 + \cdots + (x_n − \bar{x})^2\}}{n}\end{align}

(見切れる場合は横へスクロール)

また、分散は (データの \(2\) 乗の平均値) − (データの平均値の \(2\) 乗) でも求められます。

分散の公式②

分散を \(s^2\)、データの値を \(x\)、平均値を \(\bar{x}\) とすると、

\begin{align}s^2 = \overline{x^2} − (\bar{x})^2\end{align}

 

標準偏差 \(s\)

標準偏差も、データの散らばり度合いやばらつきを表す値です。

標準偏差は分散の正の平方根であり、データと単位がそろった指標であるため、よく用いられます。

標準偏差とは?意味や求め方、計算方法、分散・標準語差との違い
標準偏差の公式

標準偏差を \(s\)、データの総数を \(n\)、それぞれのデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\)、平均値を \(\bar{x}\)  とすると、

\begin{align}s = \displaystyle \sqrt{\frac{\{(x_1 − \bar{x})^2 + (x_2 − \bar{x})^2 + \cdots + (x_n − \bar{x})^2\}}{n}}\end{align}

(見切れる場合は横へスクロール)

 

2 変量データの比較

ある集団の身長と体重、あるクラスの英語と数学のテスト結果など、同じ対象に対して \(2\) つのデータをとってそれらの関連性を調べたいことがあります。

このようなデータセットを「\(2\) 変量データ」といいます。

散布図と相関関係

散布図とは、縦軸・横軸に各データの値をとったグラフで、\(2\) 変量データの関連性を可視化できます。

散布図が右肩上がりの直線性を示すことを「正の相関」、右肩下がりの直線性を示すことを「負の相関」といいます。

直線性が特に見られない場合は、「ほとんど相関がない」と表現します。

 

共分散 \(s_{xy}\)

共分散とは、\(2\) 変量データの相関の有無を示す数値です。

共分散が正の場合は「正の相関」が、共分散が負の場合は「負の相関」があることを示唆します。

共分散とは?意味や公式、求め方と計算問題、相関係数との違い

共分散は、\(2\) つのデータの偏差の積の平均で定義されます。

共分散の公式①

共分散を \(s_{xy}\)、\(2\) 組の対応するデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\) と \(y_1\), \(y_2\), \(\cdots\), \(y_n\) とし、それぞれの平均値を \(\bar{x}\), \(\bar{y}\) とすると、

\begin{align}s_{xy} = \displaystyle \frac{1}{n} \{(x_1 − \bar{x})(y_1 −  \bar{y}) + (x_2 − \bar{x})(y_2 − \bar{y}) + \cdots + (x_n − \bar{x})(y_n − \bar{y})\}\end{align}

(見切れる場合は横へスクロール)

また、共分散は (積の平均) − (平均の積) でも求められます。

共分散の公式②

共分散を \(s_{xy}\)、\(2\) 組の対応するデータの値を \(x\), \(y\) とし、それぞれの平均値を \(\bar{x}\), \(\bar{y}\)、それぞれの積の平均値を \(\overline{xy}\) とすると、

\begin{align}s_{xy} = \overline{xy} − \bar{x} \cdot \bar{y}\end{align}

 

相関係数 \(r\)

相関係数とは、\(2\) 変量データの相関の強さを示す数値です。

相関係数は \(−1 \leq r \leq 1\) の値をとり、\(1\) に近いほど「正の相関」が、\(−1\) に近いほど「負の相関」が強いことを意味します。

相関係数 r とは?公式と求め方、相関の強さの目安を解説!
相関係数の公式

\(2\) 変量データ \((x, y)\) の相関係数 \(r\) は、以下の式で表される。

\begin{align}\displaystyle r &= \frac{s_{xy}}{s_x \cdot s_y} \\&= \frac{\frac{1}{n} \sum_{i = 1}^n (x_i − \bar{x})(y_i − \bar{y})}{\sqrt{\frac{1}{n} \sum_{i = 1}^n (x_i − \bar{x})^2} \sqrt{\frac{1}{n} \sum_{i = 1}^n (y_i − \bar{y})^2}}\end{align}

(見切れる場合は横へスクロール)

 

\(s_{xy}\) : \(x, y\) の共分散

\(s_x\) : \(x\) の標準偏差

\(s_y\) : \(y\) の標準偏差

\(n\) : データの総数

\(x_i, y_i\) : \(i\) 番目の \(x, y\) の値

\(\bar{x}, \bar{y}\) : \(x, y\) の平均値

 

重要公式の覚え方・求め方の裏ワザ

データの分析の公式は、数式のまま覚えようとするととても複雑に感じます。

各公式のつながりを意識すると、公式を覚えやすくなりますよ。

 

また、データの個数が多いときは、式変形ではなく以下のような表を使って計算していくと計算ミスが減ってオススメです。

特に、「偏差」は主要な統計量すべてに関係するので、表でなくともしっかり書き出しておくようにしましょう!

 

以上が公式一覧でした!

データの分析は、共通テスト(旧・センター試験)でも当然出題されます。

公式とそれぞれの使いどころさえ押さえていれば特別な発想は必要なく、点数を稼ぎやすい単元といえます。

関連記事も確認しながら、ぜひデータの分析をマスターしてくださいね!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です