この記事では、「相関係数」の意味や公式、求め方をわかりやすく解説していきます。
また、相関の強弱の目安や散布図との関係についても簡単に説明していきますので、ぜひこの記事を通してマスターしてくださいね。
目次
相関係数とは?
相関係数 \(r\) とは、\(2\) つのデータの相関関係の強さを示す指標です。
相関係数 \(r\) とは、\(2\) 変量データの間にある相関関係(= 線形な関係)の強弱を示す指標である。
相関係数 \(r\) に単位はなく、\(−1 \leq r \leq 1\) までの値をとる。
\(r\) が \(1\) に近いほど「正の相関」が強く、\(−1\) に近いほど「負の相関」が強い。
ただ一口に「正の相関がある」などと言っても、その相関の程度にも強弱がありますよね。
そこで、相関の強弱を客観的に判断する基準として、「相関係数」が考えられました。
つまり、相関の強弱を数値化したものが「相関係数」なのです。
相関関係(正の相関・負の相関・相関なし)
データ分析における相関関係には、大きく分けて次の \(3\) つがあります。
- 正の相関
一方のデータが増加すると他方のデータも増加する - 負の相関
一方のデータが増加すると他方のデータは減少する - 相関がない
一方のデータの増減と他方のデータの増減に直線的な関連が見られない
相関の有無は散布図、強弱は相関係数
相関の有無は散布図で視覚的に、相関の強弱は相関係数で定量的に判断できます。
\(2\) 変量データを縦軸・横軸にとった散布図を見れば、\(2\) つの変量の間に相関があるかないかを確認できます。
例えば、\(10\) 人の生徒が数学と英語のテストを受けたとします。
数学の点数が高い人ほど英語の点数が低い傾向にあるなら、それらの点数は「負の相関」にあるといえます。このとき、散布図ではデータが右肩下がりに分布します。
一方、数学の点数の大小と英語の点数の大小に直線的な関係が見られないなら、それらの点数には「ほとんど相関がない」といいます。このとき、散布図ではデータはバラバラに分布します。
さらに、数学の点数が高い人ほど英語の点数も高い傾向にあるなら、それらの点数は「正の相関」にあるといえます。このとき、散布図ではデータが右肩上がりに分布します。
「ほとんど相関がない」からといって、\(2\) つのデータの大きさに何の関連性もないとは限りません。
例えば、以下の散布図はどちらも \(2\) つのデータの間に「ほとんど相関がない(= 直線的な関係はない)」のですが、右側には明らかに何らかの関係性がありそうですよね。
ですので、散布図を書かずに相関係数だけを求めると、重要な関係性を見落としてしまう恐れがあります。
相関係数と相関の強弱の目安
相関の強弱は相関係数の値によって定量的に判断できます。
相関の強弱の明確な基準は決まっていないものの、以下のような目安がよく用いられます。
相関係数 \(\bf{r}\) の値の範囲 | 相関の強弱 |
\(−1 \leq r \leq −0.7\) | 強い負の相関 |
\(−0.7 \leq r \leq −0.4\) | 負の相関 |
\(−0.4 \leq r \leq −0.2\) | 弱い負の相関 |
\(−0.2 \leq r \leq 0.2\) | ほとんど相関がない |
\(0.2 \leq r \leq 0.4\) | 弱い正の相関 |
\(0.4 \leq r \leq 0.7\) | 正の相関 |
\(0.7 \leq r \leq 1\) | 強い正の相関 |
また、相関係数が \(1\) や \(−1\) に近づくほど散布図の直線性が増します。
相関係数の公式
相関係数は次の公式で求められます。
\(2\) 変量データ \((x, y)\) の相関係数 \(r\) は、以下の式で表される。
\begin{align}\color{red}{r \ } &\color{red}{= \displaystyle \frac{s_{xy}}{s_x \cdot s_y}} \\&\color{red}{= \displaystyle \frac{\frac{1}{n} \sum_{i = 1}^n (x_i − \bar{x})(y_i − \bar{y})}{\sqrt{\frac{1}{n} \sum_{i = 1}^n (x_i − \bar{x})^2} \sqrt{\frac{1}{n} \sum_{i = 1}^n (y_i − \bar{y})^2}}}\end{align}
(見切れる場合は横へスクロール)
ここで、
- \(s_{xy}\) : \(x, y\) の共分散
- \(s_x\) : \(x\) の標準偏差
- \(s_y\) : \(y\) の標準偏差
- \(n\) : データの総数
- \(x_i, y_i\) : \(i\) 番目の \(x, y\) の値
- \(\bar{x}, \bar{y}\) : \(x, y\) の平均値
なかなか複雑な公式ですよね。
\(\color{red}{\displaystyle \text{(相関係数)} = \frac{\text{(共分散)}}{\text{(標準偏差)} \cdot \text{(標準偏差)}}}\) と覚えておき、順番に求めていくのがオススメです。
相関係数の求め方
次の例題を通して、相関係数を求める手順を説明します。
以下のデータは、\(5\) 人の学生が受けた数学と英語の小テストの点数である。
数学と英語の点数の相関係数 \(r\) を求めよ。
学生 | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
数学(点) | \(7\) | \(8\) | \(10\) | \(7\) | \(8\) |
英語(点) | \(6\) | \(7\) | \(9\) | \(7\) | \(6\) |
数学の点数を \(x\)(点)、英語の点数を \(y\)(点)として求めていきます。
平均値 \(\bar{x}\), \(\bar{y}\) は、\((\text{全データの和}) \div (\text{データの個数})\) で求められます。
\(\displaystyle \bar{x} = \frac{7 + 8 + 10 + 7 + 8}{5} = \frac{40}{5} = 8\)
\(\displaystyle \bar{y} = \frac{6 + 7 + 9 + 7 + 6}{5} = \frac{35}{5} = 7\)
偏差 \(x_i − \bar{x}\), \(y_i − \bar{y}\) は標準偏差の計算にも共分散の計算にも必要なので、きちんと書き出しておくと後が楽です。
\(x_1 − \bar{x} = 7 − 8 = −1\)
\(x_2 − \bar{x} = 8 − 8 = 0\)
\(x_3 − \bar{x} = 10 − 8 = 2\)
\(x_4 − \bar{x} = 7 − 8 = −1\)
\(x_5 − \bar{x} = 8 − 8 = 0\)
\(y_1 − \bar{y} = 6 − 7 = −1\)
\(y_2 − \bar{y} = 7 − 7 = 0\)
\(y_3 − \bar{y} = 9 − 7 = 2\)
\(y_4 − \bar{y} = 7 − 7 = 0\)
\(y_5 − \bar{y} = 6 − 7 = −1\)
分散 \(s_x^2\), \(s_y^2\) は、\((\text{偏差の 2 乗の和}) \div (\text{データの個数})\) で求められます。
\(\begin{align}s_x^2 &= \frac{(−1)^2 + 0^2 + 2^2 + (−1)^2 + 0^2}{5} \\&= \frac{1 + 4 + 1}{5} \\&= \frac{6}{5}\end{align}\)
\(\begin{align}s_y^2 &= \frac{(−1)^2 + 0^2 + 2^2 + 0^2 + (−1)^2}{5} \\&= \frac{1 + 4 + 1}{5} \\&= \frac{6}{5}\end{align}\)
標準偏差 \(s_x\), \(s_y\) は、分散の正の平方根をとるだけで求められます。
\(\displaystyle s_x = \sqrt{\frac{6}{5}}\), \(\displaystyle s_y = \sqrt{\frac{6}{5}}\)
共分散 \(s_{xy}\) は、偏差の積 \((x_i − \bar{x})(y_i − \bar{y})\) をデータの個数で割ると求められます。
\(s_{xy}\)
\(= \displaystyle \frac{(−1)(−1) + 0 \cdot 0 + 2 \cdot 2 + (−1)0 + 0(−1)}{5}\)
\(= \displaystyle \frac{1 + 4}{5}\)
\(= 1\)
(見切れる場合は横へスクロール)
あとは、共分散 \(s_{xy}\) を標準偏差の積 \(s_x s_y\) で割れば相関係数が求められます。
\(\begin{align} r &= \frac{s_{xy}}{s_x s_y} \\ &= \frac{1}{\sqrt{\frac{6}{5}} \cdot \sqrt{\frac{6}{5}}} \\ &= \frac{1}{\frac{6}{5}} \\ &= \frac{5}{6} \\ &≒ 0.83 \end{align}\)
答え: \(\color{red}{0.83}\)
計算ミスのないように \(1\) つ \(1\) つを着実に計算していきましょう!
相関係数の練習問題
最後に、相関係数の練習問題を \(1\) 問だけ解いてみましょう。
練習問題「表を使って相関係数を求める」
以下のデータ \(x, y\) の相関係数 \(r\) を、小数第 \(3\) 位を四捨五入して求めよ。
なお、\(\sqrt{5} = 2.236\) とする。
データの個数が多いときは、表にまとめながら解くことをオススメします。
問題の表にそのまま書き足していくのもよいですね。
表にまとめることで計算ミスを防げますし、検算もしやすいというメリットがあります。
\(x, y\) の平均値を \(\bar{x}, \bar{y}\) とする。
\(x, y\) の平均値、偏差、偏差の \(2\) 乗、偏差の積をまとめると、以下の表のようになる。
表より、\(x, y\) の分散 \(s_x^2, s_y^2\) は
\(s_x^2 = 6.4\)
\(s_y^2 = 8\)
標準偏差 \(s_x\), \(s_y\) は
\(\displaystyle s_x = \sqrt{6.4} = \sqrt{\frac{64}{10}} = \frac{8}{\sqrt{10}}\)
\(s_y = \sqrt{8} = 2\sqrt{2}\)
共分散 \(s_{xy}\) は
\(s_{xy} = −5.8\)
したがって、求める相関係数 \(r\) は
\(\begin{align} r &= \frac{s_{xy}}{s_x s_y} \\ &= \frac{−5.8}{\frac{8}{\sqrt{10}} \cdot 2\sqrt{2}} \\ &= −\frac{5.8}{\frac{16}{\sqrt{5}}} \\ &= −\frac{5.8 \cdot \sqrt{5}}{16} \\ &= −\frac{5.8 \cdot 2.236}{16} \\ &= −0.810\cdots \\ &≒ −0.81 \end{align}\)
答え: \(\color{red}{−0.81}\)
以上で相関係数の解説は終わりです。
相関係数は \(2\) つのデータの関係を考察するのにとても役立つ指標です。
計算には慣れも必要ですので、たくさん練習してマスターしましょう!