相関係数 r とは?公式と求め方、相関の強さの目安を解説!

この記事では、「相関係数」の意味や公式、求め方をわかりやすく解説していきます。

また、相関の強弱の目安や散布図との関係についても簡単に説明していきますので、ぜひこの記事を通してマスターしてくださいね。

 

相関係数とは?

相関係数 \(r\) とは、\(2\) つのデータの相関関係の強さを示す指標です。

相関係数の定義

相関係数 \(r\) とは、\(2\) 変量データの間にある相関関係(= 線形な関係)の強弱を示す指標である。

相関係数 \(r\) に単位はなく、\(−1 \leq r \leq 1\) までの値をとる。

\(r\) が \(1\) に近いほど「正の相関」が強く、\(−1\) に近いほど「負の相関」が強い。

 

データ分析における相関関係には、大きく分けて次の \(3\) つがあります。

  • 正の相関
    一方のデータが増加すると他方のデータも増加する
  • 負の相関
    一方のデータが増加すると他方のデータは減少する
  • 相関がない
    一方のデータの増減と他方のデータの増減に直線的な関連が見られない

ただ、一口に「正の相関がある」などと言っても、その相関の程度にも強弱がありますよね。

そこで、相関の強弱を客観的に判断する基準として、「相関係数」が考えられました。

つまり、相関の強弱を数値化したものが「相関係数」なのです。

 

相関係数の公式

相関係数は、\(2\) つのデータの共分散をそれぞれの標準偏差の積で割ったものです。

相関係数の公式

\(2\) 変量データ \((x, y)\) の相関係数 \(r\) は、以下の式で表される。

\begin{align}\color{red}{r \ } &\color{red}{= \displaystyle \frac{s_{xy}}{s_x \cdot s_y}} \\&\color{red}{= \displaystyle \frac{\frac{1}{n} \sum_{i = 1}^n (x_i − \bar{x})(y_i − \bar{y})}{\sqrt{\frac{1}{n} \sum_{i = 1}^n (x_i − \bar{x})^2} \sqrt{\frac{1}{n} \sum_{i = 1}^n (y_i − \bar{y})^2}}}\end{align}

(見切れる場合は横へスクロール)

 

ここで、

  • \(s_{xy}\) : \(x, y\) の共分散
  • \(s_x\) : \(x\) の標準偏差
  • \(s_y\) : \(y\) の標準偏差
  • \(n\) : データの総数
  • \(x_i, y_i\) : \(i\) 番目の \(x, y\) の値
  • \(\bar{x}, \bar{y}\) : \(x, y\) の平均値

なかなか複雑な公式ですよね。

\(\color{red}{\displaystyle \text{(相関係数)} = \frac{\text{(共分散)}}{\text{(標準偏差)} \cdot \text{(標準偏差)}}}\) と覚えておき、順番に求めていくのがオススメです。

 

相関係数の求め方【例題】

次の例題を通して、相関係数を求める手順を説明します。

例題

以下のデータは、\(5\) 人の学生が受けた数学と英語の小テストの点数である。

数学と英語の点数の相関係数 \(r\) を求めよ。

学生 \(1\) \(2\) \(3\) \(4\) \(5\)
数学(点) \(7\) \(8\) \(10\) \(7\) \(8\)
英語(点) \(6\) \(7\) \(9\) \(7\) \(6\)

 

数学の点数を \(x\)(点)、英語の点数を \(y\)(点)として求めていきます。

STEP.1
各データの平均値を求める

平均値 \(\bar{x}\), \(\bar{y}\) は、\((\text{全データの和}) \div (\text{データの個数})\) で求められます。

\(\displaystyle \bar{x} = \frac{7 + 8 + 10 + 7 + 8}{5} = \frac{40}{5} = 8\)

 

\(\displaystyle \bar{y} = \frac{6 + 7 + 9 + 7 + 6}{5} = \frac{35}{5} = 7\)

 

STEP.2
各データの偏差を求める

偏差 \(x_i − \bar{x}\), \(y_i − \bar{y}\) は標準偏差の計算にも共分散の計算にも必要なので、きちんと書き出しておくと後が楽です。

\(x_1 − \bar{x} = 7 − 8 = −1\)

\(x_2 − \bar{x} = 8 − 8 = 0\)

\(x_3 − \bar{x} = 10 − 8 = 2\)

\(x_4 − \bar{x} = 7 − 8 = −1\)

\(x_5 − \bar{x} = 8 − 8 = 0\)

 

\(y_1 − \bar{y} = 6 − 7 = −1\)

\(y_2 − \bar{y} = 7 − 7 = 0\)

\(y_3 − \bar{y} = 9 − 7 = 2\)

\(y_4 − \bar{y} = 7 − 7 = 0\)

\(y_5 − \bar{y} = 6 − 7 = −1\)

 

STEP.3
各データの分散を求める

分散 \(s_x^2\), \(s_y^2\) は、\((\text{偏差の 2 乗の和}) \div (\text{データの個数})\) で求められます。

\(\begin{align}s_x^2 &= \frac{(−1)^2 + 0^2 + 2^2 + (−1)^2 + 0^2}{5} \\&= \frac{1 + 4 + 1}{5} \\&= \frac{6}{5}\end{align}\)

 

\(\begin{align}s_y^2 &= \frac{(−1)^2 + 0^2 + 2^2 + 0^2 + (−1)^2}{5} \\&= \frac{1 + 4 + 1}{5} \\&= \frac{6}{5}\end{align}\)

 

STEP.4
各データの標準偏差を求める

標準偏差 \(s_x\), \(s_y\) は、分散の正の平方根をとるだけで求められます。

\(\displaystyle s_x = \sqrt{\frac{6}{5}}\), \(\displaystyle s_y = \sqrt{\frac{6}{5}}\)

 

STEP.5
共分散を求める

共分散 \(s_{xy}\) は、偏差の積 \((x_i − \bar{x})(y_i − \bar{y})\) をデータの個数で割ると求められます。

\(s_{xy}\)

\(= \displaystyle \frac{(−1)(−1) + 0 \cdot 0 + 2 \cdot 2 + (−1)0 + 0(−1)}{5}\)

\(= \displaystyle \frac{1 + 4}{5}\)

\(= 1\)

(見切れる場合は横へスクロール)

 

STEP.6
相関係数を求める

あとは、共分散 \(s_{xy}\) を標準偏差の積 \(s_x s_y\) で割れば相関係数が求められます。

\(\begin{align} r &= \frac{s_{xy}}{s_x  s_y} \\ &= \frac{1}{\sqrt{\frac{6}{5}} \cdot \sqrt{\frac{6}{5}}} \\ &= \frac{1}{\frac{6}{5}} \\ &= \frac{5}{6} \\ &≒ 0.83 \end{align}\)

 

答え: \(\color{red}{0.83}\)

 

完了

計算ミスのないように \(1\) つ \(1\) つを着実に計算していきましょう!

 

相関の有無と強弱の目安

相関の有無や強弱がどのように判断できるかを説明します。

散布図 → 相関の有無がわかる

相関の有無は、\(2\) つのデータを縦軸・横軸にとった散布図である程度判断できます。

例えば、\(10\) 人の生徒が数学と英語のテストを受けたとします。

数学の点数が高い人ほど英語の点数が低い傾向にあるなら、それらの点数は「負の相関」にあるといえます。このとき、散布図ではデータが右肩下がりに分布します。

一方、数学の点数の大小と英語の点数の大小に直線的な関係が見られないなら、それらの点数には「ほとんど相関がない」といいます。このとき、散布図ではデータはバラバラに分布します。

さらに、数学の点数が高い人ほど英語の点数も高い傾向にあるなら、それらの点数は「正の相関」にあるといえます。このとき、散布図ではデータが右肩上がりに分布します。

補足

「ほとんど相関がない」からといって、\(2\) つのデータの大きさに何の関連性もないとは限りません。

例えば、以下の散布図はどちらも \(2\) つのデータの間に「ほとんど相関がない(= 直線的な関係はない)」のですが、右側には明らかに何らかの関係性がありそうですよね。

ですので、散布図を書かずに相関係数だけを求めると、重要な関係性を見落としてしまう恐れがあります。

 

相関係数 → 相関の強弱がわかる

そして、相関係数の値を調べると相関の強弱を定量的に示すことができます。

相関の強弱の明確な基準は決まっていないものの、以下のような目安がよく用いられます。

相関係数 \(\bf{r}\) の値の範囲 相関の強弱
\(−1 \leq r \leq −0.7\) 強い負の相関
\(−0.7 \leq r \leq −0.4\) 負の相関
\(−0.4 \leq r \leq −0.2\) 弱い負の相関
\(−0.2 \leq r \leq 0.2\) ほとんど相関がない
\(0.2 \leq r \leq 0.4\) 弱い正の相関
\(0.4 \leq r \leq 0.7\) 正の相関
\(0.7 \leq r \leq 1\) 強い正の相関

 

また、相関係数が \(1\) や \(−1\) に近づくほど散布図の直線性が増します

 

相関係数の練習問題

最後に、相関係数の練習問題を \(1\) 問だけ解いてみましょう。

練習問題「表を使って相関係数を求める」

練習問題

以下のデータ \(x, y\) の相関係数 \(r\) を、小数第 \(3\) 位を四捨五入して求めよ。

なお、\(\sqrt{5} = 2.236\) とする。

 

データの個数が多いときは、表にまとめながら解くことをオススメします。

問題の表にそのまま書き足していくのもよいですね。

表にまとめることで計算ミスを防げますし、検算もしやすいというメリットがあります。

解答

 

\(x, y\) の平均値を \(\bar{x}, \bar{y}\) とする。

\(x, y\) の平均値、偏差、偏差の \(2\) 乗、偏差の積をまとめると、以下の表のようになる。

 

表より、\(x, y\) の分散 \(s_x^2, s_y^2\) は

\(s_x^2 = 6.4\)

\(s_y^2 = 8\)

 

標準偏差 \(s_x\), \(s_y\) は

\(\displaystyle s_x = \sqrt{6.4} = \sqrt{\frac{64}{10}} = \frac{8}{\sqrt{10}}\)

\(s_y = \sqrt{8} = 2\sqrt{2}\)

 

共分散 \(s_{xy}\) は

\(s_{xy} = −5.8\)

 

したがって、求める相関係数 \(r\) は

\(\begin{align} r &= \frac{s_{xy}}{s_x s_y} \\ &= \frac{−5.8}{\frac{8}{\sqrt{10}} \cdot 2\sqrt{2}} \\ &= −\frac{5.8}{\frac{16}{\sqrt{5}}} \\ &= −\frac{5.8 \cdot \sqrt{5}}{16} \\ &= −\frac{5.8 \cdot 2.236}{16} \\ &= −0.810\cdots \\ &≒ −0.81 \end{align}\)

 

答え: \(\color{red}{−0.81}\)

以上で相関係数の解説は終わりです。

 

相関係数は \(2\) つのデータの関係を考察するのにとても役立つ指標です。

計算には慣れも必要ですので、たくさん練習してマスターしましょう!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です