データを扱うとき、「この2つの数値はどれくらい関連しているのだろう?」と疑問に思ったことはありませんか?たとえば、「気温とアイスクリームの売上」や「勉強時間とテストの点数」など、身近な例で考えてみましょう。これらの関係性を数値で示すのが、共分散と相関係数です。今回は、これらをExcelを使って簡単に理解できる方法をご紹介します。
共分散とは?
共分散は、2つのデータがどれくらい一緒に変動するかを示す指標です。具体的には、片方の数値が増えると、もう片方も増えるのか、減るのか、または関係がないのかを知ることができます。
- 正の共分散: 片方が増えると、もう片方も増える傾向がある。
- 負の共分散: 片方が増えると、もう片方は減る傾向がある。
- ゼロに近い共分散: 片方の変動ともう片方の変動に明確な関係がない。
例えば、身長と体重の関係を考えてみましょう。身長が高くなると、体重も増える傾向がありますよね。この場合、身長と体重の共分散は正の値になります。
相関係数とは?
共分散は、数値の単位に影響されるため、データの規模や単位が異なると比較が難しくなります。そこで登場するのが、相関係数です。相関係数は、-1から1の範囲で、2つのデータ間の線形関係の強さと方向を示します。
- 1: 完全な正の相関(片方が増えると、もう片方も必ず増える)。
- -1: 完全な負の相関(片方が増えると、もう片方は必ず減る)。
- 0: 相関がない(片方の変動ともう片方の変動に関係がない)。
相関係数の絶対値が大きいほど、2つのデータ間の関係性が強いことを意味します。
Excelで共分散と相関係数を計算する方法
Excelを使えば、これらの指標を簡単に計算できます。
共分散の計算
Excelには、共分散を計算するための関数が用意されています。
- =COVARIANCE.P(範囲1, 範囲2): 母集団の共分散を計算します。
- =COVARIANCE.S(範囲1, 範囲2): 標本の共分散を計算します。
例えば、A列に身長、B列に体重のデータがある場合、共分散を計算するには以下のように入力します。
=COVARIANCE.P(, B2:B10)
相関係数の計算
相関係数を計算するには、ExcelのCORREL関数を使用します。
=CORREL(範囲1, 範囲2)
例えば、A列に身長、B列に体重のデータがある場合、相関係数を計算するには以下のように入力します。
=CORREL(, B2:B10)
実際の例で理解を深めよう
例えば、ある学校の生徒の身長と体重のデータがあるとしましょう。これらのデータを使って、共分散と相関係数を計算してみます。
- 身長: 150, 160, 170, 180, 190
- 体重: 50, 60, 70, 80, 90
このデータをExcelに入力し、共分散と相関係数を計算すると、共分散は正の値となり、相関係数も1に近い値になります。これは、身長と体重が強い正の相関関係にあることを示しています。
よくある質問や疑問
Q1: 共分散と相関係数の違いは何ですか?
共分散は、2つのデータがどれくらい一緒に変動するかを示す指標であり、単位に依存します。一方、相関係数は、-1から1の範囲で、2つのデータ間の線形関係の強さと方向を示す指標であり、単位に依存しません。
Q2: 相関係数が0に近い場合、関係性はないのですか?
相関係数が0に近い場合、直線的な関係性はないと考えられます。しかし、非線形な関係性が存在する可能性もあるため、散布図などでデータの分布を確認することが重要です。
Q3: Excelで相関係数を計算する際の注意点はありますか?
相関係数を計算する際には、以下の点に注意してください。
- データに欠損値や外れ値が含まれていないか確認する。
- データが線形関係にあるかどうかを散布図で確認する。
- データの単位やスケールが適切であるか確認する。
まとめ
共分散と相関係数は、2つのデータ間の関係性を理解するための重要な指標です。Excelを使えば、これらの指標を簡単に計算し、データの傾向を把握することができます。データ分析の第一歩として、ぜひ活用してみてください。
他にも疑問やお悩み事があれば、お気軽にLINEからお声掛けください。



コメント