相関係数の注意点
前回学んだ相関係数は、2変数の関係を1つの数値で表せる便利な道具でした。でも、便利な道具ほど落とし穴があります。今回はその注意点を3つに整理します。
①外れ値の影響、②山なりの関係(非線形)には弱い、③異質なグループが混ざっていると正しく測れない──いずれも「相関係数の数字だけを見て判断してはいけない」という大事な教訓につながります。
1. 散布図を必ずセットで見る
これから3つの注意点を見ていきますが、すべてに共通する解決策はひとつ。「相関係数を計算する前に、必ず散布図を描いて見る」ことです。
ExcelでCORREL関数を実行すれば、相関係数だけはあっという間に出ます。でも、その数字だけを見て判断してしまうと、これから見る3つの落とし穴に簡単にハマります。数字と散布図はセットで見る──これが第4章を通しての一貫したメッセージです。
相関係数は「2変数の関係を要約した数値」です。要約には、必ず切り捨てた情報があります。元の散布図を見ることで、その切り捨てに気づくことができます。
2. 注意点① 外れ値に弱い
第3章3-4で学んだとおり、平均値や標準偏差は外れ値に弱い性質がありました。相関係数も、この計算過程に平均と標準偏差を使うので、外れ値の影響を強く受けます。
たった1つの外れ値で結果が変わる
具体的に見てみましょう。次の2つの散布図は、たった1つの点が違うだけです。
外れ値なし ─ 全体としてはほぼ無相関(r ≈ 0)
上の散布図は、点がランダムに散らばっていて、ほぼ無相関の状態。相関係数はおおよそ 0に近い値になります。
ところが、ここに1つだけ大きな外れ値を加えると、まるで強い正の相関があるように見えてしまうことがあります。
外れ値1点を追加 ─ あたかも正の相関があるように見える
右上に1つ大きな点を加えただけで、点全体に「右上がり」の流れがあるように錯覚してしまうのです。実際にCORREL関数で計算すると、相関係数は0から大きくプラスの値へとジャンプします。
外れ値があるときの対処
外れ値があるかもしれない場合の対処は、3-4で学んだ流れと同じです。
- 散布図で外れ値を視認する
- 外れ値の原因を考える(測定ミス・例外的事象・本物の特異値)
- 必要に応じて外れ値を除外して計算し直す、または外れ値を含む場合と含まない場合の両方を報告する
重要なのは、外れ値を機械的に削除しないこと。「なぜ外れているか」を考えてから対応するのが、データ分析の基本姿勢です。
「相関係数が高いぞ!」って喜ぶ前に、散布図を必ずチェックします。たった1つの外れ値が、結果をガラッと変えてしまうこともありますね。
3. 注意点② 山なりの関係には気づけない
もうひとつの大きな落とし穴は、非線形(直線的でない)の関係です。相関係数は「直線的な関係の強さ」を測る指標なので、データが直線的に並んでいない関係は、うまく拾えないことがあります。
「山なり」の散布図
もっとも有名な例が、山なり(または谷なり)の散布図です。次の散布図を見てください。
山なりの散布図 ─ 明らかな関係性があるのに、相関係数はほぼ0になる
この散布図を見ると、明らかにXとYには関係があります。「XがあるところまでYは増え、ピークを過ぎるとYは減る」という、はっきりした山なりの関係です。
ところが、この散布図のデータを相関係数で計算すると、ほぼ0に近い値になります。なぜでしょうか?
なぜ相関係数は0になってしまうのか
理由は、相関係数が「XとYの直線的な連動」だけを見ているからです。山なりのデータは:
- Xが小さいとき:Xが増えるとYも増える(正の連動)
- Xが大きいとき:Xが増えるとYは減る(負の連動)
正の連動と負の連動が同じくらい混ざっているので、お互いに打ち消し合って、最終的に相関係数はほぼ0になってしまうのです。「相関係数が0だから関係がない」と判断すると、明らかな関係性を見逃してしまいます。
身近な例
山なりや谷なりの関係は、実は身近にたくさんあります。
- 気温と電力使用量:寒い日も暑い日も冷暖房で電力消費が増える。気温20℃前後がもっとも少ない(谷なり)
- 年齢と仕事の満足度:若い時期と高齢期は満足度が高めで、中年期に下がる傾向(U字型)
- 勉強時間とテスト成績:適度な勉強で成績が伸びるが、過度になると疲労で下がる(山なり)
- 食事の量と健康:少なすぎても多すぎても健康を損なう(U字型)
相関係数は「直線的な関係」だけを測る指標です。山なり・U字型などの非線形な関係には反応しません。関係がないのではなく、相関係数では測れないのです。
相関係数が0でも「関係なし」じゃないかも? ってことを覚えておいてね。散布図を見ないと気づけない関係って、けっこう多いんだ。
4. 注意点③ 異質なグループが混ざっていると見誤る
3つ目の落とし穴は、第4章4-2で扱った層別の発想と表裏一体です。「全体では無相関に見えるけど、データを分割すると強い相関が出る」──そんなケースをここで掘り下げます。
全体では「無相関っぽい」散布図
まずは、何も塗り分けずに見た散布図を見てみましょう。
全体散布図 ─ 一見、関係がぼんやりして見える
この散布図を、ぱっと見て「強い相関がある」と感じる人は少ないと思います。点が左下から右上に広く散らばっていて、傾向はあるかもしれないけれど、はっきりした直線にはなっていません。実際、このデータの相関係数を計算すると、中程度の正の相関くらいの値になります。
層別すると、各グループは「強い相関」
ところが、このデータが2つのグループから成っていることがわかったとしましょう。性別、地域、年代、製造ライン──何でもいいのですが、データを2つに分けて塗り分けてみます。
層別散布図 ─ 各グループ内では非常に強い正の相関!
別々に見ると、グループAもグループBも、それぞれの中で非常に強い正の相関を示していることがわかります。それぞれを単独でCORREL関数にかけると、両方とも0.9を超えるほどの強い相関が出てきます。
全体と層別で値が大きく違う
この例で起きていることを整理してみましょう。
| 計算対象 | 相関係数の値(イメージ) | 解釈 |
|---|---|---|
| 全体(A+B) | 0.6前後 | 中程度の正の相関 |
| グループA単独 | 0.95 | 非常に強い正の相関 |
| グループB単独 | 0.95 | 非常に強い正の相関 |
全体だと「中程度」、層別すると「非常に強い」──同じデータでも、見方によって相関の強さの評価が大きく変わります。データの中に異質なグループが混ざっているときは、全体の相関係数だけを見ると関係性を過小評価してしまうことがあるのです。
逆に、まったく関係のない2つのグループが「たまたま似た範囲にプロットされる」と、全体では強い相関に見えても、層別すると各グループ内では無相関──ということも起こります。これも層別をしなければ気づけない問題です。
相関係数を計算するときは、「データの中に性質の違うグループが混ざっていないか?」を疑うクセをつけてください。層別散布図を併用することで、隠れた関係性を見抜けます。
4-2の層別散布図、ここでまた登場! 「全体だけを見ない」っていうデータ分析のクセ、本当に大事だよ!
5. 相関係数を使うときのチェックリスト
ここまでの3つの注意点をまとめると、相関係数を使う前後に、必ず確認したいチェックリストができあがります。
- 散布図を描いたか? CORREL関数だけで判断せず、必ず視覚化する
- 外れ値はないか? あれば原因を考え、必要に応じて両方の値で報告する
- 関係は直線的か? 山なり・U字型なら、相関係数では測れない
- 異質なグループが混ざっていないか? 層別すると違う風景が見えるかもしれない
- 結論は「相関係数」と「散布図」のセットで報告する
この5つのチェックを習慣にできれば、相関係数を強力な味方として、安心して使えるようになります。「数字を出して終わり」ではなく、「数字を出してから、本当の分析が始まる」──これがデータと向き合う基本姿勢です。
まとめ
相関係数の3つの注意点を、もう一度整理しておきましょう。
- 注意点①:外れ値に弱い──たった1つの外れ値で結果が大きく変わる
- 注意点②:山なりの関係には気づけない──相関係数は直線的な関係しか測れない
- 注意点③:異質なグループが混ざると見誤る──全体と層別で値が大きく違うことがある
- 共通の解決策:散布図と相関係数を必ずセットで見る
相関係数は強力な指標ですが、それ単体では完璧な答えを与えてくれません。視覚(散布図)と数値(相関係数)、両方を行き来する習慣が、データを正しく読み解く力を育ててくれます。
第4章も残すところあと1項目。次回はもう一歩踏み込んで、「相関と因果」──相関があるからといって、原因と結果の関係があるとは限らない、というデータ分析でもっとも大事な考え方を整理します。