回帰分析
いよいよ第5章「回帰直線と予測」に入ります。第4章では、2つの変数の関係を散布図と相関係数で見てきました。第5章は、その関係性を1本の直線で表現する──さらに踏み込んだ分析を扱います。
「回帰分析」と聞くと難しそうに感じますが、実は中学で習った一次関数 y = ax + bと同じ仕組みです。本ページでは、回帰直線・説明変数・目的変数・回帰係数といった用語を、馴染みのある一次関数に結びつけながらやさしく整理していきます。
1. 散布図に「直線」を引いてみる
第4章で散布図を学びました。たとえば、勉強時間とテストの点数のような2変数のデータを散布図にすると、点がだいたい右上がりに並んでいる、という傾向が見えますよね(正の相関の典型例です)。
ここで自然に湧いてくる疑問があります。「もし誰かが新たに3時間勉強したら、何点ぐらい取れるんだろう?」。点はあくまで「過去のデータ」ですが、その並び方を見ていれば、「だいたいこのくらい」と予想することができそうです。
「だいたいこの線」が回帰直線
散布図に1本の直線を引いてみると、データ全体の傾向が「式」で表せる
この、点の並び方をいちばん良く表す1本の直線を回帰直線(かいきちょくせん、regression line)と呼びます。直線をうまく引ければ、新しいXに対するY──たとえば「3時間勉強したら何点くらい?」を、この線から読み取れるようになります。
この「直線を引いて関係を表す」一連のアプローチが回帰分析です。過去のデータの傾向を1本の式にまとめて、まだ起きていないことを予想する──これが回帰分析の役割です。
回帰分析は「散布図に1本の直線を引いて、2変数の関係を式で表す」方法です。式があれば、新しい入力に対する出力を予測できます。
散布図の点に、ぴったり通る1本の線を引いてあげる──これだけ! その線の式があれば、未来のデータの予測まで一気にできちゃうんだよ!
2. 用語の整理 ─ 説明変数・目的変数
回帰分析では、2つの変数を役割ごとに区別します。これまでは「変数X」「変数Y」と言ってきましたが、回帰分析では明確な役割があります。
説明変数(X側)
説明変数(せつめいへんすう、explanatory variable)は、「原因として働く側」の変数です。独立変数とも呼ばれます。散布図では横軸に置きます。
勉強時間とテスト点数の例なら、勉強時間が説明変数です。「テストの点数を説明する変数」だから説明変数と呼びます。
目的変数(Y側)
目的変数(もくてきへんすう、objective variable)は、「結果として動く側」の変数です。従属変数や応答変数とも呼ばれます。散布図では縦軸に置きます。
勉強時間とテスト点数の例なら、テスト点数が目的変数です。「予測したい目的の変数」だから目的変数と呼びます。
役割で覚える
| 変数 | 役割 | 散布図での位置 | 例 |
|---|---|---|---|
| 説明変数(X) | 原因・入力 | 横軸 | 勉強時間、気温、店舗の広さ |
| 目的変数(Y) | 結果・出力 | 縦軸 | テスト点数、アイス売上、月間売上 |
「Xを変えると、Yがどう変わる?」というイメージで、X→Y の方向性を持って見るのが回帰分析です。第4章の相関のように「2変数がただ一緒に動く」のではなく、「片方がもう片方に影響する」という関係性を意識するのが、第5章での視点の変化です。
相関分析は「対称な関係」を見ますが、回帰分析は「X → Y の方向を持った関係」を見ます。「何で何を予測したいか」を最初に決めるのが、回帰分析のスタートです。
3. 回帰直線の式は、中学で学んだ一次関数
ここで、回帰分析の核心に触れます。回帰直線の式は、中学で習った一次関数そのもの──たったそれだけのことです。
一次関数のおさらい
中学2年生の数学で、こんな式を学びました。
y = ax + b
・ a は傾き(xが1増えたとき、yが何増えるか)
・ b は切片(xが0のときのyの値)
たとえば y = 2x + 3 なら、xが1増えるとyは2増え、xが0のときyは3です。グラフは右上がりの直線になりますね。中学の頃に何度も書いたあの図と、まったく同じです。
回帰直線も同じ式
回帰分析で扱う回帰直線も、中身はまったく同じ一次関数です。ただし、用語が少しだけ統計学っぽくなります。
Y = aX + b
・ X は説明変数(中学の x と同じ)
・ Y は目的変数(中学の y と同じ)
・ a は回帰係数(中学の「傾き」と同じ)
・ b は切片(中学の「切片」と同じ)
用語の対応表
| 中学の一次関数 | 回帰分析 | 意味 |
|---|---|---|
| x | 説明変数 | 入力(横軸の値) |
| y | 目的変数 | 出力(縦軸の値) |
| 傾き a | 回帰係数 | xが1増えたとき、yが何増えるか |
| 切片 b | 切片 | xが0のときのyの値 |
中学で習った一次関数を、データ分析の文脈で名前を変えただけ──それが回帰直線の式です。「回帰分析って実は知ってたかも?」と感じてもらえたら、本ページの目的の半分は達成です。
「回帰係数」「切片」って統計の専門用語っぽいけど、中身は中学の一次関数の「傾き」「切片」と同じ! ね、ぜんぜん怖くないでしょ?
4. 回帰係数の意味 ─ 「Xを1増やすとYはどう動く?」
とくに大事なのが回帰係数 aです。これは中学の傾きと同じく、「Xが1増えたとき、Yが何増えるか」を表します。回帰分析の結論として、もっとも興味深い数字になることが多いです。
具体例で確認
たとえば、勉強時間と数学テストの点数で、ある分析の結果「Y = 8X + 40」という回帰直線が得られたとしましょう。
- 回帰係数 a = 8 → 勉強時間が1時間増えると、点数が8点上がる
- 切片 b = 40 → 勉強時間が0時間のとき、点数は40点(=ベースライン)
これだけで、データの傾向がぐっと具体的になります。「勉強1時間あたり8点アップ」というメッセージは、生徒にも保護者にもわかりやすく伝わりますよね。回帰係数は、回帰分析がデータから取り出してくれる「いちばんおいしい結論」です。
予測してみる
この式を使えば、いろいろな勉強時間でどれくらいの点数になるかを予測できます。
| 勉強時間(X) | 計算 | 予測点数(Y) |
|---|---|---|
| 1時間 | 8 × 1 + 40 | 48点 |
| 3時間 | 8 × 3 + 40 | 64点 |
| 5時間 | 8 × 5 + 40 | 80点 |
| 7時間 | 8 × 7 + 40 | 96点 |
これが回帰分析の予測の力です。ただし、ここまで予測の精度を高めるための「計算の仕組み」が必要で、それが次回扱う最小二乗法です。今回は「直線を式で表せると予測ができる」という発想までを押さえておけばOKです。
回帰係数は「Xを1増やすとYが何増えるか」を表す数字です。これがあれば、まだ見ていないXの値に対する予測Yの値を計算できます。
回帰係数を見れば「1時間勉強で8点アップ」みたいに具体的にわかる! ぼんやりした傾向が、数字でハッキリ言える形になるんだよ!
5. 相関分析と回帰分析の違い
第4章で学んだ相関分析と、今回の回帰分析。2変数の関係を扱うという点では似ていますが、役割が大きく違います。違いをはっきりさせておきましょう。
| 観点 | 相関分析(第4章) | 回帰分析(第5章) |
|---|---|---|
| 変数の扱い | 対称(XとYは対等) | 非対称(X→Yの方向を持つ) |
| 得られるもの | 関係の強さ・向き(−1〜+1) | 関係の式(Y = aX + b) |
| 用途 | 関係性があるかを判断 | 予測すること |
| 主な指標 | 相関係数 r | 回帰係数 a、切片 b |
2つはセットで使う
実務では、相関分析と回帰分析はセットで使うのが一般的です。
- まず散布図と相関係数で、関係性があるかを確認(第4章)
- 関係性があれば、回帰直線で式を求めて、予測に使う(第5章)
「関係があるね」と言うだけで終わらず、「では具体的にどんな式で表せるか?」「新しい入力に対してどう予測できるか?」と踏み込んでいくのが、回帰分析の世界です。
まとめ
第5章のスタートとなる回帰分析、ポイントを整理しておきましょう。
- 回帰直線:散布図の点の並びを、いちばん良く表す1本の直線
- 説明変数(X):原因として働く変数。散布図の横軸
- 目的変数(Y):結果として動く変数。散布図の縦軸
- 回帰直線の式:Y = aX + b(中学の一次関数 y = ax + b と同じ仕組み)
- 回帰係数 a:Xを1増やしたときにYがどれだけ増えるか
- 切片 b:Xが0のときのYの値
- 相関分析が「関係があるかを見る」のに対し、回帰分析は「関係を式で表して予測する」
回帰分析は、知らない言葉に変装した一次関数──このイメージを持っていれば、これから学ぶ内容もスッと入ってきます。次回は、回帰直線を「どうやって引くか?」──最小二乗法に進みます。あの直線がどんなルールで決まっているのかを、丁寧に見ていきましょう。