第1章 1-11 / データの記述と要約

回帰直線

このページで学ぶこと

前回までで、散布図と相関係数を使って2変数の関係をつかみました。今回はその散布図に「いちばん良い1本の直線」を引きます。これが回帰直線 $\hat{y}=a+bx$ です。直線が引ければ、$x$ から $y$ を予測できるようになります。

直線を決めるルールが最小二乗法です。本ページでは導出には立ち入らず、結論の公式だけを提示します。傾き $b=\dfrac{s_{xy}}{s_x^2}=r\dfrac{s_y}{s_x}$、切片 $a=\bar{y}-b\bar{x}$。なぜこの式になるのか(正規方程式の導出)は、本講座の山場として 第5章 5-1 でじっくり扱います。今回は使い方と数値例に集中しましょう。

さえちゃん
さえ

散布図にスーッと1本、いちばんフィットする直線を引くのが回帰直線だよ。今回はその直線の傾きと切片を、公式にあてはめて出すところまで。「なぜその公式?」の証明は第5章のお楽しみにとっておこう!

1. 回帰直線とは ─ 予測のための1本の直線

2つの量的変数があるとき、片方($x$)からもう片方($y$)を予測したいことがあります。たとえば勉強時間から点数を、気温からアイスの売上を見積もる、といった具合です。このとき、予測のもとになる $x$ を説明変数(または独立変数)、予測したい $y$ を目的変数(または従属変数)と呼びます。

散布図の点に対して、もっともよくフィットする直線を引いたものが回帰直線です。直線が表す $y$ は「実際の値」ではなく「直線による予測値」なので、ハットをつけて $\hat{y}$(ワイ・ハット)と書きます。

FORMULA

$$\hat{y} = a + b x$$ $b$ は直線の傾き(回帰係数)、$a$ は切片です。傾き $b$ は「$x$ が $1$ 増えると $y$ が平均してどれだけ変わるか」を表します。

2. 最小二乗法 ─ 直線を選ぶルール(結論のみ)

直線はいくらでも引けます。そのなかから1本を選ぶには基準が要ります。回帰でいちばんよく使われる基準が最小二乗法(さいしょうにじょうほう、least squares method)です。

残差を二乗して合計する

各データについて、実際の $y_i$ と直線の予測値 $\hat{y}_i$ の差を残差 $e_i = y_i - \hat{y}_i$ といいます。点が直線より上なら残差はプラス、下ならマイナス。残差をそのまま足すと打ち消し合って $0$ になってしまうので、残差を二乗してから合計します。

この「残差二乗和」をできるだけ小さくする $a,\,b$ を選ぶ──これが最小二乗法です。直線から大きく外れた点ほど二乗で重いペナルティを受けるので、結果としてみんなにそこそこ近い直線が選ばれます。

POINT

残差二乗和 $\displaystyle\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$ を最小にする $a,\,b$ を求めるのが最小二乗法です。この最小化を実際に解く(微分して連立方程式=正規方程式を立てる)手続きは、本講座の山場として 第5章 5-1 で導出します。本ページではその結論の公式だけを使います。

3. 結論の公式 ─ 傾きと切片

最小二乗法を解くと、傾き $b$ と切片 $a$ は次のように、前回までに学んだ共分散・分散・相関係数・標準偏差だけで書けます。

FORMULA

傾き(回帰係数): $$b = \frac{s_{xy}}{s_x^{2}} = r\,\frac{s_y}{s_x}$$ 切片: $$a = \bar{y} - b\,\bar{x}$$ ここで $s_{xy}$ は共分散、$s_x^2$ は $x$ の分散、$r$ は相関係数、$s_x,\,s_y$ は標準偏差、$\bar{x},\,\bar{y}$ は平均です(いずれも $n-1$ で割る定義で計算してかまいません。傾きでは約分されて消えます)。

傾きの2つの顔

傾き $b$ には2通りの書き方があります。$b=\dfrac{s_{xy}}{s_x^2}$ は「共分散を $x$ の分散で割る」形。一方、$s_{xy}=r\,s_x s_y$ を代入すると $b=\dfrac{r\,s_x s_y}{s_x^2}=r\dfrac{s_y}{s_x}$ となり、「相関係数 × 標準偏差の比」の形になります。どちらも同じ値で、手元にあるデータに合わせて使い分けられます。

この形からわかる大事なことが1つ。傾き $b$ の符号は、共分散 $s_{xy}$(=相関係数 $r$)の符号と同じです。正の相関なら右上がり、負の相関なら右下がりの直線になる、というわけです。

直線は必ず $(\bar{x},\,\bar{y})$ を通る

切片の式 $a=\bar{y}-b\bar{x}$ を移項すると $\bar{y}=a+b\bar{x}$。これは「$x=\bar{x}$ を代入すると $\hat{y}=\bar{y}$ になる」という意味です。

POINT

最小二乗法による回帰直線は、必ずデータの重心 $(\bar{x},\,\bar{y})$ を通ります。だから、傾き $b$ さえ求めれば、あとは重心を通るように直線を1本引くだけ。切片 $a$ は、その「重心を通す」ための調整値だと考えるとスッキリします。

さえちゃん
さえ

回帰直線は、データの「ど真ん中」$(\bar{x},\bar{y})$ をかならず通るよ。だから傾きを出したら、重心にピンを刺してクルッと回す感じ。切片はそのピンの高さを合わせる係数なんだね!

4. 数値例 ─ $a,\,b$ を計算する

前回 1-9 と同じ、5人の「勉強時間 $x$」と「点数 $y$」のデータを使います。すでに計算した値を再掲します。

生徒ABCDE平均
$x$(時間)12345$\bar{x}=3$
$y$(点)3555607580$\bar{y}=61$

1-9 で求めた値は、共分散 $s_{xy}=27.5$、$x$ の分散 $s_x^2=2.5$、相関係数 $r\approx 0.976$ でした。これらを公式に入れるだけです。

EXAMPLE(傾き $b$)

共分散を $x$ の分散で割ります。 $$b = \frac{s_{xy}}{s_x^{2}} = \frac{27.5}{2.5} = 11$$ 「相関係数 × 標準偏差の比」でも確かめてみましょう。$s_x=\sqrt{2.5}\approx 1.581$、$s_y=\sqrt{317.5}\approx 17.819$ なので $$b = r\,\frac{s_y}{s_x} = 0.976 \times \frac{17.819}{1.581} \approx 0.976 \times 11.27 \approx 11$$ どちらでも $b=11$。$x$ が $1$ 時間増えると、点数は平均して $11$ 点上がる、という意味です。

EXAMPLE(切片 $a$)

重心 $(\bar{x},\bar{y})=(3,\,61)$ を通すように切片を決めます。 $$a = \bar{y} - b\,\bar{x} = 61 - 11 \times 3 = 61 - 33 = 28$$ よって回帰直線は $$\hat{y} = 28 + 11x$$

試しに $x=\bar{x}=3$ を入れると $\hat{y}=28+11\times 3=61=\bar{y}$。ちゃんと重心を通っていますね。また $x=6$(6時間勉強)と予測すると $\hat{y}=28+11\times 6=94$ 点。観測していない値の見積もりにも使えます。

この回帰直線を散布図に重ねると、次のようになります。5つの点のちょうど真ん中を貫く1本です。

勉強時間 x(時間)→ 点数 y(点)→ 1 2 3 4 5 重心 (x̄, ȳ) ŷ = 28 + 11x

散布図と回帰直線 ─ 直線 $\hat{y}=28+11x$ は重心 $(3,\,61)$ を通る

5. 使うときの注意

回帰直線は便利ですが、使い方に注意点があります。前回 1-10 で学んだ相関の注意点が、そのまま回帰にも当てはまります。

POINT

回帰直線の傾き $b=\dfrac{s_{xy}}{s_x^2}=r\dfrac{s_y}{s_x}$ は、これまで積み上げてきた共分散・相関係数・標準偏差の総決算です。第1章で学んだ記述統計の道具が、ここで「予測」という新しい目的のために1つにつながりました。残差二乗和を最小化する正式な導出は、第5章 5-1 で必ず回収します。

まとめ

第1章 1-11、ポイントを整理します。

これで第1章の2変数パートはひと区切り。次回 1-12 クロス集計表 では、質的変数どうしの関係を表にまとめる方法に移ります。量的データの散布図・相関・回帰に対して、質的データはクロス集計で関係を読む、という対比で押さえましょう。

さえちゃん
さえ

$b=11,\ a=28$、自分の手でも出せたかな? 共分散を分散で割って傾き、重心を通すように切片。第1章で集めた道具が全部つながった瞬間だよ。証明が気になる人は、第5章 5-1で待ってるね!