第5章 5-5 / 線形モデル分析

重回帰モデル — 偏回帰係数・多重共線性・ダミー変数

このページで学ぶこと

ここまでの単回帰は、説明変数が1つ($x$ ひとつで $y$ を予測)でした。でも現実の予測では、家賃を「広さ」だけでなく「駅からの距離」「築年数」も合わせて説明したくなりますよね。説明変数を複数にした回帰が重回帰モデルです。本ページの主役は予測式 $\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x_1+\cdots+\hat{\beta}_k x_k$ と、その係数 $\hat{\beta}_j$ の読み方です。

とくに大事なのが偏回帰係数の意味──「他の説明変数を一定にしたときの効果」という条件つきの解釈です。あわせて、説明変数どうしが似すぎると起こる多重共線性、性別や地域のような質的変数を取り込むダミー変数、係数どうしを公平に比べる標準化偏回帰係数まで、概念を中心にやさしくたどります。

さえちゃん
さえ

単回帰が「$x$ ひとつで $y$ を当てる」なら、重回帰は「いくつもの $x$ を合わせて $y$ を当てる」だよ。むずかしい行列計算はソフトにおまかせ。私たちは「出てきた係数 $\hat{\beta}_j$ をどう読むか」に集中しよう!

1. 重回帰モデルとは

単回帰では、1つの説明変数 $x$ で目的変数 $y$ を $\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x$ と予測しました。重回帰は、説明変数を $x_1, x_2, \dots, x_k$ と複数にした自然な拡張です。$k$ は説明変数の個数を表します。

FORMULA

説明変数が $k$ 個の重回帰モデルの予測式は $$\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \cdots + \hat{\beta}_k x_k$$ ここで $\hat{\beta}_0$ は切片(定数項)、$\hat{\beta}_1, \dots, \hat{\beta}_k$ が各説明変数の偏回帰係数です。

係数 $\hat{\beta}_j$ は、単回帰と同じく最小二乗法で決めます。つまり、実測値 $y_i$ と予測値 $\hat{y}_i$ のズレ(残差)の2乗和 $\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$ を最小にする係数の組を選ぶ、という考え方は変わりません。説明変数が増えても発想は同じです。

POINT

単回帰では係数を $\hat{\beta}_1=\dfrac{s_{xy}}{s_x^2}$ のように1本の式で書けました。重回帰では係数を連立方程式(正規方程式)でまとめて解くことになり、手計算は現実的でありません。2級では行列を使った導出には深入りせず、ソフトが出した係数をどう読むかを重視します。安心して概念に集中しましょう。

2. 偏回帰係数 ─ 「他を一定にしたとき」の効果

重回帰でいちばん大切なのが、係数 $\hat{\beta}_j$ の読み方です。単回帰なら「$x$ が1増えると $y$ が $\hat{\beta}_1$ だけ増える」とシンプルでした。重回帰では、ここに「ほかの説明変数を一定に保ったまま」という条件がつきます。

POINT

偏回帰係数 $\hat{\beta}_j$ の意味は、「ほかの説明変数の値をすべて固定したうえで、$x_j$ だけを1単位増やしたときの $\hat{y}$ の変化量」です。だから $\hat{\beta}_j$ を「偏(partial)」回帰係数と呼びます。ほかの変数の影響を取り除いた、$x_j$ 単独の正味の効果というわけです。

この「他を一定に」という条件は実用上とても重要です。たとえば中古マンションの価格 $y$(万円)を、専有面積 $x_1$($\text{m}^2$)と築年数 $x_2$(年)で説明したとします。ソフトが次の式を返したとしましょう。

EXAMPLE 1(偏回帰係数の解釈)

$$\hat{y} = 230 + 50\,x_1 - 32\,x_2$$

  • $\hat{\beta}_1 = 50$:築年数を同じに保ったまま、面積が $1\,\text{m}^2$ 広くなると、価格は約 $50$ 万円高い。
  • $\hat{\beta}_2 = -32$:面積を同じに保ったまま、築年数が $1$ 年古くなると、価格は約 $32$ 万円低い。

「同じ広さの物件どうしを比べたら、築1年ぶんで32万円安くなる」という、条件をそろえた比較になっている点がポイントです。

この条件つきの読み方ができると、単回帰では見えなかった話が見えてきます。たとえば単回帰で「面積と価格」だけを見ると、広い物件ほど新しい傾向があれば、面積の係数に築年数の効果が紛れ込みます。重回帰は築年数を別の変数として入れることで、面積だけの正味の効果を切り出せるのです。

さえちゃん
さえ

偏回帰係数は「他の変数をぜんぶ止めて、その変数だけ動かしたら?」という条件つきの効果。試験でも「他の説明変数を一定としたとき」というフレーズが係数の解釈にセットで出てくるよ。ここ、絶対に落とさないでね!

3. 多重共線性 ─ 説明変数が似すぎると困る

説明変数をたくさん入れれば入れるほど良い、とはかぎりません。やっかいなのが多重共線性(たじゅうきょうせんせい、multicollinearity)です。これは説明変数どうしが強く相関しているときに起こる問題です。

たとえば「専有面積 $x_1$」と「部屋数 $x_2$」を両方入れたとします。広い物件ほど部屋数も多いので、$x_1$ と $x_2$ はほぼ同じ動きをします。すると、価格の変化を「面積のせい」と見るか「部屋数のせい」と見るか、ソフトが判断しきれません。結果として、偏回帰係数の推定が不安定になります。

POINT

多重共線性があると、次のような症状が出ます。

  • 偏回帰係数の標準誤差が大きくなる(推定がぐらつく)。
  • 係数の符号が常識と逆になったり、データを少し変えただけで値が大きく動いたりする。
  • 個々の係数は「有意でない」と出るのに、モデル全体の当てはまり($R^2$)は高い、というちぐはぐが起こる。

どのくらい共線性が強いかをはかる目安が VIF(分散拡大係数、Variance Inflation Factor)です。ある説明変数 $x_j$ を、ほかの説明変数で回帰したときの決定係数を $R_j^2$ とすると、

FORMULA

$$\mathrm{VIF}_j = \frac{1}{1 - R_j^2}$$ $x_j$ がほかの変数でよく説明できる($R_j^2$ が1に近い)ほど VIF は大きくなります。目安として VIF が 10 を超えると、多重共線性が強いと判断されることが多いです(5を目安にすることもあります)。

対処法はシンプルで、似た説明変数のどちらかを外す、あるいは2つをまとめた新しい指標を作る、などです。詳しい理論には立ち入りませんが、「説明変数を増やすときは、変数どうしがダブっていないか確認する」という感覚を持っておけば十分です。

4. ダミー変数 ─ 質的変数を取り込む

ここまでの説明変数は、面積や築年数のような量的な数値でした。では「角部屋かどうか」「最寄り路線がA線・B線・C線のどれか」のような質的変数(カテゴリ)は、どう回帰に入れればよいでしょうか。文字のままでは計算できません。そこで使うのがダミー変数です。

POINT

ダミー変数とは、あるカテゴリに当てはまれば $1$、当てはまらなければ $0$ をとる変数です。たとえば「角部屋なら $1$、そうでなければ $0$」という変数 $d$ を作ります。

EXAMPLE 2(2値のダミー変数)

面積 $x_1$ と「角部屋ダミー」$d$ で価格を説明したら、次の式が得られたとします。 $$\hat{y} = 230 + 50\,x_1 + 180\,d$$

  • $d=0$(角部屋でない):$\hat{y} = 230 + 50\,x_1$
  • $d=1$(角部屋):$\hat{y} = (230+180) + 50\,x_1 = 410 + 50\,x_1$

ダミーの係数 $180$ は、面積が同じなら角部屋は非角部屋より約 $180$ 万円高い、という意味になります。傾き $50$ は共通のまま、切片だけが $180$ ぶん持ち上がるイメージです。

カテゴリが3つ以上(たとえばA線・B線・C線)のときは、ダミー変数をカテゴリ数より1つ少なく作ります。1つを基準カテゴリ(ベースライン)として残し、それ以外にダミーを割り当てるのです。

POINT

3カテゴリ(A・B・C)なら、たとえば $d_B$(B線なら1)と $d_C$(C線なら1)の2つを作り、A線を基準にします。$d_B=d_C=0$ がA線を表します。各ダミーの係数は「基準カテゴリと比べてどれだけ違うか」を示します。カテゴリ数ぶん全部作ってしまうと、ダミーどうしの合計が常に一定になり、切片と完全に重なって計算が破綻します(これも一種の多重共線性で、ダミー変数の罠と呼ばれます)。だから1つ減らすのです。

5. 標準化偏回帰係数 ─ 係数の大きさを公平に比べる

偏回帰係数には、ひとつ困った点があります。単位が違うと、係数の大きさを直接くらべられないのです。面積($\text{m}^2$)の係数が $50$、築年数(年)の係数が $-32$ だとしても、$1\,\text{m}^2$ と $1$ 年は単位がまったく違うので、「面積のほうが効いている」とは言えません。

そこで、各変数を標準化(平均 $0$・標準偏差 $1$ にそろえる)してから回帰し直したときの係数を考えます。これが標準化偏回帰係数です。

FORMULA

標準化偏回帰係数は、もとの偏回帰係数 $\hat{\beta}_j$ に、説明変数と目的変数の標準偏差の比をかけて得られます。 $$\hat{\beta}_j^{\ast} = \hat{\beta}_j \times \frac{s_{x_j}}{s_y}$$ ここで $s_{x_j}$ は $x_j$ の標準偏差、$s_y$ は $y$ の標準偏差です。

こうして単位の影響を消すと、係数どうしを「どの変数が $y$ への影響が大きいか」という同じものさしで比べられます。標準化偏回帰係数の絶対値が大きい変数ほど、目的変数への寄与が大きい、と読みます。相関係数が単位を消して連動度を比べられるようにしたのと、同じ発想ですね。

6. 出力イメージと結論

実際の重回帰は統計ソフトで一瞬です。次は、面積 $x_1$ と築年数 $x_2$ でマンション価格を予測したときの、典型的な出力イメージです(係数表の数値は説明用です)。

説明変数 偏回帰係数 $\hat{\beta}_j$ 標準誤差 標準化偏回帰係数
切片$230$$25.0$
面積 $x_1$$50$$6.0$$0.72$
築年数 $x_2$$-32$$9.0$$-0.41$

この表から、「面積を一定にすれば築年数1年で約32万円下がる」という偏回帰係数の解釈に加え、標準化偏回帰係数($0.72$ と $-0.41$)から「価格への影響は面積のほうが築年数より大きい」と読めます。各係数が統計的に意味があるか(有意か)の判断や、モデル全体の良し悪しを測る自由度調整済み決定係数回帰の有意性のF検定は、次の 5-6 でくわしく扱います。

POINT

重回帰を読むときの第一歩は、「係数 $\hat{\beta}_j$ は他の変数を一定にしたときの効果」と常に思い出すこと。そして、説明変数を増やすときは多重共線性に注意し、質的変数はダミー変数(基準カテゴリを残してカテゴリ数−1個)で取り込み、係数の大きさを比べたいときは標準化偏回帰係数を見る。この4点が押さえどころです。

まとめ

第5章 5-5、ポイントを整理します。

次回 5-6 自由度調整済み決定係数・回帰の有意性の検定 では、説明変数を増やすと必ず上がってしまう $R^2$ の弱点を補う $\bar{R}^2$ と、モデル全体が意味を持つかを判断するF検定、そして分散分析表の読み取りを学びます。今日学んだ重回帰の係数表が、いよいよ「使える」形になりますよ。

さえちゃん
さえ

重回帰のカギは「偏回帰係数=他を一定にしたときの効果」。これさえ腹落ちすれば半分クリアだよ。多重共線性・ダミー変数・標準化偏回帰係数は、出題のお約束。用語と意味をセットで覚えておこう!