第5章 5-4 / 回帰直線と予測

決定係数

このページで学ぶこと

第5章ファイナルです。回帰直線が引けるようになりましたが、ここでひとつ大事な疑問が残ります。「その直線、どれくらい信頼できるの?」──回帰式が持つ説明力を評価する指標、それが決定係数です。

決定係数は、相関係数と同じく「数値ひとつでパッと判断できる」便利な指標です。本ページでは、決定係数の意味、値の読み方、ExcelでのRSQ関数の使い方を整理します。第5章の総仕上げとして、シンプルにまとめていきましょう。

1. 同じ「直線」でも、信頼度が違う

最小二乗法で直線が引ければ、それで回帰分析は完成──ではありません。「その直線がどれだけ信頼できるか」は、また別の話です。

2つの直線、どちらが信頼できる?

たとえば、次のような2つの散布図があるとします。どちらも回帰直線が引けますが、明らかに性格が違いますよね。

直線にぴったり
予測の信頼度:高い
大きくばらつく
予測の信頼度:低い

左の散布図は、点がほぼ直線上に並んでいて、回帰直線が「データを完璧に表している」と感じられます。一方、右の散布図は、回帰直線は同じように引けても、点がぐちゃっと散らばっていて、直線で予測する精度が低そうです。

この「直線がどれくらいデータを表現できているか」を、客観的な数値で評価したい──そんなとき登場するのが決定係数です。

POINT

回帰直線が引けるからといって、それが信頼できるとは限りません。同じ式でも、データのばらつき方によって、説明力に大きな差があります。

さえちゃん
さえ

同じ直線が引けても、点のばらつき方で「この直線、どこまで信じていいか」って変わってくるよね! その違いを数字で表すのが今回のテーマ!

2. 決定係数とは

決定係数(けっていけいすう、coefficient of determination)は、「回帰式が、目的変数をどれだけ説明できているか」を表す指標です。記号では(アールにじょう)と書きます。

0から1の値で表す

決定係数は、必ず0から1の範囲に収まります。値の意味は、とてもシンプルです。

つまり、決定係数は「Yのばらつきのうち、何%をXで説明できているか」を示す数字なんです。説明力(せつめいりょく)と呼ばれることもあります。

「説明できる」とは?

ここで「説明できる」という言葉の意味を、整理しておきましょう。

たとえば、勉強時間とテスト点数のデータがあったとします。テスト点数(Y)は、人によって80点、60点、40点とバラバラ。このばらつきを、勉強時間(X)でどれだけ説明できるか──「勉強時間が長いほど点数が高い」という回帰直線で、点数の差をどこまで予測できるか、というのが決定係数の意味です。

「点数の差は、勉強時間の差からどれくらい予想できる?」という問いに、パーセントで答えるのが決定係数というわけです。

POINT

決定係数 R² は「目的変数のばらつきのうち、説明変数で説明できる割合」。0〜1(または0%〜100%)の値で、回帰式の説明力を表します。

3. 単回帰では、相関係数の2乗と一致

ここで、第4章で学んだ相関係数を思い出してください。あのrを覚えていますね。実は、決定係数と相関係数には、単回帰のときに限って、とてもきれいな関係があります。

R² = r²

ひとつの説明変数Xでひとつの目的変数Yを予測する単回帰では、決定係数R²は、相関係数rの2乗と等しくなります。

FORMULA

R² = r² (単回帰の場合)

たとえば、相関係数が r = 0.9 なら、決定係数は R² = 0.81。相関係数が r = 0.5 なら、決定係数は R² = 0.25相関係数と決定係数は、ほぼ同じ情報を表していると言ってよいでしょう。

記号の名前にもヒント

相関係数は r(小文字)、決定係数は (大文字の2乗)と書きます。これは「2乗の関係」を強調する記法です。「相関係数を2乗したものが決定係数」と覚えれば、すぐに思い出せます。

具体例での比較

相関係数 r 決定係数 R² 説明力
0.90.81非常に高い(81%説明)
0.70.49中程度(49%説明)
0.50.25やや弱い(25%説明)
0.30.09弱い(9%説明)

表を見るとわかりますが、「相関係数0.5」と聞くと中程度の関係に思えるけれど、決定係数で見ると0.25と、説明力としては低めと感じられます。同じ関係性を見ているのに、表現の仕方で印象が変わるのが面白いところです。

NOTE

この「R² = r²」の関係が成り立つのは、単回帰(説明変数が1つ)のときだけです。説明変数を2つ以上取る重回帰では、決定係数は別の方法で計算されるため、この単純な関係は成り立ちません。重回帰の場合は、Excelの分析ツールが直接R²を計算してくれるので、そのまま値を読めばOKです。

さえちゃん
さえ

重回帰分析は統計検定3級ではさらっとしか触れないので、?な方はスルーしてください。

4. ExcelのRSQ関数で一発計算

決定係数も、相関係数や回帰係数と同じく、Excelで関数1つで求められます

RSQ関数

EXCEL

=RSQ(目的変数の範囲, 説明変数の範囲)

RSQは「R-Squared(Rの2乗)」の略です。5-2のSLOPE関数・INTERCEPT関数と同じく、引数の順序はY(目的変数)が先、X(説明変数)が後です。

具体例

勉強時間(A列)とテスト点数(B列)が20人分(行2〜21)あったとします。

EXCEL
  • 決定係数:=RSQ(B2:B21, A2:A21)

結果が 0.72 なら、テスト点数のばらつきの72%を、勉強時間で説明できているという読み方になります。

分析ツールや散布図でも確認できる

決定係数は、Excelのほかの方法でも見られます。

検定の問題では、決定係数の値が与えられて「説明力は?」と問われるパターンが多いです。「R²は0〜1の値、1に近いほど説明力が高い」という基本だけ覚えておけば、対応できます。

5. 決定係数の値の読み方

実際にRSQで決定係数を計算したとき、その値をどう解釈するか。相関係数と同じく、目安となる値の幅があります。

R²の値 説明力 意味
0.9 〜 1.0非常に高い回帰式は強力な予測モデル
0.7 〜 0.9高い実用に耐える精度
0.5 〜 0.7中程度傾向は見えるが、別の要因も大きい
0.3 〜 0.5低い説明できているのは一部のみ
0.0 〜 0.3非常に低い回帰式の信頼度は厳しい

ただし、相関係数のときと同じく、これは分野や目的によって変わる目安です。物理学の実験のように厳密な分野では「0.95でも低い」とされることがあり、社会調査のように複雑な分野では「0.4で十分」とされることもあります。

POINT

R²の解釈は「分野の慣習と目的に応じて」変わります。重要なのは「1に近いほど説明力が高い」「0に近いほど説明力が低い」という基本の感覚です。

6. 単回帰と重回帰

ここまで「ひとつのXでYを予測する」という前提で話してきました。実は回帰分析には、説明変数の数によって2種類のタイプがあります。

単回帰と重回帰

たとえば、テスト点数を「勉強時間」だけでなく、「睡眠時間」や「過去の模試の点数」もあわせて予測したい──そんなとき使うのが重回帰です。3級の出題範囲は単回帰がメインで、重回帰は2級以上で詳しく扱います。

決定係数は両方で使える

ここで嬉しいのが、決定係数R²の「意味」は単回帰でも重回帰でも変わらないこと。説明変数の数が増えても、「目的変数のばらつきを何%説明できているか」という解釈は同じです。

ただし、計算方法は重回帰のほうが少し複雑になります。先ほどセクション3で見た「R² = r²」という単純な関係は、あくまで単回帰だけのもの。重回帰では複数の説明変数が同時に効くので、「複数の相関係数を組み合わせる」イメージで決定係数を計算します(詳細は2級以上で扱います)。とはいえ、ExcelのRSQ関数や分析ツールを使えば、単回帰でも重回帰でも、同じ感覚で値を取り出せます。

第5章の知識は、こうやって2級・準1級・1級に進んだときも、ベースとして使い続けることができます。

さえちゃん
さえ

3級は単回帰がメインだから安心してね! でも、決定係数の発想は2級以上でも使えるから、しっかり押さえておくとあとで楽だよ!

まとめ ─ そして第5章完了

決定係数のポイント、整理しておきましょう。

第5章「回帰直線と予測」、ここで完了です。回帰分析の入り口、最小二乗法による直線の引き方、回帰の歴史、そして説明力を評価する決定係数まで──「データから直線を引いて予測する」という、データ分析でもっとも実用的なスキルがそろいました。

第5章「回帰直線と予測」、ここで完了です。 第4章で学んだ「2変数の関係」を、この第5章で「式での表現と予測」へとレベルアップさせました。これで、統計検定3級で登場する記述統計の主要トピックを、ひととおり押さえたことになります。

さえちゃん
さえ

第5章おつかれさま! 回帰分析、ここまでくれば自信を持って語れるよ! ここまでで「記述統計」の世界をひととおり制覇したと言っていい! 次の章からは、いよいよ「確率」の世界に入っていくよ!