決定係数
第5章ファイナルです。回帰直線が引けるようになりましたが、ここでひとつ大事な疑問が残ります。「その直線、どれくらい信頼できるの?」──回帰式が持つ説明力を評価する指標、それが決定係数です。
決定係数は、相関係数と同じく「数値ひとつでパッと判断できる」便利な指標です。本ページでは、決定係数の意味、値の読み方、ExcelでのRSQ関数の使い方を整理します。第5章の総仕上げとして、シンプルにまとめていきましょう。
1. 同じ「直線」でも、信頼度が違う
最小二乗法で直線が引ければ、それで回帰分析は完成──ではありません。「その直線がどれだけ信頼できるか」は、また別の話です。
2つの直線、どちらが信頼できる?
たとえば、次のような2つの散布図があるとします。どちらも回帰直線が引けますが、明らかに性格が違いますよね。
左の散布図は、点がほぼ直線上に並んでいて、回帰直線が「データを完璧に表している」と感じられます。一方、右の散布図は、回帰直線は同じように引けても、点がぐちゃっと散らばっていて、直線で予測する精度が低そうです。
この「直線がどれくらいデータを表現できているか」を、客観的な数値で評価したい──そんなとき登場するのが決定係数です。
回帰直線が引けるからといって、それが信頼できるとは限りません。同じ式でも、データのばらつき方によって、説明力に大きな差があります。
同じ直線が引けても、点のばらつき方で「この直線、どこまで信じていいか」って変わってくるよね! その違いを数字で表すのが今回のテーマ!
2. 決定係数とは
決定係数(けっていけいすう、coefficient of determination)は、「回帰式が、目的変数をどれだけ説明できているか」を表す指標です。記号ではR²(アールにじょう)と書きます。
0から1の値で表す
決定係数は、必ず0から1の範囲に収まります。値の意味は、とてもシンプルです。
- R² = 1 → 回帰直線がデータを完璧に表現している(残差がすべて0)
- R² = 0 → 回帰直線がデータをまったく表現できていない
- R² = 0.8 → 目的変数のばらつきの80%を、説明変数で説明できている
- R² = 0.3 → 目的変数のばらつきの30%しか、説明変数で説明できていない
つまり、決定係数は「Yのばらつきのうち、何%をXで説明できているか」を示す数字なんです。説明力(せつめいりょく)と呼ばれることもあります。
「説明できる」とは?
ここで「説明できる」という言葉の意味を、整理しておきましょう。
たとえば、勉強時間とテスト点数のデータがあったとします。テスト点数(Y)は、人によって80点、60点、40点とバラバラ。このばらつきを、勉強時間(X)でどれだけ説明できるか──「勉強時間が長いほど点数が高い」という回帰直線で、点数の差をどこまで予測できるか、というのが決定係数の意味です。
- R² = 0.8:点数の差の80%は勉強時間の違いで説明できる。残り20%は、別の要因(個人の理解度、テストの相性など)
- R² = 0.3:点数の差の30%しか勉強時間で説明できない。70%は別の要因
「点数の差は、勉強時間の差からどれくらい予想できる?」という問いに、パーセントで答えるのが決定係数というわけです。
決定係数 R² は「目的変数のばらつきのうち、説明変数で説明できる割合」。0〜1(または0%〜100%)の値で、回帰式の説明力を表します。
3. 単回帰では、相関係数の2乗と一致
ここで、第4章で学んだ相関係数を思い出してください。あのrを覚えていますね。実は、決定係数と相関係数には、単回帰のときに限って、とてもきれいな関係があります。
R² = r²
ひとつの説明変数Xでひとつの目的変数Yを予測する単回帰では、決定係数R²は、相関係数rの2乗と等しくなります。
R² = r² (単回帰の場合)
たとえば、相関係数が r = 0.9 なら、決定係数は R² = 0.81。相関係数が r = 0.5 なら、決定係数は R² = 0.25。相関係数と決定係数は、ほぼ同じ情報を表していると言ってよいでしょう。
記号の名前にもヒント
相関係数は r(小文字)、決定係数は R²(大文字の2乗)と書きます。これは「2乗の関係」を強調する記法です。「相関係数を2乗したものが決定係数」と覚えれば、すぐに思い出せます。
具体例での比較
| 相関係数 r | 決定係数 R² | 説明力 |
|---|---|---|
| 0.9 | 0.81 | 非常に高い(81%説明) |
| 0.7 | 0.49 | 中程度(49%説明) |
| 0.5 | 0.25 | やや弱い(25%説明) |
| 0.3 | 0.09 | 弱い(9%説明) |
表を見るとわかりますが、「相関係数0.5」と聞くと中程度の関係に思えるけれど、決定係数で見ると0.25と、説明力としては低めと感じられます。同じ関係性を見ているのに、表現の仕方で印象が変わるのが面白いところです。
この「R² = r²」の関係が成り立つのは、単回帰(説明変数が1つ)のときだけです。説明変数を2つ以上取る重回帰では、決定係数は別の方法で計算されるため、この単純な関係は成り立ちません。重回帰の場合は、Excelの分析ツールが直接R²を計算してくれるので、そのまま値を読めばOKです。
重回帰分析は統計検定3級ではさらっとしか触れないので、?な方はスルーしてください。
4. ExcelのRSQ関数で一発計算
決定係数も、相関係数や回帰係数と同じく、Excelで関数1つで求められます。
RSQ関数
=RSQ(目的変数の範囲, 説明変数の範囲)
RSQは「R-Squared(Rの2乗)」の略です。5-2のSLOPE関数・INTERCEPT関数と同じく、引数の順序はY(目的変数)が先、X(説明変数)が後です。
具体例
勉強時間(A列)とテスト点数(B列)が20人分(行2〜21)あったとします。
- 決定係数:
=RSQ(B2:B21, A2:A21)
結果が 0.72 なら、テスト点数のばらつきの72%を、勉強時間で説明できているという読み方になります。
分析ツールや散布図でも確認できる
決定係数は、Excelのほかの方法でも見られます。
- 分析ツールアドイン:「データ」→「データ分析」→「回帰分析」を選ぶと、結果に「重決定 R2」または「重相関係数」として表示される
- 散布図の近似曲線:散布図に近似曲線を表示する設定で、「グラフにR²値を表示する」にチェックを入れると、グラフ上に決定係数が表示される
検定の問題では、決定係数の値が与えられて「説明力は?」と問われるパターンが多いです。「R²は0〜1の値、1に近いほど説明力が高い」という基本だけ覚えておけば、対応できます。
5. 決定係数の値の読み方
実際にRSQで決定係数を計算したとき、その値をどう解釈するか。相関係数と同じく、目安となる値の幅があります。
| R²の値 | 説明力 | 意味 |
|---|---|---|
| 0.9 〜 1.0 | 非常に高い | 回帰式は強力な予測モデル |
| 0.7 〜 0.9 | 高い | 実用に耐える精度 |
| 0.5 〜 0.7 | 中程度 | 傾向は見えるが、別の要因も大きい |
| 0.3 〜 0.5 | 低い | 説明できているのは一部のみ |
| 0.0 〜 0.3 | 非常に低い | 回帰式の信頼度は厳しい |
ただし、相関係数のときと同じく、これは分野や目的によって変わる目安です。物理学の実験のように厳密な分野では「0.95でも低い」とされることがあり、社会調査のように複雑な分野では「0.4で十分」とされることもあります。
R²の解釈は「分野の慣習と目的に応じて」変わります。重要なのは「1に近いほど説明力が高い」「0に近いほど説明力が低い」という基本の感覚です。
6. 単回帰と重回帰
ここまで「ひとつのXでYを予測する」という前提で話してきました。実は回帰分析には、説明変数の数によって2種類のタイプがあります。
単回帰と重回帰
- 単回帰:説明変数が1つ。Y = aX + b の形(これまで扱ってきたもの)
- 重回帰:説明変数が2つ以上。Y = a₁X₁ + a₂X₂ + … + b の形
たとえば、テスト点数を「勉強時間」だけでなく、「睡眠時間」や「過去の模試の点数」もあわせて予測したい──そんなとき使うのが重回帰です。3級の出題範囲は単回帰がメインで、重回帰は2級以上で詳しく扱います。
決定係数は両方で使える
ここで嬉しいのが、決定係数R²の「意味」は単回帰でも重回帰でも変わらないこと。説明変数の数が増えても、「目的変数のばらつきを何%説明できているか」という解釈は同じです。
ただし、計算方法は重回帰のほうが少し複雑になります。先ほどセクション3で見た「R² = r²」という単純な関係は、あくまで単回帰だけのもの。重回帰では複数の説明変数が同時に効くので、「複数の相関係数を組み合わせる」イメージで決定係数を計算します(詳細は2級以上で扱います)。とはいえ、ExcelのRSQ関数や分析ツールを使えば、単回帰でも重回帰でも、同じ感覚で値を取り出せます。
第5章の知識は、こうやって2級・準1級・1級に進んだときも、ベースとして使い続けることができます。
3級は単回帰がメインだから安心してね! でも、決定係数の発想は2級以上でも使えるから、しっかり押さえておくとあとで楽だよ!
まとめ ─ そして第5章完了
決定係数のポイント、整理しておきましょう。
- 決定係数 R²:回帰式が目的変数のばらつきをどれだけ説明できているかを表す指標
- 値の範囲:0〜1。1に近いほど説明力が高い
- R² = r²:単回帰では相関係数の2乗と一致
- RSQ関数でExcelから一発計算できる(=RSQ(目的変数, 説明変数))
- 単回帰でも重回帰でも、同じく説明力の評価指標として使える
第5章「回帰直線と予測」、ここで完了です。回帰分析の入り口、最小二乗法による直線の引き方、回帰の歴史、そして説明力を評価する決定係数まで──「データから直線を引いて予測する」という、データ分析でもっとも実用的なスキルがそろいました。
第5章「回帰直線と予測」、ここで完了です。 第4章で学んだ「2変数の関係」を、この第5章で「式での表現と予測」へとレベルアップさせました。これで、統計検定3級で登場する記述統計の主要トピックを、ひととおり押さえたことになります。
第5章おつかれさま! 回帰分析、ここまでくれば自信を持って語れるよ! ここまでで「記述統計」の世界をひととおり制覇したと言っていい! 次の章からは、いよいよ「確率」の世界に入っていくよ!