回帰直線に関する歴史
ここまで、回帰分析と最小二乗法を学んできました。今回は少し趣を変えて、「回帰」という言葉が生まれた歴史をたどります。
実は「回帰」という言葉、当初は今のような「直線で予測する」意味ではなかったんです。19世紀イギリスの研究者ゴルトンが発見した、ある不思議な現象──「平均への回帰」から始まります。そこからピアソン、フィッシャーへと受け継がれて、現代の統計学が形づくられました。今回は、この3人のリレーストーリーをご紹介します。
1. ゴルトンと「平均への回帰」
物語は19世紀後半のイギリスから始まります。フランシス・ゴルトン(Francis Galton, 1822-1911)は、博学で多才な研究者。あの進化論のチャールズ・ダーウィンのいとこにあたる人物です。
親と子の身長を測ってみたら
ゴルトンは「親の特徴は、どれくらい子に受け継がれるのか?」という遺伝の研究に強い関心を持っていました。1880年代、彼はおよそ200組以上の親子の身長を測定し、その関係をデータとしてまとめます。
ゴルトンの予想はシンプルでした。「背の高い親からは背の高い子が、背の低い親からは背の低い子が生まれるはず」──常識的にもそう感じますよね。でも、データを散布図にしてみると、彼は不思議な現象に気づきます。
気づき:子は「親より平均寄り」になる
たしかに、背が高い親の子は、平均的な親の子に比べて背が高かった。背が低い親の子は、平均的な親の子に比べて背が低かった。ここまでは予想どおり。でも、よく見ると:
- 非常に背の高い親(例:190cm)の子の平均身長は、親の身長そのもの(190cm)よりも少し低めになっていた
- 非常に背の低い親(例:155cm)の子の平均身長は、親の身長そのもの(155cm)よりも少し高めになっていた
つまり、子の身長は、親より「全体の平均」に近づく方向に動いていたのです。背の高すぎる人の子は親ほど背が高くならず、背の低すぎる人の子は親ほど背が低くならない──世代を経るごとに、平均に向かって戻ってくるような現象。ゴルトンはこれを「平均への回帰」(regression toward the mean)と名づけました。
ゴルトンの発見:「親=子の線」より、回帰直線の傾きが緩やかに。子は親より平均寄りに分布する
「回帰」という言葉の由来
ゴルトンは、この現象を表すために「regression」という英単語を使いました。日本語では「回帰」と訳されます。regressとはラテン語由来で「戻る・帰る」という意味。「親の特徴が、世代を経て平均値に向かって帰ってくる」という観察から名づけられたんですね。
面白いのは、ゴルトン自身がこの用語を「平均に戻る現象」を指す言葉として作ったのに、その後の数学的な整備の過程で「散布図に直線をフィットさせる方法そのもの」を回帰と呼ぶようになったことです。言葉の意味が、発見者の意図を超えて広がっていった──歴史にはよくあることですが、これが今日の「回帰分析」の語源です。
「回帰」(regression)の語源は、ゴルトンが発見した「平均への回帰」。極端な値の次は、平均に近づく方向に動きやすい──この現象に名前をつけたのが、すべての始まりでした。
「回帰」って漢字、ちょっとカタイ感じだけど、もとは「平均に戻ってくる」って意味だったんだね! 歴史を知ると、用語が急に親しみやすくなるよ!
2. 平均への回帰 ─ 身近な例
平均への回帰は、ゴルトンの遺伝研究だけの話ではありません。あらゆる場面で起きる、ありふれた現象です。身近な例を見てみましょう。
例1:テストの点数
第1回のテストでクラスで最高得点(100点)を取った生徒がいたとします。第2回のテストでも、同じく100点を取れる確率は、実はかなり低いものです。多くの場合、第2回は90点台前半など、少し下がった点数になります。
逆に、第1回でクラス最下位だった生徒も、第2回でまた最下位になるとは限りません。むしろ、少し平均に近づく形で点数が上がることが多いです。
これは「成績が安定している」のとは違います。極端に高い点数や低い点数は、その時の運や調子も含まれているので、次回はそれらの偶然の要素が薄まり、自然と平均に近い値が出やすくなる──これが平均への回帰です。
例2:スポーツ選手の成績
ある年に大ブレークした新人選手が、翌年「2年目のジンクス」と言われて成績を落とすことがあります。能力が落ちたからではなく、初年度の成績に「特に運が良かった部分」が含まれていて、翌年それが平準化されるだけ──というケースが少なくありません。これも平均への回帰です。
例3:「叱る教師の方が成績が伸びる」?
これも有名なエピソードです。ある教師が、こう言ったとします。「テストで悪かった子を叱ると次は伸びる。良かった子を褒めると次は下がる。だから叱る教育が効果的だ」。
でも、これは叱る・褒めるの効果ではなく、平均への回帰の現象を見ているにすぎません。極端に悪かった点数の次は平均に近づく方向に動くから上がり、極端に良かった点数の次は平均に近づくから下がる。教師の介入があってもなくても、同じ傾向は起きます。因果関係を読み違えやすい場面の代表例です。
平均への回帰は「極端な値の次は、平均に近い値になりやすい」現象です。これを知らないと、第4章で学んだ疑似相関と同じく、誤った因果関係を読み取ってしまうことがあります。
「叱ったから伸びた!」と思いがちだけど、本当は平均への回帰かもしれない! 日常の判断にも関わってくる、すごく大事な現象なんだよ!
3. ピアソン ─ 数学で整備した人
ゴルトンの発見は素晴らしいものでしたが、彼自身は数学者というよりは観察と発想の人でした。彼の発見を厳密な数学の枠組みに整理したのが、次の人物──カール・ピアソン(Karl Pearson, 1857-1936)です。
ゴルトンの弟子から、統計学の体系化へ
ピアソンはイギリスのロンドン大学(ユニバーシティ・カレッジ・ロンドン)の数学者で、ゴルトンに強い影響を受けて統計学の道に進みました。彼は1900年前後にかけて、ゴルトンが直感で見つけた現象を数式で表現できる体系に作り直していきます。
ピアソンの貢献
ピアソンが残した業績は数多くありますが、代表的なものをいくつか挙げると:
- ピアソンの相関係数:第4章で学んだ相関係数のこと。rという記号で関係の強さを−1から+1で表す方法は、ピアソンが整備したもの
- カイ二乗検定:今でも統計検定2級・準1級で頻出の基本ツール
- 標準偏差という用語:「standard deviation」という言葉そのものを定着させた
- 『Biometrika』という統計学の専門誌の創刊:統計学を「学問」として認知させる場を作った
ピアソンの仕事によって、ゴルトンの「面白い発見」は、誰でも使える普遍的な道具へと進化しました。ピアソンがいなければ、回帰係数も相関係数も、私たちは今のような形では使えていません。
ピアソンが残した教育の場
ピアソンは1911年、ゴルトンの遺贈をもとにロンドン大学に世界初の統計学の学科を設立しました。ここから、次世代の統計学者が育っていきます。研究と教育の両輪で、統計学を学問として確立した人──それがピアソンの位置づけです。
ピアソンはゴルトンの発想を数学的に整備した人。私たちが今使っている相関係数や標準偏差の考え方の多くは、ピアソンが定義した形そのままです。
4. フィッシャー ─ 現代統計学を確立した人
物語の3人目は、ロナルド・A・フィッシャー(Ronald Aylmer Fisher, 1890-1962)。彼が登場することで、統計学は現代の形に到達します。
農業実験から始まった統計革命
フィッシャーは、1919年からイギリスのロザムステッド農事試験場で働き始めます。当時の農業研究では、肥料・品種・土壌・天候など多くの要因が混じり合ったデータをどう分析するかが大きな課題でした。
フィッシャーは、現場でこの問題と格闘しながら、いくつもの画期的な手法を生み出していきます。
フィッシャーの主な貢献
- 分散分析(ANOVA):複数のグループ間でデータの違いを統計的に判断する手法。実験計画の基礎
- 最尤法(さいゆうほう):「データがいちばん起こりやすかったと考えられるパラメータ」を推定する万能の方法
- 実験計画法:ランダム化・反復・ブロック化など、信頼できる実験のための原則
- 有意水準:検定で「偶然とは言いがたい」と判断する基準。p < 0.05という慣習を作ったのもフィッシャー
これらは、3級では深く扱いませんが、2級・準1級・1級と進むと中心的なテーマになっていきます。フィッシャーの仕事は、データから因果に近い関係性を引き出すための「信頼できる方法論」を確立した、と言えます。
「統計学」を現代の姿にした人
フィッシャーが偉大なのは、彼の手法が農業・医学・心理学・経済学と、ジャンルを超えてあらゆる分野で使えるものだったことです。彼以降、統計学は単なる「データを要約する学問」ではなく、「データから科学的な結論を引き出す学問」として確立しました。今、私たちがビジネスや研究で当たり前に使っているデータ分析の作法は、その多くがフィッシャーに源流を持っています。
ゴルトンが「不思議な現象」に気づいて、ピアソンが「数学」で整理して、フィッシャーが「実用」に昇華した! 3人のリレーで、私たちが今使っている統計学が出来上がったんだね!
5. 3人のリレーをひと目で
ここまでのストーリーを、表で整理しておきましょう。
| 人物 | 時代 | 主な貢献 | 残したキーワード |
|---|---|---|---|
| ゴルトン | 19世紀後半 | 「平均への回帰」を発見 | 「回帰」という用語 |
| ピアソン | 19世紀末〜20世紀初 | 統計の数学的体系化、相関係数の整備 | 相関係数、標準偏差、カイ二乗検定 |
| フィッシャー | 20世紀前半 | 実験計画法、現代統計学の基礎を確立 | 分散分析、最尤法、有意水準 |
「気づき → 整理 → 実用」というリレーが、約半世紀をかけて行われました。ゴルトンの不思議な観察がスタート地点で、フィッシャーが「実用的な道具箱」を完成させた──こうして現代統計学の土台ができあがったのです。
歴史を知ると、学習が立体的になる
第3章で学んだ標準偏差、第4章で学んだ相関係数、そして第5章の回帰分析。これら全部に、ゴルトン・ピアソン・フィッシャーの3人の影響があります。「なんでこの言葉なんだろう?」と感じたとき、歴史を思い出してみると、用語が単なる記号ではなく、誰かの発見の名残として見えてくるはずです。
まとめ
回帰直線の歴史、ポイントを整理しておきます。
- ゴルトン:親子の身長研究で「平均への回帰」を発見。「回帰」の語源
- 平均への回帰:極端な値の次は、平均に近づく値になりやすい現象。日常の様々な場面で起きる
- ピアソン:ゴルトンの発見を数学で整理。相関係数・標準偏差を定式化
- フィッシャー:実験計画法・分散分析などで現代統計学の基礎を確立
- 3人のリレーで、現代の統計学・回帰分析の枠組みができあがった
数式や手法だけでなく、誰がどう考えたかを知っておくと、統計学はぐっと立体的に見えてきます。次回は第5章ファイナル、回帰直線の「予測の精度」を表す指標──決定係数に進みます。「この回帰直線はどれくらい信頼できるのか?」を数値で見る方法です。