はじめに

「平均への回帰」という言葉は、統計学の中でも特に誤解されやすい概念のひとつです。しかし、いったん理解してしまえば、日常のデータ分析や実験結果の解釈において非常に強力な武器になります。
たとえば、

  • テストでたまたま高得点を取った学生が次回は普通の点数に戻る
  • スポーツ選手が異常に良い成績を出した翌試合で平凡な成績に戻る
  • 医療データで、極端に悪い数値を示した患者が次回検査で改善して見える

これらは「努力」や「治療効果」だけでは説明できません。背後には「平均への回帰」という統計的な現象が潜んでいます。

平均への回帰とは?

平均への回帰とは、

「極端な値を示した観測は、次の観測では平均に近づく傾向がある」

という統計的な現象です。

これは「自然にそうなる」というより、データにばらつき(誤差)がある限り必ず起こる数学的な性質です。

数式で理解する平均への回帰

平均への回帰は、相関係数を使うと非常に明確に説明できます。

ある人のテストの点数を

  • 1回目:X
  • 2回目:Y

とします。

両者の関係を線形モデルで表すと、

\[Y=\mu _Y+r\frac{\sigma _Y}{\sigma _X}(X-\mu _X)\]

ここで

  • \(\mu _X,\mu _Y\):平均
  • \(\sigma _X,\sigma _Y\):標準偏差
  • r:相関係数\((-1\leq r\leq 1)\)

特に、平均と分散が同じ\((\mu _X=\mu _Y, \sigma _X=\sigma _Y)\)とすると、

\[Y=\mu +r(X-\mu )\]

となります。

この式は「1回目の偏差(平均からのズレ)を、相関係数 r 倍したものが2回目の偏差になる」という意味です。

つまり、

\[Y-\mu =r(X-\mu )\]

偏差の大きさ(絶対値)を比べると、

\[|Y-\mu |=|r|\cdot |X-\mu |\]

ここで重要なのは、

\[|r|<1\quad (\mathrm{相関が1でない限り})\]

という事実です。

したがって、

\[|Y-\mu |=|r|\cdot |X-\mu |<|X-\mu |\]

つまり、2回目の偏差は1回目の偏差より必ず小さくなる
平均に近づく

これが数学的な理由です。

具体的な数値を入れてみていきましょう。

例:相関が0.5の場合

相関 r=0.5 とすると、

\[Y-\mu =0.5(X-\mu )\]

  • 1回目が平均より20点高かったら、\(Y-\mu =0.5\times 20=10\)
    → 2回目は平均より10点高いだけであり、平均に近づいた
  • 1回目が平均より30点低かったら、\(Y-\mu =0.5\times (-30)=-15\)
    → 2回目は平均より15点低いだけであり、やはり平均に近づいた
  • 数式的理由
    \[Y-\mu =r(X-\mu )\]
    であり、|r|<1 なら偏差が縮む。
  • 誤差構造の理由
    1回目の極端な値には誤差が大きく影響している。
    2回目の誤差は独立なので、極端な値が出にくい。
  • 直感的理由
    「たまたま良すぎた/悪すぎた」状態は長続きしない。

具体例で理解する平均への回帰

テストの点数の例

あるクラスで数学テストを2回行ったとします。

  • 1回目の点数が「90点以上」の学生を集める
  • その学生たちの2回目の平均点を調べる

すると、多くの場合、2回目の平均点は90点より低くなります。

これは「学生が怠けた」わけではなく、
1回目の高得点には“たまたま”の要素が含まれていたためです。

■スポーツの「スランプ」や「好調」

スポーツ選手が異常に良い成績を出した後に平凡な成績に戻るのも同じです。

  • たまたま良い条件が重なった試合 → 極端に良い成績
  • 次の試合 → 平均的な成績に戻る

これを「スランプ」と誤解することがありますが、統計的には自然な現象です。

医療データの例

血圧や血糖値などの健康指標は日によって変動します。

  • 極端に悪い値が出た日 → たまたまの誤差が大きい
  • 次の測定 → 平均に戻る

これを「治療が効いた」と誤解することがあります。

平均への回帰が引き起こす誤解

「指導したら成績が下がった」問題

教師が「成績の悪い学生を指導したら成績が上がった」と感じるのは、平均への回帰の典型例です。
逆に「成績の良い学生を褒めたら成績が下がった」と感じることもあります。
しかし、これは指導や褒める行為の効果ではなく、単に平均への回帰です。

■医療の「治療効果の誤認」

極端に悪い値を示した患者が次回改善するのは自然な現象ですが、治療効果と誤解されることがあります。

平均への回帰を避けるには?

ランダム化比較試験(RCT)

平均への回帰の影響を避ける最も強力な方法は、ランダム化です。

  • 治療群と対照群をランダムに割り付ける
  • 両群で平均への回帰が同じように起きる

これにより、治療効果と平均への回帰を区別できます。

■回帰分析で調整する

回帰モデルを使って、初期値の影響を調整する方法もあります。

まとめ

平均への回帰とは、極端な値を示した観測が次の測定では平均に近づく傾向のことです。
これは偶然ではなく、データにばらつきがある限り必ず起こる統計的な性質です。観測値は「真の値+誤差」で構成されており、極端な値が出るときは誤差が大きく偏っていることが多いですが、次の測定では誤差が独立に発生するため、自然と平均に戻る方向に動きます。
数式では\(Y-\mu =r(X-\mu )\)と表され、相関係数 r が 1 でない限り |r|<1 となるため、2回目の偏差は必ず縮みます。これが「平均に近づく」理由です。
この現象は、テストの点数、スポーツの成績、医療データなど、日常のあらゆる場面で見られます。理解していないと「褒めたら成績が下がった」「治療が効いたように見える」など、誤った因果解釈につながることがあります。平均への回帰を意識することで、データをより正しく読み解けるようになります。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。