一般化線形モデル(GLM)の“裏側”:指数型分布族の構造を深掘りする

〜なぜGLMは指数型分布族に限定されるのか?カノニカルリンクの意味とは?〜
一般化線形モデル(Generalized Linear Model; GLM)は、統計モデリングの世界で最も広く使われる枠組みのひとつです。線形回帰・ロジスティック回帰・ポアソン回帰など、実務で頻繁に登場するモデルはすべてGLMの特別なケースです。
しかし、GLMの“裏側”にある数学的構造――特に指数型分布族(exponential family)との関係――を理解している人は意外と多くありません。
この記事では、GLMの基礎を支える指数型分布族の構造を深掘りしながら、
- なぜGLMは指数型分布族に限定されるのか
- 正規・ポアソン・二項分布の共通構造
- カノニカルリンクの数学的意味
- 実務でのGLMの落とし穴(過分散・ゼロ過剰・リンク関数の誤選択)
といったポイントを、数式と図解イメージを交えてわかりやすく解説します。
記事の目次
ToggleGLMの基本構造:なぜ「指数型分布族」が必要なのか?
GLMは次の3つの要素から構成されます。
- 確率分布:応答変数 Y は指数型分布族に従う
- 線形予測子:\(\eta =X\beta\)
- リンク関数:\(\eta =g(\mu )\)
ここで最も重要なのが① 応答変数の分布が指数型分布族であることです。
■ 指数型分布族とは?
確率密度(または確率質量)が次の形で書ける分布のことです:
\[f(y|\theta )=\exp \left( y\theta -b(\theta )+c(y)\right)\]
ここで
- \(\theta\) :自然パラメータ(canonical parameter)
- \(b(\theta )\):正規化項
- \(c(y)\):データ側の項
指数型分布族の重要な性質は、
\[\mathbb{E}[Y]=b'(\theta ),\quad \mathrm{Var}(Y)=b”(\theta )\]
というように、平均と分散が自然パラメータの微分で表せることです。
■ なぜGLMは指数型分布族に限定されるのか?
理由はシンプルで、指数型分布族であれば、尤度が凸になり、最尤推定が安定して解けるからです。
さらに、
- 平均 \(\mu\) と自然パラメータ \(\theta\) の関係が単調
- 分散が平均の関数として表せる(分散関数)
- 尤度方程式が線形予測子ときれいに結びつく
といった性質が、GLMのアルゴリズム(IRLS: Iteratively Reweighted Least Squares)を可能にしています。
正規・ポアソン・二項分布の共通構造
指数型分布族の美しさは、一見バラバラに見える分布が同じ構造で書けることです。
■ 正規分布(平均 \(\mu , 分散 \sigma ^2)\)
\[f(y|\mu )=\exp \left( \frac{y\mu }{\sigma ^2}-\frac{\mu ^2}{2\sigma ^2}-\frac{y^2}{2\sigma ^2}-\frac{1}{2}\log (2\pi \sigma ^2)\right)\]
自然パラメータ:\(\theta =\mu /\sigma ^2\)
■ ポアソン分布(平均 \(\lambda\) )
\[f(y|\lambda )=\exp \left( y\log \lambda -\lambda -\log (y!)\right)\]
自然パラメータ:\(\theta =\log \lambda\)
■ 二項分布(成功確率 p)
\[f(y|p)=\exp \left( y\log \frac{p}{1-p}+n\log (1-p)+\log {n \choose y}\right)\]
自然パラメータ:\(\theta =\log \frac{p}{1-p}\)(ロジット)
カノニカルリンクの数学的意味
GLMではリンク関数 g(\(\mu \)) を自由に選べますが、特に重要なのがカノニカルリンク(canonical link)です。
自然パラメータ \(\theta\) と平均 \(\mu\) の関係:
\[\theta =g(\mu )\]
を満たすリンク関数のこと。
■ カノニカルリンクの例
| 分布 | 平均 | 自然パラメータ | カノニカルリンク |
| 正規 | \(\mu\) | \(\mu\) | 恒等リンク |
| ポアソン | \(\lambda\) | \(\log \lambda\) | ログリンク |
| 二項 | \(p\) | \(\log \frac{p}{1-p}\) | ロジットリンク |
- 尤度方程式が線形になる → 計算が安定
- 十分統計量が線形和になる
- 分散関数が簡潔になる
特に IRLS(反復再重み付き最小二乗法)での計算が最も効率的になります。
実務でのGLMの落とし穴
GLMは便利ですが、実務では以下の落とし穴に注意が必要です。
過分散(overdispersion)
ポアソン回帰では
\[\mathrm{Var}(Y)=\mathbb{E}[Y]\]
が前提ですが、実データでは
\[\mathrm{Var}(Y)>\mathbb{E}[Y]\]
となることが多いです。
対処法
- 負の二項回帰を使う
- 分散パラメータを追加する(quasi-Poisson)
- ランダム効果を入れる(GLMM)
ゼロ過剰(zero inflation)
カウントデータでゼロが異常に多いケース。
例:事故件数、クレーム件数、医療利用回数など。
対処法
- Zero-Inflated Poisson (ZIP)
- Zero-Inflated Negative Binomial (ZINB)
- Hurdleモデル
リンク関数の誤選択
リンク関数は自由に選べるため、誤選択が起きやすいです。
例:
- ロジスティック回帰でプロビットリンクを使うと解釈が変わる
- ポアソン回帰で恒等リンクを使うと負の予測値が出る
- ガンマ回帰でログリンクを使わないと不安定になる
- カノニカルリンクを基本にする
- データの性質(非負、確率、対数線形性)を考える
まとめ
一般化線形モデル(GLM)は、正規・ポアソン・二項分布といった多様なデータを統一的に扱える強力な枠組みですが、その背後には「指数型分布族」という共通の数学的構造が存在します。指数型分布族は、確率分布を自然パラメータで表現でき、平均や分散がその微分で決まるという特徴を持ちます。この性質により、GLMでは尤度が凸になり、最尤推定が安定して解けるという利点が生まれます。
さらに、自然パラメータと平均を直接結びつける「カノニカルリンク」を用いることで、尤度方程式が最もシンプルな形になり、計算効率や統計的性質が向上します。正規分布の恒等リンク、ポアソン分布のログリンク、二項分布のロジットリンクなどは、その典型例です。
一方で、実務におけるGLMには注意点もあります。ポアソン回帰でしばしば問題となる過分散、ゼロが異常に多いデータで発生するゼロ過剰、そしてリンク関数の誤選択などは、モデルの不適合や誤解釈につながります。これらの問題に対しては、負の二項回帰やゼロ過剰モデル、適切なリンク関数の選択といった対策が必要です。
指数型分布族の構造を理解すると、GLMが単なる「便利なモデル」ではなく、数学的に統一された美しい枠組みであることが見えてきます。GLMの本質を押さえることで、モデル選択や解釈がより確かなものとなり、実務での応用力も大きく向上します。











