〜なぜGLMは指数型分布族に限定されるのか?カノニカルリンクの意味とは?〜

一般化線形モデル(Generalized Linear Model; GLM)は、統計モデリングの世界で最も広く使われる枠組みのひとつです。線形回帰・ロジスティック回帰・ポアソン回帰など、実務で頻繁に登場するモデルはすべてGLMの特別なケースです。
しかし、GLMの“裏側”にある数学的構造――特に指数型分布族(exponential family)との関係――を理解している人は意外と多くありません。
この記事では、GLMの基礎を支える指数型分布族の構造を深掘りしながら、

  • なぜGLMは指数型分布族に限定されるのか
  • 正規・ポアソン・二項分布の共通構造
  • カノニカルリンクの数学的意味
  • 実務でのGLMの落とし穴(過分散・ゼロ過剰・リンク関数の誤選択)

といったポイントを、数式と図解イメージを交えてわかりやすく解説します。

GLMの基本構造:なぜ「指数型分布族」が必要なのか?

GLMは次の3つの要素から構成されます。

  1. 確率分布:応答変数 Y は指数型分布族に従う
  2. 線形予測子:\(\eta =X\beta\)
  3. リンク関数:\(\eta =g(\mu )\)

ここで最も重要なのが① 応答変数の分布が指数型分布族であることです。

■ 指数型分布族とは?

確率密度(または確率質量)が次の形で書ける分布のことです:

\[f(y|\theta )=\exp \left( y\theta -b(\theta )+c(y)\right)\]

ここで

  • \(\theta\) :自然パラメータ(canonical parameter)
  • \(b(\theta )\):正規化項
  • \(c(y)\):データ側の項

指数型分布族の重要な性質は、

\[\mathbb{E}[Y]=b'(\theta ),\quad \mathrm{Var}(Y)=b”(\theta )\]

というように、平均と分散が自然パラメータの微分で表せることです。

■ なぜGLMは指数型分布族に限定されるのか?

理由はシンプルで、指数型分布族であれば、尤度が凸になり、最尤推定が安定して解けるからです。

さらに、

  • 平均 \(\mu\) と自然パラメータ \(\theta\) の関係が単調
  • 分散が平均の関数として表せる(分散関数)
  • 尤度方程式が線形予測子ときれいに結びつく

といった性質が、GLMのアルゴリズム(IRLS: Iteratively Reweighted Least Squares)を可能にしています。

正規・ポアソン・二項分布の共通構造

指数型分布族の美しさは、一見バラバラに見える分布が同じ構造で書けることです。

■ 正規分布(平均 \(\mu , 分散 \sigma ^2)\)

\[f(y|\mu )=\exp \left( \frac{y\mu }{\sigma ^2}-\frac{\mu ^2}{2\sigma ^2}-\frac{y^2}{2\sigma ^2}-\frac{1}{2}\log (2\pi \sigma ^2)\right)\]

自然パラメータ:\(\theta =\mu /\sigma ^2\)

■ ポアソン分布(平均 \(\lambda\) )

\[f(y|\lambda )=\exp \left( y\log \lambda -\lambda -\log (y!)\right)\]

自然パラメータ:\(\theta =\log \lambda\)

■ 二項分布(成功確率 p)

\[f(y|p)=\exp \left( y\log \frac{p}{1-p}+n\log (1-p)+\log {n \choose y}\right)\]

自然パラメータ:\(\theta =\log \frac{p}{1-p}\)(ロジット)

カノニカルリンクの数学的意味

GLMではリンク関数 g(\(\mu \)) を自由に選べますが、特に重要なのがカノニカルリンク(canonical link)です。

カノニカルリンクとは?

自然パラメータ \(\theta\) と平均 \(\mu\) の関係:

\[\theta =g(\mu )\]

を満たすリンク関数のこと。

■ カノニカルリンクの例

分布平均自然パラメータカノニカルリンク
正規\(\mu\)\(\mu\)恒等リンク
ポアソン\(\lambda\)\(\log \lambda\)ログリンク
二項\(p\)\(\log \frac{p}{1-p}\)ロジットリンク
  1. 尤度方程式が線形になる → 計算が安定
  2. 十分統計量が線形和になる
  3. 分散関数が簡潔になる

特に IRLS(反復再重み付き最小二乗法)での計算が最も効率的になります。

実務でのGLMの落とし穴

GLMは便利ですが、実務では以下の落とし穴に注意が必要です。

過分散(overdispersion)

ポアソン回帰では

\[\mathrm{Var}(Y)=\mathbb{E}[Y]\]

が前提ですが、実データでは

\[\mathrm{Var}(Y)>\mathbb{E}[Y]\]

となることが多いです。

対処法

  • 負の二項回帰を使う
  • 分散パラメータを追加する(quasi-Poisson)
  • ランダム効果を入れる(GLMM)

ゼロ過剰(zero inflation)

カウントデータでゼロが異常に多いケース。

例:事故件数、クレーム件数、医療利用回数など。

対処法

  • Zero-Inflated Poisson (ZIP)
  • Zero-Inflated Negative Binomial (ZINB)
  • Hurdleモデル

リンク関数の誤選択

リンク関数は自由に選べるため、誤選択が起きやすいです。

例:

  • ロジスティック回帰でプロビットリンクを使うと解釈が変わる
  • ポアソン回帰で恒等リンクを使うと負の予測値が出る
  • ガンマ回帰でログリンクを使わないと不安定になる

原則
  • カノニカルリンクを基本にする
  • データの性質(非負、確率、対数線形性)を考える

まとめ

一般化線形モデル(GLM)は、正規・ポアソン・二項分布といった多様なデータを統一的に扱える強力な枠組みですが、その背後には「指数型分布族」という共通の数学的構造が存在します。指数型分布族は、確率分布を自然パラメータで表現でき、平均や分散がその微分で決まるという特徴を持ちます。この性質により、GLMでは尤度が凸になり、最尤推定が安定して解けるという利点が生まれます。
さらに、自然パラメータと平均を直接結びつける「カノニカルリンク」を用いることで、尤度方程式が最もシンプルな形になり、計算効率や統計的性質が向上します。正規分布の恒等リンク、ポアソン分布のログリンク、二項分布のロジットリンクなどは、その典型例です。
一方で、実務におけるGLMには注意点もあります。ポアソン回帰でしばしば問題となる過分散、ゼロが異常に多いデータで発生するゼロ過剰、そしてリンク関数の誤選択などは、モデルの不適合や誤解釈につながります。これらの問題に対しては、負の二項回帰やゼロ過剰モデル、適切なリンク関数の選択といった対策が必要です。
指数型分布族の構造を理解すると、GLMが単なる「便利なモデル」ではなく、数学的に統一された美しい枠組みであることが見えてきます。GLMの本質を押さえることで、モデル選択や解釈がより確かなものとなり、実務での応用力も大きく向上します。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。