数理統計

一般線形モデルと一般化線形モデルの違いを徹底解説

はじめに

統計解析の現場では、説明変数と目的変数の関係を明らかにするために「回帰モデル」が多用されます。その中でも、一般線形モデル(General Linear Model: 以下、線形モデル)一般化線形モデル(Generalized Linear Model: 以下、一般化線形モデル) は、解析の基礎をなす重要な枠組みです。統計検定でもこの2つの統計解析手法の理解が求められます。
名前が似ているため混同されがちですが、扱えるデータの種類や分布、適用範囲において大きな差があります。本稿では両者の仕組みと違いを、数式・図解・比較表を用いてわかりやすく解説します。

一般線形モデルとは

一般線形モデルは、目的変数が正規分布に従う連続値データに対して使うモデルです。
以下の条件を満たすものとなっております。

  • 応答変数Yが正規分布に従う
  • Yの平均をパラメータの一次結合で表すことができる、すなわち直線的な関係を持っていること

\[\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim N(\mathbf{0}, \sigma^2\mathbf{I})\]

  • \(\boldsymbol{\varepsilon}:誤差項(平均0、分散\sigma^2の正規分布)\)
  • \(\mathbf{y}:目的変数(n×1)\)
  • \(\mathbf{X}:説明変数(n×pのデザイン行列)\)
  • \(\boldsymbol{\beta}:回帰係数\)
一般線形モデルの特徴
  • 誤差項は 正規分布
  • 恒等リンク関数\((g(\mu)=\mu)\)のみ
  • 推定法は最小二乗法
  • 用途:連続値データの予測や効果検証

最小二乗法について
各観測値 \(y_i\) と予測値 \(\hat{y}_i\) の差(残差)を二乗し、それらをすべて足し合わせたものです。最小二乗法では、この合計値が最も小さくなるように回帰直線を決定します。
\[\sum_{i=1}^{n}(y_i – \hat{y}_i)^2\]

一般線形モデルの例として、単回帰・重回帰、分散分析(ANOVA)、共分散分析(ANCOVA)があります。

一般化線形モデルとは

登場の背景

現実のデータは、必ずしも連続値・正規分布とは限りません。例えば:

  • 成功/失敗の二値(例:臨床試験の有効性判定)
  • カウントデータ(例:交通事故件数)
  • 正の連続値(例:医療費)

こうしたデータに対応するため、分布や関数を柔軟に選べる一般化線形モデルが登場しました。以下の2つの条件を満たし、式で表すと下記のようになります。

  • 応答変数Yが指数型分布族に従う
  • Yの平均をある関数で変化させたとき、パラメータの一次結合で表すことができる

\[g(\mu_i) = \mathbf{x}_i^\top\boldsymbol{\beta}\]

  • \(\mu_i = E[Y_i]:目的変数の期待値\)
  • \(g(\cdot)\):リンク関数
  • 誤差分布:指数型分布族(正規、二項、ポアソン、ガンマ等)
一般化線形モデルの特徴
  • 分布の選択肢が豊富(正規・二項・ポアソン・ガンマ…)
  • リンク関数で非線形関係を線形化
  • 推定には 最尤推定法(MLE) を使用
  • 線形モデルを特別なケースとして内包
モデル名応答変数の分布リンク関数主な用途グラフの概形
正規分布(一般線形モデル)正規分布恒等関数\((\mu)\)連続値の予測(身長、体重など)散布図+回帰直線
ロジスティック回帰二項分布\(logit(\log\frac{\mu}{1-\mu})\)成功/失敗、Yes/Noなどの二値データS字カーブ(確率0〜1)
ポアソン回帰ポアソン分布対数\((\log\mu)\)カウントデータ(事故件数、来店数など)右に裾の長い棒グラフ
ガンマ回帰ガンマ分布inverse\((1/\mu)やlog\)正の連続値(医療費、待ち時間など)右裾の長い連続分布
指数型分布族

単一のパラメータ\(\theta \)をもつ確率分布に従う確率変数Yに対してその確率分布が以下の式で表現することができるとき、その分布は指数型分布族に属する。
\[f(y;\theta)=\exp(a(y)b(\theta)+c(\theta)+d(y))\]

両者の違いまとめ

観点一般線形モデル一般化線形モデル
分布正規のみ指数型分布族
応答変数連続値のみ連続・離散・カテゴリ
リンク関数恒等のみ任意(logit, log, identity…)
推定法最小二乗法最尤推定法
主な用途回帰・分散分析ロジスティック、ポアソン、ガンマ回帰など

実務での選び方

基本的には以下の場合を仮定できるときに選んでいけばよいと思います。

  • 連続値+正規近似可 → 一般線形モデル
  • 二値・カウント・非正規 → 一般化線形モデル

💡 例:臨床試験では、血圧変化量はANCOVA(線形モデル)、有害事象発生有無はロジスティック回帰(一般化線形モデル)を使い分ける

ケーススタディ

ケース1:薬剤効果の解析(連続アウトカム)
シナリオ:新薬Aとプラセボの2群で、治療前後の血圧変化量(mmHg)を比較。治療前の血圧を共変量として調整。

  • アウトカム:治療前後の血圧変化量(mmHg)
  • モデル:ANCOVA(一般線形モデル)
  • 理由:連続値+正規性が概ね担保される

モデル式

\[\text{ChangeBP}_i = \beta_0 + \beta_1 \times \text{Group}_i + \beta_2 \times \text{BaselineBP}_i + \varepsilon_i \]

Rコード

データ例

df <- data.frame(
ChangeBP = c(-5, -3, -8, -2, -6, -4, -1, -7),
Group = factor(c(“DrugA”, “DrugA”, “DrugA”, “DrugA”,
“Placebo”, “Placebo”, “Placebo”, “Placebo”)),
BaselineBP = c(150, 148, 152, 149, 151, 150, 153, 149)
)

ANCOVAモデル

fit <- lm(ChangeBP ~ Group + BaselineBP, data = df)
summary(fit)

ケース2:副作用発生有無の解析(二値アウトカム)
シナリオ:有害事象(AE)の発生有無を予測。説明変数は治療群と年齢。

  • アウトカム:有害事象の有無(Yes/No)
  • モデル:ロジスティック回帰(一般化線形モデル)
  • 理由:二値データで正規分布を仮定できない

モデル式

\[\log\frac{p_i}{1-p_i} = \beta_0 + \beta_1 \cdot \text{Group}_i + \beta_2 \cdot \text{Age}_i \]

Rコード

データ例

df <- data.frame(
AE = c(1, 0, 1, 0, 0, 1, 0, 0),
Group = factor(c(“DrugA”, “DrugA”, “DrugA”, “DrugA”,
“Placebo”, “Placebo”, “Placebo”, “Placebo”)),
Age = c(65, 59, 72, 68, 70, 66, 60, 64)
)

ロジスティック回帰

fit <- glm(AE ~ Group + Age, data = df, family = binomial(link = “logit”))
summary(fit)

オッズ比と95%信頼区間

exp(cbind(OR = coef(fit), confint(fit)))

まとめ

今回は一般線形モデルと一般化線形モデルの違いについてそれぞれ開設いたしました。それぞれの主な特徴として一般線形モデルは、単純で解釈しやすいが適用範囲は狭い、一般化線形モデルは、リンク関数と分布を柔軟に選べる拡張型となります。
どちらを選ぶか検討していく際には、データの型と分布特性に応じてモデルを選ぶことが重要となります。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。