数理統計

線形混合モデル (LMM)と一般化線形混合モデル(GLMM)の基礎と医薬品開発での活用

はじめに

医薬品開発の統計解析では、多施設試験被験者内反復測定など、階層構造や相関を持つデータが頻出します。
単純な線形モデル(LM)や一般化線形モデル(GLM)では、施設間差や被験者間差を無視してしまい、推定値や標準誤差が歪む危険があります。
線形混合モデル(LMM)一般化線形混合モデル(GLMM)は、GLMにランダム効果を組み込み、こうした構造を適切にモデル化できる強力な手法です。そこで今回はLMMとGLMMについてR言語での実装も想定して解説していこうと思います。

数理的な定義

LM、GLMの復習

LMM、GLMMを理解するためにはLM、GLMを理解する必要があります。そこでGLMについて少し説明していきます。

線形モデル(LM)

線形予測子:
\[Y_i = \mathbf{x}_i^\top \boldsymbol{\beta} + \varepsilon_i\]

誤差項 \(\varepsilon_i \sim N(0, \sigma^2)\)

一般化線形混合モデルについて
  • 分布族:指数型分布族(正規、二項、ポアソンなど)
  • 線形予測子
    \[\eta_i = \mathbf{x}_i^\top \boldsymbol{\beta}\]
  • リンク関数
    \[g(\mu_i) = \eta_i\]

下記で一般化線形モデルと一般化線形混合モデルについての記事を記載しておりますので、興味がある方は是非一読ください。

一般線形モデルと一般化線形モデルの違いを徹底解説 はじめに 統計解析の現場では、説明変数と目的変数の関係を明らかにするために「回帰モデル」が多用されます。その中でも、一般線形モデ...

LMMの拡張

LMMでは、固定効果に加えてランダム効果を導入します:

\[Y_{ij} = \mathbf{x}_{ij}^\top \boldsymbol{\beta} + \mathbf{z}_{ij}^\top \mathbf{b}_i + \varepsilon_{ij}\]

\(\varepsilon_{ij} \sim N(0, \sigma^2)\):残差
i:クラスター(例:被験者、施設)
j:クラスター内の観測
\(\mathbf{b}_i \sim N(0, \mathbf{D})\):ランダム効果

GLMMの拡張

GLMMでは、線形予測子にランダム効果を加えます:

\[\eta_{ij} = \mathbf{x}_{ij}^\top \boldsymbol{\beta} + \mathbf{z}_{ij}^\top \mathbf{b}_i\]

i:クラスター(施設、被験者など)
j:クラスター内の観測
\(\mathbf{b}_i \sim N(0, \mathbf{D})\):ランダム効果

例:二項分布+logitリンク

\[\text{logit}(p_{ij}) = \beta_0 + \beta_1 \text{Treatment}_{ij} + b_i\]

GLMMはGLMにランダム効果を組み込み、LMMは連続値アウトカムに特化したGLMMの1種となります。

医薬品業界での典型的利用シーン

製薬業界でGLMMが使われる場面として下記のような場合があります。

希少イベント解析:重篤な副作用やまれな疾患の発症などを解析する際に発現頻度が極めて低い事象により、モデルが仮定する分散よりも実際のデータの分散が大きくなることがあります(過剰分散)。そこでランダム効果を導入することで「各クラスターごとのリスクの違い」をモデル化し、その分のばらつきを減らすことができる。

多施設臨床試験:施設間差をランダム効果とすることで、ばらつきを減らすことができる。

繰り返し測定データ:経時測定データといった繰り返し測定データを解析する際に被験者内相関をモデル化することができる。

ここで、GLMMで解析を行うメリットを説明していこうと思います。
具体例として、下記のような繰り返し測定データが得られた場合を想定します。

  • 各被験者は初期値(切片)が異なります
    → 例:赤線の被験者は初期値が高く、青線は低め
  • 時間に伴う変化(傾き)も被験者ごとに異なります
    → 例:青線は緩やかな上昇、緑線は中盤でピーク後に下降
  • 同じ被験者内の測定値は互いに似ており、被験者内相関が存在します。
GLMMで解析するメリット
  1. 被験者内相関を適切に扱える
    • 通常の回帰モデルは観測値の独立性を仮定しますが、繰り返し測定では同一被験者内の値は相関します。
    • GLMMはランダム効果(被験者ごとの切片や傾き)を導入し、この相関をモデル化します
  2. 個人差を分散成分として切り出せる
    • 個人ごとの初期値や変化率の違いを「ランダム切片」「ランダム傾き」として推定。
    • 残差の分散が適切になり、標準誤差やp値が過小評価されるのを防ぎます。
  3. 母集団全体の傾向と個人差を同時に推定できる
    • 固定効果で「全体としての時間効果や治療効果」を推定
    • ランダム効果で「個人ごとのばらつき」を推定
  4. 予測や可視化がしやすい
    • 個人ごとの予測曲線や、母集団平均の経時変化を描ける
    • 臨床的な解釈や報告資料に直結

実例:連続値アウトカムのLMM(バイオマーカーの経時変化)

データ設定

  • 群:新薬 vs プラセボ
  • 試験:多施設二重盲検試験
  • アウトカム:血中バイオマーカー濃度(連続値)
  • 測定:各被験者について5時点(0週〜16週)

出力の解釈

上記Rコードを実行すると下記のように出力されます。

解釈は下記となります。

  • ランダム効果(黄色ハイライト):被験者ごとの初期値(Intercept)と傾きのばらつき
  • treatment(青色ハイライト):ベースライン時点での群間差
  • time(緑色ハイライト):時間経過による平均変化
  • treatment:time(紫色ハイライト):治療群と対照群の時間変化の違い(交互作用)

実務での留意点

観点留意点
モデル選択ランダム効果の構造(切片のみか、傾きも含むか)を明示
推定方法REML vs ML の選択(モデル比較時はML)
可視化母集団平均と個人別トレンドを併記すると説得力が増す
報告パッケージ、近似法、変数の定義を明記することが重要

REML (Restricted Maximum Likelihood: 制限付き最尤法) と ML (Maximum Likelihood: 最尤法) は、混合モデルにおける分散成分を推定する統計手法です。REMLは固定効果の影響を取り除いた誤差部分の尤度を最大化するのに対し、MLは固定効果とランダム効果を含むデータ全体の尤度を最大化します。
一般的に、REMLは推定値に偏りが少なくなり、特にサンプルサイズが小さい場合に推奨されますが、MLは固定効果の数を比較する際に利用できます

まとめ

今回はLMMとGLMMについて解説してきました。LMMは、連続値アウトカムの階層構造データに対して、被験者内相関や個人差を適切にモデル化できます。医薬品開発では、バイオマーカーや臨床スコアの経時変化解析に特に有用な解析手法となります。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。