数理統計

多重代入法について〜欠測データ処理の強力なアプローチ〜

欠測データの悩ましさ

臨床試験や観察研究では、測定値やアンケート回答の一部が欠測(missing)になることは日常茶飯事です。欠測があると、以下のような問題が生じます。

  • 有効サンプルサイズが減る
  • 推定値が偏る可能性がある
  • 解析結果の信頼性が低下する

欠測の扱い方は統計解析の品質に直結します。単純に**欠測を含むケースを除外(complete case analysis)**する方法は、簡便ですが情報を捨ててしまうリスクが大きいのです。以前の記事でMMRMについて解説いたしました。MMRMも方法のひとつであり、今回は欠測値を補完するという方法を紹介していこうと思います。

MMRM(反復測定混合モデル)とは― 臨床試験での柔軟な時系列解析手法 ― はじめに:なぜMMRMが注目されるのか 臨床試験では、被験者から複数の時点でデータを収集することが一般的です。たとえば、薬剤の効...

欠測の種類

欠測の種類は大きく3種類に分類されます。

欠測タイプ説明推測可能性
MCAR(Missing Completely At Random)欠測の発生が完全にランダム
(例)引っ越し等による欠測
推定バイアスなし
MAR(Missing At Random)観測データに依存して欠測が発生
(例)血圧を主要変数とする臨床試験で,ある時点での血圧がある閾値を超えた場合に試験から脱落する事例
適切な方法で補完すればバイアス低減可能
MNAR(Missing Not At Random)欠測が欠測値自体に依存
(例).症状の急な悪化により患者が試験から脱落することによる欠測
モデル化が難しい

多重代入法の考え方

多重代入法(Multiple Imputation: MI)は、1つの欠測値に対して複数の plausible(尤もらしい)な値を作り出し、それぞれで解析を行い結果を統合する方法です。

欠測ありデータ

(1) 多重代入 M 回
→ 完全データセット #1
→ 完全データセット #2
→ …
→ 完全データセット #M

(2) 各データセットで同じ解析

(3) Rubinのルールで統合

手順

多重代入法は以下の3ステップで構成されます。

ステップ1: 補完(Imputation)

欠測を統計モデル(線形回帰、ロジスティック回帰など)で予測し、ランダム誤差を加えて複数の完全データセットを作ります。
1回だけの補完よりも不確実性を反映できるのがポイントです。

複数の完全データセットの具体的な数は欠測率に応じて設定することが適切であるとあり、M=50であればおおむね問題ないと考えられる。自分の経験では100や1000とすることもあったため、(現在は統計解析ソフトウェアも進歩しているため、データセット増やしても時間的な問題は感じずらくなっている。)事前に規定しておくことが重要であると思います。
chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://www.stat.go.jp/training/2kenkyu/ihou/71/pdf/2-2-713.pdf

数式例(単純化した線形回帰モデル)

\[Y_{\text{miss}}^{(m)} = \hat{\beta}_0 + \hat{\beta}_1 X + \epsilon^{(m)}, \quad m = 1,\dots,M\]

ここで \(\epsilon^{(m)}\) はランダム誤差。

ステップ2: 個別解析(Analysis)

それぞれの完全データセットに対して、同じ統計解析を実行します(例:回帰モデル、平均差の推定など)。
→ 解析結果(推定値と分散)を M セット分得ます。

ステップ3: 統合(Pooling)

Rubinのルールを用いて、推定値と分散を統合します。

Rubinのルール

  • 推定値の平均:

\[\bar{Q} = \frac{1}{M} \sum_{m=1}^M Q^{(m)}\]

  • 全体の分散:

\[T = \bar{U} + \left(1 + \frac{1}{M}\right)B\]

ここで
\(\bar{U}\):解析内分散の平均
\(B\):解析間分散

長所と短所

長所

  • 欠測の不確実性を適切に反映
  • MCARとMARで有効
  • 情報の損失を最小化

短所

  • 補完モデルの選択に依存
  • 実装にやや手間
  • MARの仮定が損なわれるとバイアスが残る

実務上のポイント(生物統計の現場から)

  • 変数選択:補完モデルには、欠測の有無に関連する変数や解析に使う変数を含める
    (例)主要評価項目の観測値等
  • Mの設定:小規模研究では M=5 でも可、大規模では 20以上
  • ソフトウェア:Stata: mi コマンド、SAS: PROC MI / PROC MIANALYZE、R: mice パッケージ

まとめ

多重代入法は、「欠測=捨てる」という発想から脱却し、欠測の不確実性をデータに反映させる強力な手段です。
生物統計の実務では、欠測の性質を吟味し、MARが妥当と考えられる場合には積極的に採用を検討すべき方法です。欠測補完の手法は多種多様であり、様々な場面で活用できます。そられについてもまた別の記事で紹介できればと思います。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。