数理統計

カプラン–マイヤー法における標準誤差と信頼区間の導出

はじめに

生存時間解析は、医療・製薬分野をはじめとする多くの領域で用いられています。その中でもカプラン–マイヤー法(Kaplan–Meier estimator)は、打ち切りデータを含む生存曲線を推定する代表的な手法です。
しかし、生存曲線の推定値だけでは不十分で、その不確実性を定量化する標準誤差(SE)や信頼区間(CI)が必要です。これらは、治療効果の比較や臨床的判断の根拠となります。
今回は、カプラン–マイヤー推定量のSEとCI
の導出過程と実務での計算方法と注意点を解説します。

カプラン–マイヤー推定値について

カプラン–マイヤー推定値は、イベント発生時刻 \(t_i\) ごとに次式で定義されます。

\[\hat{S}(t) = \prod_{i=1}^{s} \left( 1 – \frac{d_i}{n_i} \right)\]

  • t_i:イベント発生時刻
  • d_i:その時刻でのイベント数
  • n_i:その時刻直前のリスク集合人数

この推定量は、打ち切りが存在しても、各時刻の生存確率を逐次乗算することで全体の生存曲線を得られるという特徴があります。
下記記事でカプランマイヤー推定値について解説しております。

カプランマイヤー法による生存時間推定について はじめに 生存時間解析(Survival Analysis)は、イベント発生までの時間を扱う統計手法です。製薬業界では、以下のよ...

標準誤差の導出

カプランマイヤー推定値に対数をとると、

\[log S(t) = \sum_{i=1}^{s} log(1 – \hat{\lambda_{i}})\]

ここで、最尤推定量の標本分布とデルタ法により、

\[h(\hat{\theta}) = N(h(\theta) , (h'(\theta))^{2}var(\hat{\theta}))\]

これを利用して生存時間の漸近標本分布を求めていく。

$$
\begin{eqnarray}
var(log\hat{S}(t)) &=& \sum_{i=1}^{s}var(log(1 – \hat{\lambda}_{i}))\\
& \simeq & \sum_{i=1}^{s}\left(\frac{1}{1-\hat{\lambda}_{i}}\right)^{2}var(1-\hat{\lambda}_{i})\\
&=& \sum_{i=1}^{s}\left(\frac{1}{1 – \hat{\lambda}_{i}}\right)^{2}var(\hat{\lambda}_{i})
\end{eqnarray}
$$

また、\(\hat{\lambda}_{i} = \frac{d_{i}}{n_{i}}\)より、

$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \sum_{i=1}^{s}\left(\frac{1}{1 – \frac{d_{i}}{n_{i}}}\right)^{2}var\left(\frac{d_{i}}{n_{i}}\right)\\
&=& \sum_{i=1}^{s}\left(\frac{1}{1 – \frac{d_{i}}{n_{i}}}\right)^{2}\frac{1}{n^{2}_{i}}var(d_{i})
\end{eqnarray}
$$

ここで\(d_{i}\)は \(Bi (n_{i} , \lambda_{i})\)の二項分布に従うことから、

\[E(d_{i}) = n_{i}\lambda_{i}\]
\[var(d_{i}) = n_{i}\lambda_{i}(1 – \lambda_{i})\]

であるため、

\[var(log\hat{S}(t)) = \sum_{i=1}^{s}\frac{1}{(n_{i}-d_{i})^{2}}n_{i}\lambda_{i}(1-\lambda_{i})\]

よってこの結果に、\(\hat{\lambda}_{i}=\frac{d_{i}}{n_{i}}\)を代入すると、

$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \sum_{i=1}^{s}\frac{1}{(n_{i} – d_{i})^{2}}n_{i}\frac{d_{i}}{n_{i}}\left(1 – \frac{d_{i}}{n_{i}}\right)\\
&=& \sum_{i=1}^{s}\frac{d_{i}}{n_{i}(n_{i} – d_{i})}
\end{eqnarray}
$$

さらに、

$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \left(\frac{1}{\hat{S}(t)}\right)^{2}var(\hat{S}(t))\\
var(\hat{S}(t)) &\simeq& (\hat{S}(t))^{2}var(log \hat{S}(t))\\
&=& (\hat{S}(t))^{2}\sum_{i=1}^{s}\frac{d_{i}}{n_{i}(n_{i} – d_{i})}
\end{eqnarray}
$$

これはGreenwoodの公式と呼ばれる方法である。
これより標準誤差は下記のようになる。

\[SE(\hat{S}(t)) \approx \hat{S}(t)\sqrt{\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}}\]

信頼区間の導出

標準誤差を導出することができましたので、これにより信頼区間を導出することができます。S(t)の95% 信頼区間は、

\[ \left[ \hat{S}(t) – 1.96 \sqrt{var(\hat{S}(t))} , \hat{S}(t) + 1.96 \sqrt{var(\hat{S}(t))} \right] \]

ここで、\(0 < S(t) < 1\)ですが、CIが0から1をはみ出すことがありますので、こちらをloglog変換という方法で修正していきたいと思います。

この変換とをデルタ法により近似分散を導出することができます。

$$
\begin{eqnarray}
var(log (-log S(t))) &\simeq& \left(\frac{1}{-log \hat{S}(t)}\frac{-1}{\hat{S}(t)} \right)^{2}var(\hat{S}(t))\\
&=& \left(\frac{1}{\hat{S}(t)log \hat{S}(t)}\right)^{2} var(\hat{S}(t))
\end{eqnarray}
$$

ここでGreenwoodの公式、\(\hat{S}(t)=\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right)\)を用いると、

\[var(log (- log S(t))) = \left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}\]

さらに、\(S(t) = (-exp(log(-log S(t))))\)であるから、S(t)の95% 信頼区間は下記のようになる。

\[ \left[\hat{S}(t)exp(-exp(-1.96\sqrt{\left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}})) ,\\ \hat{S}(t)exp(-exp(1.96\sqrt{\left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}}))\right] \]

Nelson-Aalen推定量

定義

累積ハザード関数 H(t) の推定式:

\[ \hat{H}(t) = \sum_{t_i \le t} \frac{d_i}{n_i}\]

これは、各時点での瞬間的なハザード率を加算することで、累積的なリスクを評価します。

特徴

  • 非パラメトリック推定量
  • 生存関数との関係:\(\hat{S}(t) = \exp(-\hat{H}(t))\)
  • 分散推定:\(\mathrm{Var}\{\hat{H}(t)\} = \sum_{t_i \le t} \frac{d_i}{n_i^2}\)
  • 累積ハザードの直感的理解が可能
  • Cox比例ハザードモデルとの親和性が高い

Fleming–Harrington推定量

定義

生存関数の推定式:

\[\tilde{S}(t) = \exp\left( -\sum_{t_i \le t} \frac{d_i}{n_i} \right)\]

これは、ネルソン–アーレン推定量を指数関数で変換した形であり、カプラン–マイヤー法の近似とみなされることもあります。

特徴

  • 数学的に滑らかな生存曲線が得られる
  • Greenwoodの公式と整合性がある
  • 実装が容易(指数関数の形)

3つの推定量について比較してみると下記のようになります。

推定量対象数式特徴実務での適用
カプラン–マイヤー生存関数積の形式実務で最も一般的生存率の推定と可視化に最適
ネルソン–アーレン累積線形加算Coxモデルと親和性ハザード率の累積評価、Coxモデルの前処理に有用
フレミング–ハリントン生存関数指数変換数学的に滑らか理論的解析や滑らかな曲線が求められる場面で有効

まとめ

今回はカプラン–マイヤー推定量のSEとCIの導出と3つの推定量について紹介いたしました。カプランマイヤー推定量のSEはGreenwoodの公式で求められます。
また、今回紹介した3つの推定量は、標準誤差や信頼区間の導出においても異なる性質を持ちます。実務では、ソフトウェアによる自動計算に頼るだけでなく、式の意味と統計的背景を理解することが、信頼性の高い解析につながります。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。