はじめに
生存時間解析は、医療・製薬分野をはじめとする多くの領域で用いられています。その中でもカプラン–マイヤー法(Kaplan–Meier estimator)は、打ち切りデータを含む生存曲線を推定する代表的な手法です。
しかし、生存曲線の推定値だけでは不十分で、その不確実性を定量化する標準誤差(SE)や信頼区間(CI)が必要です。これらは、治療効果の比較や臨床的判断の根拠となります。
今回は、カプラン–マイヤー推定量のSEとCIの導出過程と実務での計算方法と注意点を解説します。
カプラン–マイヤー推定値について
カプラン–マイヤー推定値は、イベント発生時刻 \(t_i\) ごとに次式で定義されます。
\[\hat{S}(t) = \prod_{i=1}^{s} \left( 1 – \frac{d_i}{n_i} \right)\]
- t_i:イベント発生時刻
- d_i:その時刻でのイベント数
- n_i:その時刻直前のリスク集合人数
この推定量は、打ち切りが存在しても、各時刻の生存確率を逐次乗算することで全体の生存曲線を得られるという特徴があります。
下記記事でカプランマイヤー推定値について解説しております。

標準誤差の導出
カプランマイヤー推定値に対数をとると、
\[log S(t) = \sum_{i=1}^{s} log(1 – \hat{\lambda_{i}})\]
ここで、最尤推定量の標本分布とデルタ法により、
\[h(\hat{\theta}) = N(h(\theta) , (h'(\theta))^{2}var(\hat{\theta}))\]
これを利用して生存時間の漸近標本分布を求めていく。
$$
\begin{eqnarray}
var(log\hat{S}(t)) &=& \sum_{i=1}^{s}var(log(1 – \hat{\lambda}_{i}))\\
& \simeq & \sum_{i=1}^{s}\left(\frac{1}{1-\hat{\lambda}_{i}}\right)^{2}var(1-\hat{\lambda}_{i})\\
&=& \sum_{i=1}^{s}\left(\frac{1}{1 – \hat{\lambda}_{i}}\right)^{2}var(\hat{\lambda}_{i})
\end{eqnarray}
$$
また、\(\hat{\lambda}_{i} = \frac{d_{i}}{n_{i}}\)より、
$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \sum_{i=1}^{s}\left(\frac{1}{1 – \frac{d_{i}}{n_{i}}}\right)^{2}var\left(\frac{d_{i}}{n_{i}}\right)\\
&=& \sum_{i=1}^{s}\left(\frac{1}{1 – \frac{d_{i}}{n_{i}}}\right)^{2}\frac{1}{n^{2}_{i}}var(d_{i})
\end{eqnarray}
$$
ここで\(d_{i}\)は \(Bi (n_{i} , \lambda_{i})\)の二項分布に従うことから、
\[E(d_{i}) = n_{i}\lambda_{i}\]
\[var(d_{i}) = n_{i}\lambda_{i}(1 – \lambda_{i})\]
であるため、
\[var(log\hat{S}(t)) = \sum_{i=1}^{s}\frac{1}{(n_{i}-d_{i})^{2}}n_{i}\lambda_{i}(1-\lambda_{i})\]
よってこの結果に、\(\hat{\lambda}_{i}=\frac{d_{i}}{n_{i}}\)を代入すると、
$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \sum_{i=1}^{s}\frac{1}{(n_{i} – d_{i})^{2}}n_{i}\frac{d_{i}}{n_{i}}\left(1 – \frac{d_{i}}{n_{i}}\right)\\
&=& \sum_{i=1}^{s}\frac{d_{i}}{n_{i}(n_{i} – d_{i})}
\end{eqnarray}
$$
さらに、
$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \left(\frac{1}{\hat{S}(t)}\right)^{2}var(\hat{S}(t))\\
var(\hat{S}(t)) &\simeq& (\hat{S}(t))^{2}var(log \hat{S}(t))\\
&=& (\hat{S}(t))^{2}\sum_{i=1}^{s}\frac{d_{i}}{n_{i}(n_{i} – d_{i})}
\end{eqnarray}
$$
これはGreenwoodの公式と呼ばれる方法である。
これより標準誤差は下記のようになる。
\[SE(\hat{S}(t)) \approx \hat{S}(t)\sqrt{\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}}\]
信頼区間の導出
標準誤差を導出することができましたので、これにより信頼区間を導出することができます。S(t)の95% 信頼区間は、
\[ \left[ \hat{S}(t) – 1.96 \sqrt{var(\hat{S}(t))} , \hat{S}(t) + 1.96 \sqrt{var(\hat{S}(t))} \right] \]
ここで、\(0 < S(t) < 1\)ですが、CIが0から1をはみ出すことがありますので、こちらをloglog変換という方法で修正していきたいと思います。
$$
\begin{eqnarray}
0 < S(t) < 1 &\Rightarrow& log S(t) < 0\\
&\Rightarrow& -log S(t)>0\\
&\Rightarrow& -\infty < -logS(t) < \infty
\end{eqnarray}
$$
この変換とをデルタ法により近似分散を導出することができます。
$$
\begin{eqnarray}
var(log (-log S(t))) &\simeq& \left(\frac{1}{-log \hat{S}(t)}\frac{-1}{\hat{S}(t)} \right)^{2}var(\hat{S}(t))\\
&=& \left(\frac{1}{\hat{S}(t)log \hat{S}(t)}\right)^{2} var(\hat{S}(t))
\end{eqnarray}
$$
ここでGreenwoodの公式、\(\hat{S}(t)=\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right)\)を用いると、
\[var(log (- log S(t))) = \left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}\]
さらに、\(S(t) = (-exp(log(-log S(t))))\)であるから、S(t)の95% 信頼区間は下記のようになる。
\[ \left[\hat{S}(t)exp(-exp(-1.96\sqrt{\left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}})) ,\\ \hat{S}(t)exp(-exp(1.96\sqrt{\left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}}))\right] \]
Nelson-Aalen推定量
定義
累積ハザード関数 H(t) の推定式:
\[ \hat{H}(t) = \sum_{t_i \le t} \frac{d_i}{n_i}\]
これは、各時点での瞬間的なハザード率を加算することで、累積的なリスクを評価します。
特徴
- 非パラメトリック推定量
- 生存関数との関係:\(\hat{S}(t) = \exp(-\hat{H}(t))\)
- 分散推定:\(\mathrm{Var}\{\hat{H}(t)\} = \sum_{t_i \le t} \frac{d_i}{n_i^2}\)
- 累積ハザードの直感的理解が可能
- Cox比例ハザードモデルとの親和性が高い
Fleming–Harrington推定量
定義
生存関数の推定式:
\[\tilde{S}(t) = \exp\left( -\sum_{t_i \le t} \frac{d_i}{n_i} \right)\]
これは、ネルソン–アーレン推定量を指数関数で変換した形であり、カプラン–マイヤー法の近似とみなされることもあります。
特徴
- 数学的に滑らかな生存曲線が得られる
- Greenwoodの公式と整合性がある
- 実装が容易(指数関数の形)
3つの推定量について比較してみると下記のようになります。
推定量 | 対象 | 数式 | 特徴 | 実務での適用 |
カプラン–マイヤー | 生存関数 | 積の形式 | 実務で最も一般的 | 生存率の推定と可視化に最適 |
ネルソン–アーレン | 累積 | 線形加算 | Coxモデルと親和性 | ハザード率の累積評価、Coxモデルの前処理に有用 |
フレミング–ハリントン | 生存関数 | 指数変換 | 数学的に滑らか | 理論的解析や滑らかな曲線が求められる場面で有効 |
まとめ
今回はカプラン–マイヤー推定量のSEとCIの導出と3つの推定量について紹介いたしました。カプランマイヤー推定量のSEはGreenwoodの公式で求められます。
また、今回紹介した3つの推定量は、標準誤差や信頼区間の導出においても異なる性質を持ちます。実務では、ソフトウェアによる自動計算に頼るだけでなく、式の意味と統計的背景を理解することが、信頼性の高い解析につながります。