カプランマイヤー法における標準誤差と信頼区間の導出

記事の目次

はじめに

生存時間解析は、医療・製薬分野をはじめとする多くの領域で用いられています。その中でもカプラン–マイヤー法（Kaplan–Meier estimator）は、打ち切りデータを含む生存曲線を推定する代表的な手法です。
しかし、生存曲線の推定値だけでは不十分で、その不確実性を定量化する標準誤差（SE）や信頼区間（CI）が必要です。これらは、治療効果の比較や臨床的判断の根拠となります。
今回は、カプラン–マイヤー推定量のSEとCIの導出過程と実務での計算方法と注意点を解説します。

カプラン–マイヤー推定値について

カプラン–マイヤー推定値は、イベント発生時刻 $t_i$ ごとに次式で定義されます。

\[\hat{S}(t) = \prod_{i=1}^{s} \left( 1 – \frac{d_i}{n_i} \right)\]

t_i：イベント発生時刻
d_i：その時刻でのイベント数
n_i：その時刻直前のリスク集合人数

この推定量は、打ち切りが存在しても、各時刻の生存確率を逐次乗算することで全体の生存曲線を得られるという特徴があります。
下記記事でカプランマイヤー推定値について解説しております。

カプランマイヤー法による生存時間推定について生存時間解析（Survival Analysis）は、イベント発生までの時間を扱う統計手法です。打ち切り（Censoring）を含むことが多く、単純な平均値では正しく評価できません。そこで登場するのがカプランマイヤー法（Kaplan–Meier法）です。今回はカプランマイヤー法について紹介していこうと思います。...

標準誤差の導出

カプランマイヤー推定値に対数をとると、

\[log S(t) = \sum_{i=1}^{s} log(1 – \hat{\lambda_{i}})\]

ここで、最尤推定量の標本分布とデルタ法により、

\[h(\hat{\theta}) = N(h(\theta) , (h'(\theta))^{2}var(\hat{\theta}))\]

これを利用して生存時間の漸近標本分布を求めていく。

$$
\begin{eqnarray}
var(log\hat{S}(t)) &=& \sum_{i=1}^{s}var(log(1 – \hat{\lambda}_{i}))\\
& \simeq & \sum_{i=1}^{s}\left(\frac{1}{1-\hat{\lambda}_{i}}\right)^{2}var(1-\hat{\lambda}_{i})\\
&=& \sum_{i=1}^{s}\left(\frac{1}{1 – \hat{\lambda}_{i}}\right)^{2}var(\hat{\lambda}_{i})
\end{eqnarray}
$$

また、$\hat{\lambda}_{i} = \frac{d_{i}}{n_{i}}$より、

$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \sum_{i=1}^{s}\left(\frac{1}{1 – \frac{d_{i}}{n_{i}}}\right)^{2}var\left(\frac{d_{i}}{n_{i}}\right)\\
&=& \sum_{i=1}^{s}\left(\frac{1}{1 – \frac{d_{i}}{n_{i}}}\right)^{2}\frac{1}{n^{2}_{i}}var(d_{i})
\end{eqnarray}
$$

ここで$d_{i}$は $Bi (n_{i} , \lambda_{i})$の二項分布に従うことから、

\[E(d_{i}) = n_{i}\lambda_{i}\]
\[var(d_{i}) = n_{i}\lambda_{i}(1 – \lambda_{i})\]

であるため、

\[var(log\hat{S}(t)) = \sum_{i=1}^{s}\frac{1}{(n_{i}-d_{i})^{2}}n_{i}\lambda_{i}(1-\lambda_{i})\]

よってこの結果に、$\hat{\lambda}_{i}=\frac{d_{i}}{n_{i}}$を代入すると、

$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \sum_{i=1}^{s}\frac{1}{(n_{i} – d_{i})^{2}}n_{i}\frac{d_{i}}{n_{i}}\left(1 – \frac{d_{i}}{n_{i}}\right)\\
&=& \sum_{i=1}^{s}\frac{d_{i}}{n_{i}(n_{i} – d_{i})}
\end{eqnarray}
$$

さらに、

$$
\begin{eqnarray}
var(log\hat{S}(t)) &\simeq& \left(\frac{1}{\hat{S}(t)}\right)^{2}var(\hat{S}(t))\\
var(\hat{S}(t)) &\simeq& (\hat{S}(t))^{2}var(log \hat{S}(t))\\
&=& (\hat{S}(t))^{2}\sum_{i=1}^{s}\frac{d_{i}}{n_{i}(n_{i} – d_{i})}
\end{eqnarray}
$$

これはGreenwoodの公式と呼ばれる方法である。
これより標準誤差は下記のようになる。

\[SE(\hat{S}(t)) \approx \hat{S}(t)\sqrt{\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}}\]

信頼区間の導出

標準誤差を導出することができましたので、これにより信頼区間を導出することができます。S(t)の95% 信頼区間は、

\[ \left[ \hat{S}(t) – 1.96 \sqrt{var(\hat{S}(t))} , \hat{S}(t) + 1.96 \sqrt{var(\hat{S}(t))} \right] \]

ここで、$0 < S(t) < 1$ですが、CIが0から1をはみ出すことがありますので、こちらをloglog変換という方法で修正していきたいと思います。

loglog変換

$$
\begin{eqnarray}
0 < S(t) < 1 &\Rightarrow& log S(t) < 0\\
&\Rightarrow& -log S(t)>0\\
&\Rightarrow& -\infty < -logS(t) < \infty
\end{eqnarray}
$$

この変換とをデルタ法により近似分散を導出することができます。

$$
\begin{eqnarray}
var(log (-log S(t))) &\simeq& \left(\frac{1}{-log \hat{S}(t)}\frac{-1}{\hat{S}(t)} \right)^{2}var(\hat{S}(t))\\
&=& \left(\frac{1}{\hat{S}(t)log \hat{S}(t)}\right)^{2} var(\hat{S}(t))
\end{eqnarray}
$$

ここでGreenwoodの公式、$\hat{S}(t)=\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right)$を用いると、

\[var(log (- log S(t))) = \left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}\]

さらに、$S(t) = (-exp(log(-log S(t))))$であるから、S(t)の95% 信頼区間は下記のようになる。

\[ \left[\hat{S}(t)exp(-exp(-1.96\sqrt{\left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}})) ,\\ \hat{S}(t)exp(-exp(1.96\sqrt{\left(\frac{1}{\prod_{i=1}^{r}\left(1 – \frac{d_{i}}{n_{i}}\right) \sum_{i=1}^{r}log (1-\frac{d_{i}}{n_{i}})}\right)^{2}\sum_{i=1}^{r}\frac{d_{i}}{n_{i}(n_{i}-d_{i})}}))\right] \]

Nelson-Aalen推定量

定義

累積ハザード関数 H(t) の推定式：

\[ \hat{H}(t) = \sum_{t_i \le t} \frac{d_i}{n_i}\]

これは、各時点での瞬間的なハザード率を加算することで、累積的なリスクを評価します。

特徴

非パラメトリック推定量
生存関数との関係：$\hat{S}(t) = \exp(-\hat{H}(t))$
分散推定：$\mathrm{Var}\{\hat{H}(t)\} = \sum_{t_i \le t} \frac{d_i}{n_i^2}$

累積ハザードの直感的理解が可能
Cox比例ハザードモデルとの親和性が高い

Fleming–Harrington推定量

定義

生存関数の推定式：

\[\tilde{S}(t) = \exp\left( -\sum_{t_i \le t} \frac{d_i}{n_i} \right)\]

これは、ネルソン–アーレン推定量を指数関数で変換した形であり、カプラン–マイヤー法の近似とみなされることもあります。

特徴

数学的に滑らかな生存曲線が得られる
Greenwoodの公式と整合性がある
実装が容易（指数関数の形）

3つの推定量について比較してみると下記のようになります。

推定量	対象	数式	特徴	実務での適用
カプラン–マイヤー	生存関数	積の形式	実務で最も一般的	生存率の推定と可視化に最適
ネルソン–アーレン	累積	線形加算	Coxモデルと親和性	ハザード率の累積評価、Coxモデルの前処理に有用
フレミング–ハリントン	生存関数	指数変換	数学的に滑らか	理論的解析や滑らかな曲線が求められる場面で有効

まとめ

今回はカプラン–マイヤー推定量のSEとCIの導出と3つの推定量について紹介いたしました。カプランマイヤー推定量のSEはGreenwoodの公式で求められます。
また、今回紹介した3つの推定量は、標準誤差や信頼区間の導出においても異なる性質を持ちます。実務では、ソフトウェアによる自動計算に頼るだけでなく、式の意味と統計的背景を理解することが、信頼性の高い解析につながります。

Greenwoodの公式カプランマイヤー法数理統計生存時間解析生物統計統計検定

カプラン–マイヤー法における標準誤差と信頼区間の導出

はじめに

カプラン–マイヤー推定値について

標準誤差の導出

信頼区間の導出

Nelson-Aalen推定量

Fleming–Harrington推定量

まとめ

ベイズ統計入門：頻度論との違いとベイズの定理

第13回実務に活かす「中間因子」を用いた因果効果推定

非劣性試験と非劣性マージンの設定

第12回集団に対する曝露・介入の効果推定― 製薬業界における因果推論の実践的アプローチ ―

第11回操作変数を用いた因果効果推定 ― 製薬研究における実務的応用

統計検定2級の勉強法

統計検定を受験する意味って？

統計検定準1級の勉強法

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

統計検定1級の勉強法

はじめに

カプラン–マイヤー推定値について

標準誤差の導出

信頼区間の導出

Nelson-Aalen推定量

Fleming–Harrington推定量

まとめ

カプランマイヤー法による生存時間推定について

Gatekeeping法の概要と実務的活用

多重比較法の基礎と活用〜多重性の問題と代表的手法を図解で理解する〜

生物統計家とAIについて（製薬会社とAIの付き合い方）

非劣性試験と非劣性マージンの設定

Cox比例ハザードモデル入門〜数式から実務応用まで〜

ベイズ統計入門：頻度論との違いとベイズの定理

第13回 実務に活かす「中間因子」を用いた因果効果推定

非劣性試験と非劣性マージンの設定

第12回 集団に対する曝露・介入の効果推定― 製薬業界における因果推論の実践的アプローチ ―

第11回 操作変数を用いた因果効果推定 ― 製薬研究における実務的応用

統計検定2級の勉強法

統計検定を受験する意味って？

統計検定準1級の勉強法

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

統計検定1級の勉強法

第13回実務に活かす「中間因子」を用いた因果効果推定

第12回集団に対する曝露・介入の効果推定― 製薬業界における因果推論の実践的アプローチ ―

第11回操作変数を用いた因果効果推定 ― 製薬研究における実務的応用