数理統計

比率の差の検定と信頼区間について徹底解説

はじめに

臨床試験や疫学研究、さらには製薬業界の実務において、2群の比率の差を評価する場面は非常に多く存在します。たとえば「新薬群の有効率」と「対照群の有効率」を比較し、その差が統計的に有意かどうかを判断することは、薬の承認や医療現場での意思決定に直結します。
比率の差を検定する方法は古典的な統計学の基礎でありながら、実務上の重要性が高く、さらに規制当局(FDAやPMDA)からも明確に提示が求められる項目です。単に有意差の有無を確認するだけでなく、信頼区間を導出して差の大きさを定量的に示すことが、臨床的意義を判断する上で不可欠です。
本記事では、比率の差の検定方法と信頼区間の導出について、数式・図解・R言語による実装例を交えながら解説します。読者が「理論的な理解」と「実務での応用」の両面を得られるように構成しています。

背景と目的

臨床試験や製薬分野では、「新薬群と対照群の有効率に差があるか」を検証する場面が頻繁にあります。ここで用いられるのが比率の差の検定です。例えば:

  • 新薬群の有効率:\(p_1\)
  • 対照群の有効率:\(p_2\)

このとき、帰無仮説は

\[H_0:p_1=p_2\]

対立仮説は

\[H_1:p_1\neq p_2\]

となります。

数式による導出

推定量

各群の成功数を \(x_1,x_2\)、サンプルサイズを \(n_1,n_2\) とすると、比率の推定値は

\[\hat {p}_1=\frac{x_1}{n_1},\quad \hat {p}_2=\frac{x_2}{n_2}\]

です。差の推定値は

\[\hat {d}=\hat {p}_1-\hat {p}_2\]

となります。

標準誤差

差の標準誤差は

\[SE=\sqrt{\frac{\hat {p}(1-\hat {p})}{n_1}+\frac{\hat {p}(1-\hat {p})}{n_2}}\]

ただし、帰無仮説下では両群の比率が等しいと仮定し、プールした推定値

\[\hat {p}=\frac{x_1+x_2}{n_1+n_2}\]

を用います。

検定統計量

Z統計量は

\[Z=\frac{\hat {p}_1-\hat {p}_2}{SE}\]

であり、標準正規分布に従うと近似されます。

導出

\(X_i, Y_j (i=1,…,n : j=1,…m)\)がベルヌーイ分布に従うとします。

$$
\begin{eqnarray}
X_i =
\begin{cases}
1 & \text{Aの効果あり}\\
0 & \text{Aの効果なし}
\end{cases}
\end{eqnarray}
$$

$$
\begin{eqnarray}
Y_j =
\begin{cases}
1 & \text{Bの効果あり}\\
0 & \text{Bの効果なし}
\end{cases}
\end{eqnarray}
$$

この時、ベルヌーイ分布の確率密度関数は、下記のようになります。

\[P(X_i =k) = p_{1}^{k}(1-p_{1})^{1-k} \, (k=0,1)\]

この時、\(X_i\)の総和の分布は二項分布となります。

\[U \equiv X_1 + \cdots + X_n \approx Bi(n,p_1)\]

この二項分布の確率密度関数は、下記のようになります。

\[P(U =k) = \binom{n}{k}p_{1}^{k}(1-p_{1})^{n-k} \, (k=0,1,…,n)\]

この時、期待値\(E(U)=np_{1}\)、分散\(V(U)=np_{1}(1-p_{1})\)より、ベルヌーイ分布に中心極限定理を用いて

\[\frac{U – E(U)}{\sqrt{V(U)}} \approx N(0,1)\]

$$
\begin{align}
\frac{(X_1+ \cdots +X_n) – E(U)}{\sqrt{V(U)}}
&= \frac{(U – np_1)}{\sqrt{np_1 (1 – p_1)}} \\
&= \frac{(\hat{p}_1 – p_1)}{\sqrt{\frac{1}{n}p_1 (1 – p_1)}} \approx N(0,1) \\
&\leftrightarrow \hat{p}_1 \approx N(p_1, \frac{1}{n}p_1(1-p_1))
\end{align}
$$

これは1群の比率の検定統計量となります。

同様に、\(\hat{p}_2 \approx N(p_2, \frac{1}{n}p_2(1-p_2))\)

\[\therefore \hat{p}_1 – \hat{p}_2 \approx N(p_1 – p_2, \frac{1}{n}p_1(1-p_1) + \frac{1}{m}p_2(1-p_2))\]

\(H_0:p_1=p_2\)の下で、

\[\hat{p}_1 – \hat{p}_2 \approx N\left(0, p(1-p) \left(\frac{1}{n}+\frac{1}{m} \right)\right)\]

これより、2群の比率の検定統計量は

\[Z = \frac{\hat{p}_1 – \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p}) \left(\frac{1}{n}+\frac{1}{m} \right)}} \approx N(0,1)\]

ここで、\(\hat{p}=\frac{X_1+ \cdots +X_n +Y_1 + \cdots + Y_m}{n+m}\)

信頼区間の導出

差の信頼区間は一般に

\[CI=\hat {d}\pm Z_{\alpha /2}\cdot SE\]

で表されます。ここで SE’は帰無仮説を仮定しない場合の標準誤差:

\[SE=\sqrt{\frac{\hat {p}_1(1-\hat {p}_1)}{n_1}+\frac{\hat {p}_2(1-\hat {p}_2)}{n_2}}\]

例えば95%信頼区間では \(Z_{0.025}=1.96\) を用います。

Rによる実装例

prop.test を用いた検定

# データ例:新薬群 50人中40人有効、対照群 60人中30人有効
x <- c(40, 30)
n <- c(50, 60)

#比率の差の検定
prop.test(x, n, correct = FALSE)

実務的な注意点

  • サンプルサイズが小さい場合:正規近似は不適切となり、Fisherの正確確率検定を推奨。
  • 多群比較:Bonferroni補正など多重比較の調整が必要。
  • 規制当局(FDA/PMDA):臨床試験報告では、比率の差とその信頼区間を必ず提示することが求められる。

まとめ

比率の差の検定は、臨床試験や製薬分野において新薬と対照群の有効率を比較する際に欠かせない統計手法です。大規模なサンプルでは正規近似に基づくZ検定が有効であり、小規模なサンプルではFisherの正確確率検定が推奨されます。さらに、単に有意差の有無を確認するだけでなく、差の大きさを定量的に示すために信頼区間を導出することが重要です。信頼区間は「差の推定値 ± 臨界値 × 標準誤差」という形で計算され、結果が0を含むかどうかによって臨床的な意味合いを判断できます。
R言語を用いれば、prop.testfisher.test といった関数で容易に検定や信頼区間の算出が可能であり、再現性の高い解析を効率的に行うことができます。規制当局(FDAやPMDA)も臨床試験報告において比率の差とその信頼区間の提示を求めているため、研究者や実務者にとって必須のスキルと言えるでしょう。
したがって、比率の差の検定と信頼区間の導出は、統計学的な基礎であると同時に、臨床試験の有効性評価や薬事承認に直結する実務的に極めて重要な手法であり、理論と実装の両面から理解しておくことが求められます。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。