はじめに

母比率の差の検定(two-proportion test)は、医療統計・マーケティング・社会調査など、あらゆる分野で頻繁に使われる手法です。
例えば、

  • 新薬の有効率が標準治療より高いか
  • 新しい広告のクリック率が従来より改善したか
  • 改善施策の導入前後で離脱率が変化したか

といった比較を行う際に用いられます。
しかし、実務で最も悩ましいのが 「どれくらいのサンプルサイズを集めればよいのか」 という問題です。
本記事では、母比率の差の検定に必要なサンプルサイズの求め方を、わかりやすく解説します。

母比率の差の検定とは?

2つの母集団の比率 \(p_1,p_2\) を比較し、

\[H_0:p_1=p_2\]

を検証する方法です。

サンプルから得られる比率を

\[\hat {p}_1=\frac{x_1}{n_1},\quad \hat {p}_2=\frac{x_2}{n_2}\]

とすると、差の推定値は

\[\hat {p}_1-\hat {p}_2\]

この差が偶然では説明できないほど大きいかどうかを検定します。

サンプルサイズ設計の基本的な考え方

サンプルサイズ設計では、以下の4つの要素が重要です。

要素意味
有意水準 \(\alpha\)偶然による差を誤って「有意」と判断する確率
検出力(Power)\(1-\beta\)実際に差があるときに正しく検出できる確率
期待する差(効果量)\(\Delta =p_1-p_2\)実務的に意味のある差
母比率の想定値 \(p_1,p_2\)過去データやパイロット調査から推定

サンプルサイズは、「どれくらいの差を、どれくらいの確率で検出したいか」によって決まります。

サンプルサイズの基本式

2群のサンプルサイズを同じ\((n_1=n_2=n)\)と仮定すると、
必要なサンプルサイズは次の式で求められます。

\[n=\frac{\left( z_{1-\alpha /2}\sqrt{2\bar {p}(1-\bar {p})}+z_{1-\beta }\sqrt{p_1(1-p_1)+p_2(1-p_2)}\right) ^2}{(p_1-p_2)^2}\]]

ここで、

  • \(z_{1-\beta }\):検出力に対応する点
  • \(\bar {p}=\frac{p_1+p_2}{2}\)
  • \(z_{1-\alpha /2}\):標準正規分布の上側 \alpha /2 点

具体例で計算してみる

● 例:新薬の有効率を比較したい

  • 標準治療の有効率:\(p_2\)=0.60
  • 新薬の有効率:\(p_1\)=0.75
  • 差:\(\Delta\) =0.15
  • 有意水準:\(\alpha\) =0.05
  • 検出力:\(1-\beta\) =0.80

1. 必要な値を計算

\[\bar {p}=\frac{0.75+0.60}{2}=0.675\]

\[z_{1-\alpha /2}=1.96,\quad z_{1-\beta }=0.84\]

2. 分子の計算

\[A=z_{1-\alpha /2}\sqrt{2\bar {p}(1-\bar {p})}=1.96\sqrt{2\cdot 0.675\cdot 0.325}\]

\[B=z_{1-\beta }\sqrt{p_1(1-p_1)+p_2(1-p_2)}=0.84\sqrt{0.75\cdot 0.25+0.60\cdot 0.40}\]

3. サンプルサイズ

\[n=\frac{(A+B)^2}{(0.75-0.60)^2}\]

計算すると、

\[n\approx 120\]

つまり、各群120名、合計240名が必要となります。

不均等割付の場合(n1 ≠ n2)

割付比を \(k=n_1/n_2\) とすると、一般式は次のようになります。

\[n_2=\frac{\left( z_{1-\alpha /2}\sqrt{p(1-p)(1+k)}+z_{1-\beta }\sqrt{p_1(1-p_1)+kp_2(1-p_2)}\right) ^2}{k(p_1-p_2)^2}\]

\[n_1=kn_2\]

治験では「2:1割付」などがよく使われます。

実務でのポイント

  • 事前の比率推定が重要
    パイロットデータや過去研究を参考に、現実的な比率を設定することが最重要です。
  • 効果量は「実務的に意味のある差」で
    統計的に有意でも、実務的に意味がなければ意味がありません。
  • 検出力は 0.8〜0.9 が一般的
    医療分野では 0.9 を使うことも多いです。
  • サンプルサイズは丸めて増やす
    計算結果が 117.3 なら 118 ではなく 120 にするのが一般的です。

R でのサンプルサイズ計算コード

power.prop.test(
p1 = 0.75,
p2 = 0.60,
power = 0.80,
sig.level = 0.05,
alternative = “two.sided”
)

R の power.prop.test() は非常に便利で、実務でもよく使われます。

まとめ

母比率の差の検定におけるサンプルサイズ設計では、有意水準・検出力・効果量・想定される比率という4つの要素が中心となります。特に、実務的に意味のある差(効果量)をどの程度とみなすかがサンプルサイズを大きく左右し、差が小さくなるほど必要なサンプル数は急激に増加します。また、事前に比率を適切に見積もることが重要であり、過去データやパイロット調査を活用することで、より現実的な設計が可能になります。サンプルサイズの計算式はやや複雑ですが、分布の重なりを減らすことで検出力を確保するという直感的な理解が役立ちます。実務では、計算結果を切り上げて余裕を持たせることや、必要に応じて不均等割付を検討することも一般的です。さらに、R の power.prop.test() などのツールを使えば、実装も容易になります。総じて、母比率の差の検定におけるサンプルサイズ設計は、統計的妥当性と実務的な判断を両立させるための重要なプロセスであり、適切な前提設定と理解が成功の鍵となります。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。