はじめに

サンプルサイズ設計は、統計学の中でも特に誤解が多く、実務で最も悩まれるテーマのひとつです。
「どれだけ集めれば十分なのか?」
この問いに対して、教科書的には“検出力80%”や“有意水準5%”といった基準が提示されますが、実際の現場ではそれだけでは到底足りません。

  • 効果量は不確実で、事前情報も曖昧
  • 予算や期間などの制約が厳しい
  • 過去データが少なく、見積もりが不安定
  • 臨床試験やA/Bテストでは意思決定の基準が異なる

こうした現実の複雑さを踏まえると、古典的な検出力分析だけでは不十分であり、ベイズ的な視点や意思決定の観点が不可欠になります。
この記事では、古典的検出力分析の限界 → ベイズ的サンプルサイズ設計 → 実務的な対処法 → ケーススタディという流れで、サンプルサイズ設計の本質に迫ります。

古典的な検出力分析の限界

古典的なサンプルサイズ設計は、以下の4つの要素を前提にしています。

  • 有意水準 \(\alpha\)
  • 検出力 \(1-\beta\)
  • 効果量 \(\delta\)
  • 分散(ばらつき)\(\sigma ^2\)

例えば、2群の平均差を検定する場合、必要サンプルサイズは近似的に次の式で表されます。

\[n=\frac{2\sigma ^2(z_{1-\alpha /2}+z_{1-\beta })^2}{\delta ^2}\]

この式は一見すると明快ですが、実務では多くの問題を抱えています。

①効果量が「確定値」として扱われる問題

古典的検出力分析では、効果量 \(\delta\) を単一の確定値として扱います。
しかし、実務では効果量は不確実であり、事前情報も曖昧です。

  • 過去研究の効果量が小規模で不安定
  • 類似データが存在しない
  • 実験条件が異なるため外挿が難しい

その結果、効果量の見積もりが楽観的すぎて、サンプルサイズ不足に陥ることが頻発します。

②“検出力80%”の誤解

検出力80%とは、「真の効果量が設定した値ちょうどであれば、80%の確率で有意になる」という意味です。
しかし、効果量が少しでも小さくなると検出力は急落します。

③サンプルサイズ不足を招く構造的な理由

  • 効果量の推定が楽観的
  • 過去研究のバイアス(出版バイアス)
  • 実験条件の違い
  • 実務上の制約(予算・期間・被験者数)

これらが重なると、検出力80%の試験が実際には成功確率30〜50%程度しかないという状況が起こります。

ベイズ的サンプルサイズ設計:事前分布をどう扱うか

ベイズ的アプローチでは、効果量 \(\delta\) を確定値ではなく確率変数として扱います。

\[\delta \sim \mathrm{Prior}\]

これにより、効果量の不確実性を自然に取り込むことができます。

ベイズ的サンプルサイズ設計の基本思想

ベイズ的設計では、以下のような基準を用います。

(1) 事後確率基準

\[P(\delta >0\mid \mathrm{data})>0.95\]

(2) ベイズファクター基準

\[BF_{10}>10\]

(3) 期待効用最大化

意思決定の損失関数を定義し、期待効用を最大化するサンプルサイズを選ぶ。

ベイズ統計を用いたサンプルサイズ設定~頻度論の方法との比較も交えて~頻度論的手法とベイズ的手法の違いを整理しつつ、ベイズ統計に基づくサンプルサイズ設定の考え方を数理的に解説...

事前分布の設定:どこまで主観を入れるか

事前分布はベイズ設計の核心ですが、設定には慎重さが必要です。

(A) 弱情報事前分布(Weakly informative prior)

  • 効果量の範囲を制約しつつ、過度に主観的にならない
  • 例:\(\delta \sim N(0,0.5^2)\)

(B) 過去データに基づく事前分布

  • メタ分析
  • 類似試験の結果
  • A/Bテストの過去ログ

(C) ロバスト事前分布

複数の事前分布を混合し、過度なバイアスを避ける。

\[\delta \sim 0.5N(0,0.2^2)+0.5N(0,1^2)\]

ベイズ的検出力:Assurance(成功確率)

ベイズ的検出力(Assurance)は、「事前分布を考慮した上で、成功基準を満たす確率」
として定義されます。

\[\mathrm{Assurance}=P\left( P(\delta >0\mid \mathrm{data})>0.95\right)\]

これは古典的検出力よりも 現実的な成功確率 を提供します。

実務での「サンプルサイズが足りない」問題への対処法

現場では、理想的なサンプルサイズを確保できないことが多いです。

  • 予算が足りない
  • 被験者が集まらない
  • 実験期間が限られている

ここでは、現実的な対処法を整理します。

  1. 効果量の最小臨床的重要差(MCID)を明確化する
    「どれだけの差があれば意思決定が変わるか?」
    これを明確にすることで、必要サンプルサイズを合理化できます。
  2. 逐次解析(Sequential design)を導入する
    以下の方法を用いると、必要以上にサンプルを集めずに済む可能性があります。
    • 中間解析
    • グループ逐次法
    • ベイズ逐次デザイン
  3. 事前情報の活用
    例えば以下のような方法を用いると、ベイズ的アプローチと相性が良く、サンプルサイズ削減に寄与します。
    • 過去データ
    • 類似試験
    • メタ分析
  4. 効果量の不確実性を明示し、意思決定者と共有する
    「この効果量を前提にするとサンプルサイズは○○だが、効果量が半分なら検出力は△△に落ちる」といったシナリオ分析は、実務で非常に有効です。

ケーススタディ

臨床試験:新薬の効果検証

状況

  • 主要評価項目:血圧低下量
  • 過去研究:効果量は平均 5 mmHg、SD = 10
  • 最小臨床的重要差(MCID):3 mmHg

古典的設計

効果量を 5 mmHg と仮定すると必要サンプルサイズは比較的小さい。
しかし、実際の効果量が 3 mmHg なら検出力は大幅に低下。

ベイズ的設計

事前分布を

\[\delta \sim N(5,3^2)\]

と設定し、Assurance を計算すると、

  • 古典的検出力:80%
  • ベイズ的 Assurance:55%

という結果になることが多い。つまり、古典的設計は成功確率を過大評価しがち

A/Bテスト:CVR改善の検証

CVR は Conversion Rate(コンバージョン率) の略で、
「訪問者のうち、どれだけの人が目的の行動を達成したか」を示す指標 です。

状況

  • ベースラインCVR:2%
  • 過去の改善幅:0.1〜0.3%程度
  • アクセス数に制約あり

古典的設計の問題

効果量を0.3%と仮定すると必要サンプルは少ないが、
実際の改善幅が0.1%なら検出力はほぼゼロ。

ベイズ的アプローチ

事前分布:

\[\delta \sim N(0.2\% ,0.1^2\%)\]

Assurance を計算すると、
「成功確率は30〜40%程度」と現実的な評価が得られる。

実務的対処
  • 効果量のMCIDを明確化(例:0.15%以上なら採用)
  • 逐次解析で早期停止
  • アクセス数の優先配分

まとめ

サンプルサイズ設計は、統計的な計算作業にとどまらず、効果量の不確実性や実務上の制約を踏まえた意思決定そのものです。古典的な検出力分析は、効果量を単一の確定値として扱うため、現実の不確実性を十分に反映できず、しばしば成功確率を過大評価してしまいます。一方、ベイズ的アプローチは効果量を確率変数として扱い、事前分布を通じて不確実性を自然に取り込むことで、より現実的な成功確率(Assurance)を評価できます。ただし、事前分布の設定には慎重さが求められ、過去データや弱情報事前分布、ロバスト事前分布などを適切に使い分ける必要があります。
また、実務では理想的なサンプルサイズを確保できないことが多く、MCID(最小臨床的重要差)の明確化、逐次解析の導入、過去データの活用、効果量のシナリオ分析など、現実的な工夫が欠かせません。臨床試験やA/Bテストのケーススタディが示すように、古典的検出力だけに依存すると過度に楽観的な設計になりがちであり、ベイズ的な視点を取り入れることで、意思決定の成功確率をより正確に把握できます。
最終的に重要なのは、サンプルサイズ設計を「どれだけの確率で意思決定が成功するか」を評価するプロセスとして捉えることです。効果量の不確実性を正しく扱い、統計的基準と実務的制約のバランスをとりながら、より信頼性の高い意思決定につなげていくことが、サンプルサイズ設計の本質だと言えます。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。