非劣性試験設計と解析の実務ガイド｜マージン・ITT/PP・R/SAS実装

「新しい薬は既存薬より効く必要はない、ただし『明らかに劣ってはいない』ことを示せばよい」――この考え方で設計するのが非劣性試験（Non-inferiority Trial）です。倫理的にプラセボ対照が許されない領域や、既存薬と同等の有効性で安全性・利便性に優位性を持つ新薬の評価で、いまや臨床開発の主流となっています。

しかし非劣性試験は優越性試験よりも設計・解析・解釈のすべてが難しく、誤った設計は規制当局から却下されます。本記事では、FDA 2016年最終ガイダンス・ICH E10・PMDA資料を踏まえ、マージン設定からITT/PP解析、R・SASによる実装まで、実務で必要な知識を一気通貫で解説します。

この記事でわかること

非劣性試験を選ぶべき場面と、優越性試験・同等性試験との違い
非劣性マージン（M1・M2）の設定方法と「95-95法」の考え方
サンプルサイズ計算式と一側α=0.025を使う理由
ITT vs Per-Protocol：非劣性試験で両方の解析が必要な理由
検出感度（Assay Sensitivity）と恒常性仮定の落とし穴
R（pwr・gsDesign）とSAS（PROC POWER）による実装例

記事の目次

なぜ非劣性試験が必要か

新薬開発のゴールは通常「既存薬より優れていること」を示すこと、つまり優越性試験（Superiority Trial）です。しかし現実には、既存薬がすでに高い有効性を持つ領域では、それを上回る新薬を作ることが困難です。たとえば抗菌薬・抗HIV薬・抗血栓薬では、有効率がすでに90%を超えるレベルに達しているため、わずかな差を統計的に示すには膨大な症例数が必要になります。

さらに重要なのが倫理的制約です。確立された有効治療がある疾患でプラセボ対照試験を実施することは、ヘルシンキ宣言の観点から認められません。ICH E10ガイドラインも、「有効な標準治療が存在する場合、プラセボ対照は倫理的に正当化できない」と明記しています。

そこで登場するのが非劣性試験です。新薬が既存薬と「臨床的に意味のある差を超えて劣らない」ことを統計的に示せば、新薬の承認が可能になります。新薬の魅力は、有効性が同等であっても、副作用が少ない・経口投与可能・1日1回でよい・価格が安い等の付加価値に求められます。

優越性試験・同等性試験との違い

3つの試験デザインの違いを、新薬T（Test）と対照C（Control）の差θ = T − C（連続量なら平均差、二値なら有効率差）で整理します。マージンをΔ > 0とすると、それぞれの帰無仮説（H0）と対立仮説（H1）は次のとおりです。

試験種類	H0（帰無仮説）	H1（対立仮説）	典型的α
優越性	θ ≤ 0	θ > 0	両側0.05
非劣性	θ ≤ −Δ	θ > −Δ	一側0.025
同等性	\|θ\| ≥ Δ	\|θ\| < Δ	両側α/2 ずつ

非劣性試験は片側だけの問題であることがポイントです。新薬が対照より明らかに優れていても問題ない、ただし劣る方向にΔを超えてはならないという設計です。一方、同等性試験は両方向にマージンを設定し、ジェネリック薬の生物学的同等性試験などで使われます。

FDAは非劣性試験で一側α=0.025を使うことを推奨しています。これは両側α=0.05の優越性試験と統計的厳しさを揃えるためで、結果として95%信頼区間の下限がマージン−Δを上回るかどうかで判定するという、95-95法（two 95% rule）の発想にもつながります。

非劣性マージン Δ の設定方法

非劣性試験の最大の難所がマージン設定です。マージンが大きすぎると「効かない薬」を承認してしまう恐れがあり、小さすぎるとサンプルサイズが膨大になります。FDA 2016ガイダンスは、マージンをM1とM2の二段階で考える枠組みを示しています。

3-1. M1（統計的マージン）

M1は、過去のプラセボ対照試験から推定される対照薬の真の効果です。つまり「対照薬がプラセボに対してどれだけ効いていたか」を示す量で、メタアナリシスによって推定するのが一般的です。M1は新薬のプラセボ比較効果がゼロを上回ることを保証する上限として機能します。

たとえば対照薬の有効率がプラセボより20%高かったとします。その20%の差の95%信頼区間の下限（保守的に推定）をM1とします。新薬が対照に対して20%以上劣ったら、新薬はプラセボと同等以下になってしまうため、これを上限としてマージンを設定します。

3-2. M2（臨床的マージン）

M1だけでは「新薬がプラセボよりわずかでも優れていればOK」という最低水準しか担保できません。そこで対照薬の効果の一定割合を新薬で保持するという臨床的観点から、M2が設定されます。

慣例としてM2 = M1 × 0.5（対照薬の効果の50%を保持）が使われることが多く、PMDAの佐藤俊哉先生の資料でも「M1の50〜80%」を推奨しています。重大なエンドポイント（死亡など）ではより小さなマージン（M1の20%）が要求されます。

📚 より深く学ぶなら：マージン設定はメタアナリシスとリスク・ベネフィット評価の交差点です。本記事末尾で実務に直結する書籍を紹介しています。

サンプルサイズ計算

非劣性試験のサンプルサイズ計算式は、優越性試験のそれを「マージンの分だけシフト」した形になります。連続アウトカムで群間差の検定を行う場合、群あたりサンプルサイズは次式で求まります。

\[ n = \frac{(z_{\alpha} + z_{\beta})^2 \cdot \sigma^2 \cdot (1 + 1/r)}{(\Delta_{NI} + \delta)^2} \]

ここで z_α は一側α（通常0.025、z=1.96）、z_β は1−β（検出力80%ならz=0.84）、σ は共通標準偏差、r は割付比、Δ_NI は非劣性マージン、δ は新薬と対照の真の差の想定値（多くの場合0、すなわち「同等」を想定）です。

重要なのは分母が(Δ_NI + δ)²であることです。真の差δが0と仮定するとサンプルサイズはΔ_NIだけで決まるため、マージンを小さくすると必要症例数が爆発的に増えます。たとえばΔを半分にするとサンプルサイズは4倍になります。

解析対象集団：ITT vs Per-Protocol

優越性試験ではITT（Intention-To-Treat）解析が標準です。割付通りに解析することで、ランダム化の利点を保ち、現実の臨床効果（effectiveness）を評価できます。プロトコル違反者を除く（PPS）と、選択バイアスが入りますが、優越性方向には保守的に働くため問題になりません。

ところが非劣性試験では事情が逆転します。プロトコル違反者・脱落者・併用薬使用者などを含めると、群間差が「ぼやけて」ゼロに近づきます。優越性試験ではこれが保守的（差を小さくする）に働きますが、非劣性試験では「差がない＝非劣性あり」と結論しやすくなる方向に働くのです。これをITT解析の反保守性（anti-conservativeness）と呼びます。

このためICH E9ガイドライン・FDA 2016ガイダンス・PMDA資料は、非劣性試験ではITTとPP（Per-Protocol）の両方を実施し、両者の結論が一致して初めて非劣性が結論できると明記しています。両解析で結果が乖離した場合、感度分析を追加するか、結論を保留する必要があります。

検出感度と恒常性仮定の罠

非劣性試験には、優越性試験にはない2つの致命的な罠があります。

6-1. 検出感度（Assay Sensitivity）

「もしプラセボ群があったら、対照薬がきちんと効くことを示せたか？」――これが検出感度です。試験のクオリティが低く、対照薬の効果すら示せないような状況では、新薬と対照薬の差が出ないのは「両方とも効いていない」可能性を否定できません。

検出感度を担保するには、試験集団・エンドポイント・投与期間を過去のプラセボ対照試験とそろえる必要があります。これを怠ると「ずさんな試験ほど非劣性を示しやすい」という皮肉な結果になります。

6-2. 恒常性仮定（Constancy Assumption）

M1の推定は過去のプラセボ対照試験に基づきます。しかし医療技術の進歩・診断基準の変化・併用療法の発展により、対照薬の効果は時代とともに変わります。「過去に示された対照薬の効果が、現在も同じ大きさで存在する」と仮定するのが恒常性仮定で、これが崩れるとマージン設定の前提自体が無効になります。

近年の抗菌薬領域では、耐性菌の増加により対照薬の効果が低下していることが多く、過去のM1をそのまま使うとマージンが過大になる――というケースが報告されています。FDAは個別の領域別ガイダンス（例：抗菌薬）でこの点を強調しています。

R による実装：pwr と gsDesign

連続アウトカムの非劣性試験のサンプルサイズをpwrパッケージで計算します。コア式は優越性と同じで、効果量の符号と方向に注意します。

# 必要パッケージ
library(pwr)
library(gsDesign)

# 設定：連続アウトカム、非劣性マージン Delta = 5, SD = 15, 真差 delta = 0
Delta_NI <- 5
sigma    <- 15
delta    <- 0     # 新薬と対照は真には同等と想定
alpha    <- 0.025 # 一側
power    <- 0.80

# 効果量（Δ_NI + delta）/ σ
effect_size <- (Delta_NI + delta) / sigma

# 群あたりサンプルサイズ
result <- pwr.t.test(d = effect_size,
                     sig.level = alpha,
                     power = power,
                     type = "two.sample",
                     alternative = "greater")
ceiling(result$n)
# [1] 142

群あたり142例、計284例が必要との結果です。マージンを2.5に半減すると約568例（4倍）になり、マージン感度の高さが実感できます。

二値アウトカム（有効率の差）の場合は、gsDesign::nBinomialがFDA推奨の正規近似公式に対応しています。

# 二値アウトカム：対照群有効率 0.80, マージン 0.10
n_binom <- nBinomial(p1 = 0.80,    # 新薬群想定
                     p2 = 0.80,    # 対照群
                     delta0 = -0.10, # 非劣性マージン（負）
                     alpha = 0.025,
                     beta = 0.20,
                     ratio = 1)
ceiling(n_binom)
# [1] 502 （群あたり251）

解析時は、差の95%信頼区間の下限がマージン−Δを上回るかを確認します。連続量ならt.test()でconf.level = 0.95を指定し、二値ならprop.test()またはDescTools::BinomDiffCIでNewcombe法のCIを構築します。

# 解析例：差の95%CI下限がマージンを上回るかチェック
diff_test <- t.test(treat_group, control_group,
                    conf.level = 0.95,
                    alternative = "greater")
ci_lower <- diff_test$conf.int[1]
non_inf  <- ci_lower > -Delta_NI
cat("95%CI下限:", round(ci_lower, 2),
    "／非劣性:", non_inf, "\n")

SAS による実装：PROC POWER

SASは規制申請の標準環境です。PROC POWERでサンプルサイズを計算し、PROC TTESTで解析します。

/* サンプルサイズ計算：連続アウトカム */
proc power;
   twosamplemeans test=diff_satt
      meandiff = 0          /* 真差 0 を想定 */
      stddev   = 15
      nullDiff = -5         /* 非劣性マージン -Delta */
      sides    = U          /* 上側検定 */
      alpha    = 0.025
      power    = 0.80
      npergroup = .;
run;

/* 解析：差の95%CI */
proc ttest data=trial sides=U alpha=0.05;
   class trt;
   var endpoint;
   /* sides=U: 一側上側検定。CI下限がマージンより上か確認 */
run;

SAS 9.4以降は二値アウトカムにも対応しており、PROC POWERのtwosamplefreq文でnullPropDiffオプションを使えば非劣性のサンプルサイズが計算できます。解析時はPROC FREQのRISKDIFFオプションで信頼区間（Newcombe法・Wald法）を選びます。

結果解釈と実務上の落とし穴

非劣性が示された後、同じデータで優越性も検定したいという誘惑がよく生じます。これは「非劣性→優越性のswitching」と呼ばれ、ICH E9・FDAガイダンスは多重性調整なしで実施可能としています。なぜなら非劣性のH1は優越性のH1を含む（包含関係）ため、α制御が破綻しないからです。逆方向（優越性→非劣性）はマージンを事前指定していない限り認められません。

もう一つの落とし穴が「効かない薬同士の比較」問題です。検出感度が低く、両群とも効いていない場合、群間差はゼロに近くなり、結果として「非劣性」と判定されてしまいます。これを避けるには、過去のプラセボ対照試験データの定期的な見直し、外部対照（external control）を組み込むベイズ的手法、3アーム試験（プラセボ・対照・新薬）の検討などが推奨されます。

解析計画書（SAP）には、マージンの根拠（M1のメタアナリシス出典・M2の臨床的正当化）を明記し、ITT/PP両方の解析計画、感度分析、欠測値処理（多重代入法など）を事前に固めておく必要があります。

まとめと次のステップ

非劣性試験は、倫理と科学のバランスを取るための強力なデザインですが、マージン設定・検出感度・恒常性・解析セット選択のすべてを慎重に詰める必要があります。優越性試験との最大の違いは「ITTが反保守的に働く」点で、これがPP解析併記の必然性につながります。

本記事の知識を実践に落とし込むには、以下のステップが有効です：

過去のプラセボ対照試験のメタアナリシスを行いM1を推定する
臨床的妥当性に基づきM2（M1の50%が出発点）を決める
サンプルサイズ計算をRまたはSASで実装し、感度分析（マージン±20%）を行う
SAPにITT/PP両方の解析計画と感度分析を明記する
規制当局事前面談（PMDA対面助言・FDA Type B meeting）でマージンの妥当性を確認する

📚 この記事をより深く理解するための参考書籍

非劣性試験の設計・解析を実務で扱う方に役立つ書籍を、ランキング形式でご紹介します。

『医薬品開発のための臨床試験の計画と解析』上坂浩之（朝倉書店）

規制申請を見据えた実務的な臨床試験計画書（プロトコル）と統計解析計画書（SAP）の書き方に踏み込んだ実務書です。非劣性試験で頻繁に問われるマージン設定の根拠記述・ITT/PP併記の運用・規制当局事前面談での論点が、申請経験豊富な著者の視点から具体例とともに解説されています。日本の薬事申請現場で必携の一冊。

Amazon

楽天市場

『サンプルサイズの決め方』永田靖（朝倉書店）

サンプルサイズ計算の定番中の定番。連続量・二値・生存時間・順序データなど、エンドポイントごとに必要な計算式と背景理論が体系的にまとまっています。本記事のR・SAS実装の理論的根拠を確認したい方、自分の試験のサンプルサイズを根拠を持って決めたい方に最適です。手元に1冊あれば一生使えます。

Amazon

楽天市場

非劣性試験（Non-inferiority Trial）設計と解析 ― マージン設定・サンプルサイズ・ITT/PP解析からR/SAS実装まで実務ガイド ―

なぜ非劣性試験が必要か

優越性試験・同等性試験との違い

非劣性マージン Δ の設定方法

3-1. M1（統計的マージン）

3-2. M2（臨床的マージン）

サンプルサイズ計算

解析対象集団：ITT vs Per-Protocol

検出感度と恒常性仮定の罠

6-1. 検出感度（Assay Sensitivity）

6-2. 恒常性仮定（Constancy Assumption）

R による実装：pwr と gsDesign

SAS による実装：PROC POWER

結果解釈と実務上の落とし穴

まとめと次のステップ

関連記事・次のステップ

📚 この記事をより深く理解するための参考書籍

COMMENT コメントをキャンセル

【やさしく解説】標準偏差（SD）と標準誤差（SE）の違い ― グラフの「±」はどっち？Rで直感的に理解する ―

Firthのロジスティック回帰とは ― 完全分離・希少イベントで推定が破綻する問題をRで解決する ―

ICH E19とは ― 開発後期・承認後試験における「選択的な安全性データ収集」をわかりやすく解説 ―

生存時間解析のサンプルサイズ設計 ― 必要イベント数・Schoenfeld式・脱落を考慮した症例数をRで実装する ―

GEE（一般化推定方程式）とは ― 周辺モデルの考え方とRで学ぶ反復測定データ解析 ―

統計検定準1級・1級攻略ガイド ― 試験範囲・学習ステップ・よく出るテーマを完全整理 ―

ICH E6（GCP）とは？改訂のポイントまで図解でわかりやすく解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

効果量（Effect Size）を理解すると統計が一気に実務的になる― p値の限界を超えて、“どれだけ効くか”を語れる統計へ ―

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで

なぜ非劣性試験が必要か

優越性試験・同等性試験との違い

非劣性マージン Δ の設定方法

3-1. M1（統計的マージン）

3-2. M2（臨床的マージン）

サンプルサイズ計算

解析対象集団：ITT vs Per-Protocol

検出感度と恒常性仮定の罠

6-1. 検出感度（Assay Sensitivity）

6-2. 恒常性仮定（Constancy Assumption）

R による実装：pwr と gsDesign

SAS による実装：PROC POWER

結果解釈と実務上の落とし穴

まとめと次のステップ

関連記事・次のステップ

📚 この記事をより深く理解するための参考書籍

FDA Real-World Evidence (RWE) ガイダンス総まとめ ― 8つの公式文書で読み解く規制活用の全体像 ―

外部対照群の統計手法 (2/2) ― 傾向スコアマッチング・MAIC・ベイズ動的借用 ―

マスタープロトコルに基づくがん臨床試験とは？次世代臨床試験デザインの全貌と課題

【徹底解説】RMST（制限付き平均生存時間）とは何か？

生物統計学を学ぶためのおすすめ書籍：初学者から実務者まで

Group Sequential Design R実装比較 ― rpact / gsDesign / SAS PROC SEQDESIGN ―

COMMENT コメントをキャンセル

【やさしく解説】標準偏差（SD）と標準誤差（SE）の違い ― グラフの「±」はどっち？Rで直感的に理解する ―

Firthのロジスティック回帰とは ― 完全分離・希少イベントで推定が破綻する問題をRで解決する ―

ICH E19とは ― 開発後期・承認後試験における「選択的な安全性データ収集」をわかりやすく解説 ―

生存時間解析のサンプルサイズ設計 ― 必要イベント数・Schoenfeld式・脱落を考慮した症例数をRで実装する ―

GEE（一般化推定方程式）とは ― 周辺モデルの考え方とRで学ぶ反復測定データ解析 ―

統計検定 準1級・1級 攻略ガイド ― 試験範囲・学習ステップ・よく出るテーマを完全整理 ―

ICH E6（GCP）とは？改訂のポイントまで図解でわかりやすく解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

効果量（Effect Size）を理解すると統計が一気に実務的になる― p値の限界を超えて、“どれだけ効くか”を語れる統計へ ―

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで

統計検定準1級・1級攻略ガイド ― 試験範囲・学習ステップ・よく出るテーマを完全整理 ―