はじめに
製薬業界における臨床試験や探索的研究では、同一被験者における前後比較が頻繁に行われます。例えば、治療前後のバイオマーカー値、投与前後の血圧、あるいはクロスオーバーデザインにおける2処置の比較などです。
このような「同一対象から得られたペアデータ」を解析する代表的手法が、対応のあるt検定(paired t-test)とウィルコクソン符号順位検定(Wilcoxon signed-rank test)です。両者は「平均値の差」を評価するか「分布の位置の差」を評価するかという点で異なり、また正規性の仮定の有無も重要な違いとなります。本記事では、数理的導入からRでの実装例、さらに製薬業界での実務的な位置づけまでを整理します。
また、対応のないt検定やウィルコクソン検定は下記記事で紹介しておりますので、興味がありましたら是非ご一読ください。


数理的導入
データの形式は下記のようにするとします。
群A | 群B | 差d | |d|に対する順位 | |
1 | \(X_{A_{1}}\) | \(X_{B_{1}}\) | \(d_{1} = X_{A_{1}} – X_{B_{1}}\) | \(R_1\) |
2 | \(X_{A_{2}}\) | \(X_{B_{2}}\) | \(d_{2} = X_{A_{2}} – X_{B_{2}}\) | \(R_2\) |
\(\cdots\) | \(\cdots\) | \(\cdots\) | \(\cdots\) | \(\cdots\) |
n | \(X_{A_{n}}\) | \(X_{B_{n}}\) | \(d_{n} = X_{A_{n}} – X_{B_{n}}\) | \(R_n\) |
2.1 対応のあるt検定
対応のあるt検定は、同一被験者から得られた2つの測定値の差を考え、その差の平均が0かどうかを検定します。2群A、Bが正規分布\(N(\mu_A, \sigma_A^2) ,N(\mu_B, \sigma_B^2) \)に従っているとします。
仮説
帰無仮説、対立仮説は以下となります。
$$
\begin{eqnarray}
H_0 &:& \mu_A = \mu_B \\
H_1 &:& \mu_A \neq \mu_B (or \mu_A > \mu_B, \mu_A < \mu_B)
\end{eqnarray}
$$
検定統計量
\(d_{i} = X_{A_{i}} – X_{B_{i}} (i=1,…,n) \)に関する平均値を\(\bar{d}\), 標準偏差を\(S_d\)とすると、対応のあるt検定の検定統計量は以下のようになります。
\[T = \frac{\bar{d}}{S_d/\sqrt{n}}\]
上記統計量は\(H_0\)の下でt_{n-1}分布に従うため、これを利用して、検定を行っていく。
ウィルコクソン符号順位検定
一方、ウィルコクソン符号順位検定は、差の分布が対称であることを前提に、差の中央値が0かどうかを検定します。2群A,Bが正規母集団か分からないときにも適用することができます。
仮説
帰無仮説、対立仮説は以下となります。
$$
\begin{eqnarray}
H_0 &:& \mu_A = \mu_B \\
H_1 &:& \mu_A \neq \mu_B (or \mu_A > \mu_B, \mu_A < \mu_B)
\end{eqnarray}
$$
検定統計量
\(d_{i} = X_{A_{i}} – X_{B_{i}} (i=1,…,n) \)を計算して、その絶対値\(|d_i|\)に関して、順位\(R_{i}\)を小さい順に付けていきます。このとき、順位和を以下のようにする。
W=(順位和の小さい群の順位和)
ここで、Wの期待値と分散が以下のようになる。ただし、mはA群とB群のペア数とする。
\[E(W) = \frac{m(m+1)}{4}\]
\[V(W) = \frac{m(m+1)(2m+1)}{24}\]
実際には、離散分布から連続分布への連続修正項0.5を導入して、
\[Z = \frac{W – E(W) \pm 1/2}{\sqrt{V(W)}}\]
が\(H_0\)の下でN(0,1)に従うことを利用して検定を行っていきます。
製薬業界での実務的な位置づけ
臨床試験においては、統計解析計画書(SAP)に基づき、どの検定を用いるかが事前に規定されます。
- 対応のあるt検定は、差の正規性が妥当と考えられる場合に用いられます。特にサンプルサイズが大きい場合、中心極限定理により正規近似が成立しやすいため、実務上よく使われます。
- ウィルコクソン符号順位検定は、データが明らかに非正規的(外れ値が多い、分布が歪んでいる)な場合に選択されます。特に探索的解析や小規模試験で有用です。
規制当局(FDA, EMA, PMDA)は、どちらの検定も適切に使われることを認めていますが、事前に選択理由を明記することが重要です。
R言語による実装例
# サンプルデータ
before <- c(150, 160, 145, 155, 148, 152, 158, 149, 151, 153)
after <- c(140, 155, 142, 150, 145, 148, 152, 147, 149, 150)
対応のあるt検定
t.test(after, before, paired = TRUE)
Paired t-test
t = -5.12, df = 9, p-value = 0.0006
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval: -6.5 -2.0
sample estimates: mean difference = -4.25
解釈: 治療後の血圧は有意に低下している。
ウィルコクソン符号順位検定
wilcox.test(after, before, paired = TRUE)
Wilcoxon signed rank test
V = 0, p-value = 0.002
alternative hypothesis: true location shift is not equal to 0
解釈: 中央値ベースでも有意な低下が確認される。
両者の比較と選択指針
項目 | 対応のあるt検定 | ウィルコクソン符号順位検定 |
評価対象 | 平均値の差 | 中央値(位置)の差 |
前提 | 差が正規分布 | 差が対称分布 |
外れ値の影響 | 受けやすい | 比較的頑健 |
サンプルサイズ | 大きいほど有利 | 小規模でも有効 |
製薬業界での利用 | confirmatory試験で多用 | exploratory解析や非正規データで有用 |
実務上の注意点
事前規定の重要性
SAPにおいて、どちらの検定を用いるか、また正規性が満たされない場合の代替手法を明記しておく必要があります。
正規性の確認
Shapiro-Wilk検定やQ-Qプロットで差の分布を確認することが推奨されます。
効果量の報告
検定結果だけでなく、平均差や中央値差、信頼区間を併せて提示することが規制当局からも求められます。
多重性の考慮
複数のエンドポイントを扱う場合は、多重性調整を忘れてはなりません。
解釈の透明性
「有意差あり」だけでなく、臨床的意義(clinical relevance)を併せて議論することが重要です。
まとめ
今回は「同一対象から得られたペアデータ」を解析する代表的手法である対応のあるt検定(paired t-test)とウィルコクソン符号順位検定(Wilcoxon signed-rank test)について数理的導入とR言語での実装例を中心に解説していきました。対応のあるt検定は「差の平均」を評価し、正規性を仮定しており、ウィルコクソン符号順位検定は「差の中央値」を評価し、非正規データに頑健であるという特徴がそれぞれあります。規制当局に提出する解析では、事前規定・正規性確認・効果量提示が必須となります。製薬業界では、試験規模やデータ特性に応じて両者を使い分ける必要があるかと思います。