はじめに
臨床試験や市販後調査の現場では、カテゴリー変数同士の関連性を検討する場面が頻繁に現れます。たとえば「治療群と有害事象の発生は独立か」「施設と治療成功率は独立か」といった問いです。これらは分割表(contingency table)を用いて整理され、独立性の検定によって統計的に評価されます。
本稿では、数理的な導出、Rによる実装例、製薬業界での実務的な留意点を体系的に解説します。特に「再現可能なコード」と「臨床試験での解釈」を重視し、実務に直結する形でまとめます。
分割表と独立性の考え方
まずは分割表についてと独立性の考え方について解説していきます。
分割表の定義
分割表は、2つ以上のカテゴリー変数の組み合わせごとに観測度数を整理した表です。
例:治療群(T/C)×有害事象(Yes/No)の2×2表。
AEあり | AEなし | 合計 | |
治療群T | 48 | 12 | 60 |
治療群C | 36 | 24 | 60 |
合計 | 84 | 36 | 120 |
独立性の帰無仮説
- 帰無仮説 \(H_0\): 行変数と列変数は独立である。
- 対立仮説 \(H_1\): 独立ではない(関連がある)。
独立とは、確率的に「行と列の同時確率が周辺確率の積に等しい」ことを意味します。
例えば、以下のような確率のカテゴリの場合を想定します。
\(B_{1}\) | \(B_{2}\) | \(B_{c}\) | ||
\(A_{1}\) | \(P_{11}\) | \(P_{12}\) | \(\cdots\) | \(P_{1.}\) |
\(A_{2}\) | \(P_{21}\) | \(P_{2}\) | \(\cdots\) | \(P_{2.}\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) | |
\(A_{r}\) | \(P_{r1}\) | \(P_{r2}\) | \(\cdots\) | \(P_{r.}\) |
\(P_{.1}\) | \(P_{.2}\) | 1 |
\[P(X = i , Y = j) = P_{ij}\]
周辺確率:
\[P(X = i) = \sum_{j=1}^{c}P(X = i, Y = j) = \sum_{j=1}^{c}P_{ij} =P_{i.}\]
\[P(Y = j) = \sum_{i=1}^{r}P(X = i, Y = j) = \sum_{i=1}^{r}P_{ij} =P_{.j}\]
この時、以下のような仮説を立てることもできます。
- 帰無仮説 \(H_0:P_{ij} = P_{i.}P_{.j} (i=1 ,…, r ; j=1 ,…, c )\)
- 対立仮説 \(H_1\): 独立ではない(関連がある)。
数理的導出
記法
- \(X_{ij}\): セル (i,j) の観測度数
- \(x_{i.}\): 行合計
- \(x_{.j}\): 列合計
- N: 総計
Pearson のカイ二乗統計量は
\[X^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(X_{ij} – E_{ij})^2}{E_{ij}}\]
ここで\(H_0\)の下での\(P_{ij}\)の最尤推定量を求めていきます。
\(X_{ij}\)は多項分布\(M(N;{P_{ij}})\)に従います。
多項分布については下記記事で紹介しておりますので、ご参考ください。

\[P(X_{ij} = x_{ij} (i=1,…,r ; j=1,…,c)) = \frac{N}{\prod_{i=1}^{r}\prod_{j=1}^{c}x_{ij}!}\prod_{i=1}^{r}\prod_{j=1}^{c}p_{ij}^{x_{ij}}\]
このとき対数尤度は
\[log L = C + \sum_{i=1}^{r}\sum_{j=1}^{c}x_{ij}logp_{ij}\]
条件として、\(H_0 : p_{ij} = p_{i.}p_{.j}\)の下であるので、
$$
\begin{eqnarray}
log L &=& C + \sum_{i=1}^{r}\sum_{j=1}^{c}x_{ij}logp_{i.}p_{.j}\\
&=& C + \sum_{i=1}^{r}x_{i.}logp_{i.} + \sum_{j=1}^{c}x_{.j}logp_{.j}\\
\end{eqnarray}
$$
ここで、以下の条件の下でlog Lを最大化する\(\hat{p_{i.}}\)と\(\hat{p_{.j}}\)を求めていくことを考えます。
\[p_{1.} + \cdots + p_{r.} = 1 \leftrightarrow \sum_{i=1}^{r}p_{i.} – 1 = 0\]
\[p_{.1} + \cdots + p_{.r} = 1 \leftrightarrow \sum_{j=1}^{c}p_{.j} – 1 = 0\]
そこでラグランジュの未定乗数法という方法を用いていきます。
\(L(x,y,\lambda)=f(x,y)−\lambda g(x,y)\)
とおくと,
\((\alpha,\beta\)が極値を与えるならば,\((\alpha,\beta)\)は
- \(\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0\)の解。
または
- \(\frac{\partial g}{\partial x}=\frac{\partial g}{\partial y}=0\) の解。
\[L^{*} = C + \sum_{i=1}^{r}x_{i.}logp_{i.} + \sum_{j=1}^{c}x_{.j}logp_{.j} – \phi_{1}(\sum_{i=1}^{r}p_{i.} – 1) – \phi_{2}(\sum_{j=1}^{c}p_{.j} – 1)\]
ここで、\(p_{i.},p_{.j}\)について微分して、
\[\frac{\partial L^{*}}{\partial p_{i.}} = \frac{x_{i.}}{p_{i.}} – \phi_{1} (\equiv 0) \leftrightarrow x_{i.} – \phi_{1}p_{i.} = 0 \]
\[\frac{\partial L^{*}}{\partial p_{.j}} = \frac{x_{.j}}{p_{.j}} – \phi_{2} (\equiv 0) \leftrightarrow x_{.j} – \phi_{2}p_{.j} = 0\]
これらの式より、
\[\sum_{i=1}^{r}x_{i.} – \phi_{1}\sum_{i=1}^{r}p_{i.} = 0 \leftrightarrow \phi_{1} = N\]
\[\sum_{j=1}^{c}x_{.j} – \phi_{2}\sum_{j=1}^{c}p_{.j} = 0 \leftrightarrow \phi_{2} = N\]
したがって、それぞれの式に代入すると、
\[\hat{p_{i.}} = \frac{x_{i.}}{N} (i=1,…,r)\]
\[\hat{p_{.j}} = \frac{x_{.j}}{N} (j=1,…,c)\]
よって、\(H_0\)の下での\(p_{ij}\)の最尤推定量は、
\[\hat{p_{ij}} = \hat{p_{i.}}\hat{p_{.j}} = \frac{x_{i.}}{N}\frac{x_{.j}}{N}\]
\(E_{ij} = \hat{p_{ij}} = \hat{p_{i.}}\hat{p_{.j}} = \frac{x_{i.}}{N}\frac{x_{.j}}{N}\)は期待度数といいます。
改めて、カイ二乗統計量は以下のように表すことができます。
\[X^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(X_{ij} – E_{ij})^2}{E_{ij}} = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(X_{ij} – \frac{x_{i.}}{N}\frac{x_{.j}}{N})^2}{\frac{x_{i.}}{N}\frac{x_{.j}}{N}}\]
Rによる実装例
#2×2の例
tab <- matrix(c(48, 12,
36, 24),
nrow = 2, byrow = TRUE)
dimnames(tab) <- list(Arm = c(“T”, “C”),
AE = c(“Yes”, “No”))
tab
chisq.test(tab, correct = FALSE) # 補正なし
Pearson's Chi-squared test
data: tab
X-squared = 4.8, df = 1, p-value = 0.028
解釈: p値が0.05未満なので「治療群とAE発生は独立でない」と結論。
製薬業界での実務的留意点
ランダム化のバランス確認
- 治療群×施設の分割表で独立性を確認。
- 偏りがあれば層別解析や共変量調整を検討。
有害事象解析
- 群×AE発生有無の表で独立性を確認。
- まれなAEでは小標本のためFisher検定が必須。
効果量の併記
- p値だけでなく、オッズ比や相対リスクを提示。
- 臨床的意義を明示することが規制当局対応でも重要。
多重性
多数のカテゴリーを同時に検定する場合は、多重性調整を考慮。
まとめ
今回は分割表についてそれの代表的な検定であるカイ二乗検定について解説いたしました。分割表の独立性検定は、臨床試験や市販後調査においてカテゴリー変数間の関連性を評価する基本手法です。期待度数の算出とカイ二乗統計量に基づき、独立性を検証します。Rではchisq.testやfisher.testで簡便に実装でき、効果量の併記により臨床的解釈も強化されます。製薬実務では小標本への対応、多重性の管理、再現性の確保が重要であり、統計的検定を意思決定の根拠として活用することが求められます。