分割表の独立性の検定：製薬統計の現場での理論と実装

記事の目次

はじめに

臨床試験や市販後調査の現場では、カテゴリー変数同士の関連性を検討する場面が頻繁に現れます。たとえば「治療群と有害事象の発生は独立か」「施設と治療成功率は独立か」といった問いです。これらは分割表（contingency table）を用いて整理され、独立性の検定によって統計的に評価されます。
本稿では、数理的な導出、Rによる実装例、製薬業界での実務的な留意点を体系的に解説します。特に「再現可能なコード」と「臨床試験での解釈」を重視し、実務に直結する形でまとめます。

分割表と独立性の考え方

まずは分割表についてと独立性の考え方について解説していきます。

分割表の定義

分割表は、2つ以上のカテゴリー変数の組み合わせごとに観測度数を整理した表です。
例：治療群（T/C）×有害事象（Yes/No）の2×2表。

	AEあり	AEなし	合計
治療群T	48	12	60
治療群C	36	24	60
合計	84	36	120

独立性の帰無仮説

帰無仮説 $H_0$: 行変数と列変数は独立である。
対立仮説 $H_1$: 独立ではない（関連がある）。

独立とは、確率的に「行と列の同時確率が周辺確率の積に等しい」ことを意味します。

例えば、以下のような確率のカテゴリの場合を想定します。

	$B_{1}$	$B_{2}$		$B_{c}$
$A_{1}$	$P_{11}$	$P_{12}$	$\cdots$	$P_{1.}$
$A_{2}$	$P_{21}$	$P_{2}$	$\cdots$	$P_{2.}$
$\vdots$	$\vdots$	$\vdots$		$\vdots$
$A_{r}$	$P_{r1}$	$P_{r2}$	$\cdots$	$P_{r.}$
	$P_{.1}$	$P_{.2}$		1

\[P(X = i , Y = j) = P_{ij}\]

周辺確率:
\[P(X = i) = \sum_{j=1}^{c}P(X = i, Y = j) = \sum_{j=1}^{c}P_{ij} =P_{i.}\]
\[P(Y = j) = \sum_{i=1}^{r}P(X = i, Y = j) = \sum_{i=1}^{r}P_{ij} =P_{.j}\]

この時、以下のような仮説を立てることもできます。

帰無仮説 $H_0: P_{ij} = P_{i.}P_{.j} (i=1 ,…, r ; j=1 ,…, c ) $
対立仮説 $H_1$: 独立ではない（関連がある）。

数理的導出

記法

$X_{ij}$: セル (i,j) の観測度数
$x_{i.}$: 行合計
$x_{.j}$: 列合計
N: 総計

Pearson のカイ二乗統計量は

\[X^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(X_{ij} – E_{ij})^2}{E_{ij}}\]

ここで$H_0$の下での$P_{ij}$の最尤推定量を求めていきます。

$X_{ij}$は多項分布$M(N;{P_{ij}})$に従います。

多項分布については下記記事で紹介しておりますので、ご参考ください。

適合度検定の基礎と応用：数理的導出からR実装まで代表的なカイ二乗適合度検定を中心に、数理的導出からRでの実装までを解説します。...

\[P(X_{ij} = x_{ij} (i=1,…,r ; j=1,…,c)) = \frac{N}{\prod_{i=1}^{r}\prod_{j=1}^{c}x_{ij}!}\prod_{i=1}^{r}\prod_{j=1}^{c}p_{ij}^{x_{ij}}\]

このとき対数尤度は

\[log L = C + \sum_{i=1}^{r}\sum_{j=1}^{c}x_{ij}logp_{ij}\]

条件として、$H_0 : p_{ij} = p_{i.}p_{.j}$の下であるので、

$$
\begin{eqnarray}
log L &=& C + \sum_{i=1}^{r}\sum_{j=1}^{c}x_{ij}logp_{i.}p_{.j}\\
&=& C + \sum_{i=1}^{r}x_{i.}logp_{i.} + \sum_{j=1}^{c}x_{.j}logp_{.j}\\
\end{eqnarray}
$$

ここで、以下の条件の下でlog Lを最大化する$\hat{p_{i.}}$と$\hat{p_{.j}}$を求めていくことを考えます。

\[p_{1.} + \cdots + p_{r.} = 1 \leftrightarrow \sum_{i=1}^{r}p_{i.} – 1 = 0\]
\[p_{.1} + \cdots + p_{.r} = 1 \leftrightarrow \sum_{j=1}^{c}p_{.j} – 1 = 0\]

そこでラグランジュの未定乗数法という方法を用いていきます。

ラグランジュの未定乗数法

$L(x,y,\lambda)=f(x,y)−\lambda g(x,y)$

とおくと，

$(\alpha,\beta$が極値を与えるならば，$(\alpha,\beta)$は

$\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0$の解。

または

$\frac{\partial g}{\partial x}=\frac{\partial g}{\partial y}=0$ の解。

\[L^{*} = C + \sum_{i=1}^{r}x_{i.}logp_{i.} + \sum_{j=1}^{c}x_{.j}logp_{.j} – \phi_{1}(\sum_{i=1}^{r}p_{i.} – 1) – \phi_{2}(\sum_{j=1}^{c}p_{.j} – 1)\]

ここで、$p_{i.},p_{.j}$について微分して、

\[\frac{\partial L^{*}}{\partial p_{i.}} = \frac{x_{i.}}{p_{i.}} – \phi_{1} (\equiv 0) \leftrightarrow x_{i.} – \phi_{1}p_{i.} = 0 \]
\[\frac{\partial L^{*}}{\partial p_{.j}} = \frac{x_{.j}}{p_{.j}} – \phi_{2} (\equiv 0) \leftrightarrow x_{.j} – \phi_{2}p_{.j} = 0\]

これらの式より、

\[\sum_{i=1}^{r}x_{i.} – \phi_{1}\sum_{i=1}^{r}p_{i.} = 0 \leftrightarrow \phi_{1} = N\]
\[\sum_{j=1}^{c}x_{.j} – \phi_{2}\sum_{j=1}^{c}p_{.j} = 0 \leftrightarrow \phi_{2} = N\]

したがって、それぞれの式に代入すると、

\[\hat{p_{i.}} = \frac{x_{i.}}{N} (i=1,…,r)\]
\[\hat{p_{.j}} = \frac{x_{.j}}{N} (j=1,…,c)\]

よって、$H_0$の下での$p_{ij}$の最尤推定量は、

\[\hat{p_{ij}} = \hat{p_{i.}}\hat{p_{.j}} = \frac{x_{i.}}{N}\frac{x_{.j}}{N}\]

$E_{ij} = \hat{p_{ij}} = \hat{p_{i.}}\hat{p_{.j}} = \frac{x_{i.}}{N}\frac{x_{.j}}{N}$は期待度数といいます。

改めて、カイ二乗統計量は以下のように表すことができます。

\[X^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(X_{ij} – E_{ij})^2}{E_{ij}} = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(X_{ij} – \frac{x_{i.}}{N}\frac{x_{.j}}{N})^2}{\frac{x_{i.}}{N}\frac{x_{.j}}{N}}\]

Rによる実装例

分割表の作成

#2×2の例
tab <- matrix(c(48, 12,
36, 24),
nrow = 2, byrow = TRUE)
dimnames(tab) <- list(Arm = c(“T”, “C”),
AE = c(“Yes”, “No”))
tab

カイ二乗検定

chisq.test(tab, correct = FALSE) # 補正なし

出力例

Pearson's Chi-squared test

data: tab
X-squared = 4.8, df = 1, p-value = 0.028

解釈： p値が0.05未満なので「治療群とAE発生は独立でない」と結論。

製薬業界での実務的留意点

ランダム化のバランス確認

治療群×施設の分割表で独立性を確認。
偏りがあれば層別解析や共変量調整を検討。

有害事象解析

群×AE発生有無の表で独立性を確認。
まれなAEでは小標本のためFisher検定が必須。

効果量の併記

p値だけでなく、オッズ比や相対リスクを提示。
臨床的意義を明示することが規制当局対応でも重要。

多重性

多数のカテゴリーを同時に検定する場合は、多重性調整を考慮。

まとめ

今回は分割表についてそれの代表的な検定であるカイ二乗検定について解説いたしました。分割表の独立性検定は、臨床試験や市販後調査においてカテゴリー変数間の関連性を評価する基本手法です。期待度数の算出とカイ二乗統計量に基づき、独立性を検証します。Rではchisq.testやfisher.testで簡便に実装でき、効果量の併記により臨床的解釈も強化されます。製薬実務では小標本への対応、多重性の管理、再現性の確保が重要であり、統計的検定を意思決定の根拠として活用することが求められます。

カイ二乗検定分割表独立性の検定生物統計統計検定製薬業界

	\(B_{1}\)	\(B_{2}\)		\(B_{c}\)
\(A_{1}\)	\(P_{11}\)	\(P_{12}\)	\(\cdots\)	\(P_{1.}\)
\(A_{2}\)	\(P_{21}\)	\(P_{2}\)	\(\cdots\)	\(P_{2.}\)
\(\vdots\)	\(\vdots\)	\(\vdots\)		\(\vdots\)
\(A_{r}\)	\(P_{r1}\)	\(P_{r2}\)	\(\cdots\)	\(P_{r.}\)
	\(P_{.1}\)	\(P_{.2}\)		1

分割表の独立性の検定：製薬統計の現場での理論と実装

はじめに

分割表と独立性の考え方

分割表の定義

独立性の帰無仮説

数理的導出

Rによる実装例

製薬業界での実務的留意点

まとめ

COMMENT コメントをキャンセル

FDAガイダンスを踏まえたランダム化比較試験の共変量調整(導入)

MMRMをSASとR言語で実装するための実践ガイド

ICH E16 をやさしく理解する：バイオマーカー適格性確認ガイドラインのポイント解説

検証的試験における日本人データの必要性と、国際共同治験での症例数設定の考え方

RMST による調整解析と症例数設計を徹底解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

Cox比例ハザードモデル入門〜数式から実務応用まで〜

一般線形モデルと一般化線形モデルの違いを徹底解説

ログランク(log-rank)検定を徹底解説

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで

はじめに

分割表と独立性の考え方

分割表の定義

独立性の帰無仮説

数理的導出

Rによる実装例

製薬業界での実務的留意点

まとめ

二値エンドポイントの単群臨床試験におけるベイズ流デザイン入門―小規模試験でも柔軟に意思決定できる統計的アプローチ―

AIC/BICの“本質”を数理統計から理解する：KL情報量・事後確率との接続

ノンパラメトリック検定の代表格：ウィルコクソン検定の数理と実装

Kolmogorov–Smirnov検定：平均の差だけでは見えない「分布の違い」をとらえる方法

ベイズ統計の仮説検定と頻度論的仮説検定の違いを徹底解説

t検定の数理的導出とRによる実装例

COMMENT コメントをキャンセル

FDAガイダンスを踏まえたランダム化比較試験の共変量調整(導入)

MMRMをSASとR言語で実装するための実践ガイド

ICH E16 をやさしく理解する：バイオマーカー適格性確認ガイドラインのポイント解説

検証的試験における日本人データの必要性と、国際共同治験での症例数設定の考え方

RMST による調整解析と症例数設計を徹底解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

Cox比例ハザードモデル入門〜数式から実務応用まで〜

一般線形モデルと一般化線形モデルの違いを徹底解説

ログランク(log-rank)検定を徹底解説

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで