適合度検定の基礎と応用：数理的導出からR実装まで

記事の目次

はじめに

製薬業界では、臨床試験データや品質試験データが「理論分布に従っているか」を確認する場面が多くあります。例えば、

臨床試験の統計解析：生存時間が指数分布やワイブル分布に従うかを確認する。
品質管理：製剤の不良率が二項分布に従うかを検証する。
規制当局への申請資料：統計的仮定の妥当性を示すために分布適合性を確認する。

このような背景から、適合度検定（Goodness-of-Fit Test）は製薬統計において利用されることがあります。本稿では、代表的なカイ二乗適合度検定を中心に、数理的導出からRでの実装までを解説します。

適合度検定の数理的背景

設定

観測データがカテゴリに分類され、それぞれのカテゴリに属する確率が理論的に与えられているとします。

観測度数：$O_i \quad (i=1,\dots,k)$
期待度数：$E_i = n p_i \quad (p_i:$ 理論確率, $\; n:$ 総サンプル数)

	$E_1$	$E_2$	$\cdots$	$E_k$	計
観測度数	$O_1$	$O_2$	$\cdots$	$O_k$	N
確率	$P_1$	$P_2$	$\cdots$	$P_k$	1
期待度数	$NP_1$	$NP_2$	$\cdots$	$NP_k$	N

帰無仮説は次のように表されます：

\[H_0: \text{データは理論分布 } (p_1, \dots, p_k) \text{ に従う}\]

検定統計量の導出

ここで、観測度数$(O_1, O_2, …,O_k)$は多項分布に従います。

多項分布

$(X_1, X_2, …,X_k)$が多項分布に従うとする。

\[P(X_1 = x_1,…,X_k = x_k) = \frac{N!}{x_1! \cdots x_k!}P_{1}^{x_1} \cdots P_{k}^{x_k}\]

期待値:$E(X_i)=NP_i$
分散:$V(X_i)=NP_i(1 – P_i)$

k=2の時は
$$
\begin{eqnarray}
P(X_1 = x_1,X_2 = x_2)&=& \frac{N!}{x_1!x_2!}P_{1}^{x_1}P_{2}^{x_2}\\
&=& \frac{N!}{x_1!(N-x_1)!}P_{1}^{x_1}(1 – P_{1})^{N – x_1} \\(\because P_1 + P_2 =1,x_1 + x_2 =N)\\
\end{eqnarray}
$$
となり、二項分布となります。

直感的には「観測度数と期待度数の差が大きければ帰無仮説を棄却すべき」と考えられます。そこで次の統計量が導かれます：

\[X^2 = \sum_{i=1}^k \frac{(O_i – E_i)^2}{E_i}\]

これはピアソンのカイ二乗統計量と呼ばれます。これが帰無仮説の下では近似的に$\chi^2_{(k-1)}$に従うことを利用して検定を行います。

漸近分布

中心極限定理により、$X^2$ は漸近的に自由度 $k-1$ のカイ二乗分布に従います。
ただし、パラメータを推定している場合は自由度が減少し、

\[\text{df} = k – 1 – m\]

（m: 推定したパラメータ数）となります。

製薬業界での実務的意義

臨床試験データ

例：生存時間が指数分布に従うかを確認することで、Cox比例ハザードモデルの妥当性を補強できる。
規制的意義：分布仮定が不適切であれば、治療効果推定にバイアスが生じる可能性がある。

品質管理

例：製造ロットごとの不良品数が二項分布に従うかを確認する。
意義：工程能力の評価や逸脱調査に直結する。

規制当局とのやり取り

FDAやPMDAへの申請資料では、統計的仮定の裏付けを示すことが求められる場合がある。適合度検定はその一助となる。

Rによる実装例

例えば、ある製剤ロットで100錠を抜き取り、不良品数が以下のように観測されたとします：

#観測度数（不良品数: 0,1,2,3）
observed <- c(72, 20, 7, 1)

#二項分布 Binomial(n=3, p=0.1) に従うかを検定
expected_prob <- dbinom(0:3, size = 3, prob = 0.1)

chisq.test(x = observed, p = expected_prob)

結果

    Chi-squared test for given probabilities

data: observed
X-squared = 15.72, df = 3, p-value = 0.001294

今回は不良品数が二項分布 Binomial(n=3, p=0.1) に従うかを検定しました。
結果として、有意であったことから、観測データと理論分布の乖離が有意に大きいといえます。ここから、「不良品率が想定より高い／低い」「分布形が異なる」可能性がある。実務的には「工程に異常がある」「モデル化の仮定が不適切」といったシグナルになります。

このように、二項分布やポアソン分布の適合性を確認することで、工程の安定性や逸脱の有無を統計的に評価できます。

期待度数が小さい場合$（E_i < 5）$：カイ二乗近似が不正確になるため、カテゴリをまとめるか、Fisherの正確検定（Fisher Exact Test）を検討する。
連続分布の場合：ヒストグラムに区切ってカイ二乗検定を行うか、Kolmogorov-Smirnov検定などを用いる。

まとめ

今回は適合度検定について解説いたしました。適合度検定は、観測データが理論分布に従うかを統計的に確認する基本手法であり、製薬業界では臨床試験の仮定検証や品質管理に直結します。Rを用いれば容易に実装でき、工程の安定性や規制当局への説明にも有用です。ただし期待度数が小さい場合や連続分布では他の検定を選択する必要があり、単なるp値解釈にとどまらず前提条件や実務的意義を踏まえた判断が重要です。

分割表生物統計統計検定製薬業界適合度検定

	\(E_1\)	\(E_2\)	\(\cdots\)	\(E_k\)	計
観測度数	\(O_1\)	\(O_2\)	\(\cdots\)	\(O_k\)	N
確率	\(P_1\)	\(P_2\)	\(\cdots\)	\(P_k\)	1
期待度数	\(NP_1\)	\(NP_2\)	\(\cdots\)	\(NP_k\)	N

適合度検定の基礎と応用：数理的導出からR実装まで

はじめに

適合度検定の数理的背景

設定

検定統計量の導出

漸近分布

製薬業界での実務的意義

Rによる実装例

まとめ

COMMENT コメントをキャンセル

FDAガイダンスを踏まえたランダム化比較試験の共変量調整(導入)

MMRMをSASとR言語で実装するための実践ガイド

ICH E16 をやさしく理解する：バイオマーカー適格性確認ガイドラインのポイント解説

検証的試験における日本人データの必要性と、国際共同治験での症例数設定の考え方

RMST による調整解析と症例数設計を徹底解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

Cox比例ハザードモデル入門〜数式から実務応用まで〜

一般線形モデルと一般化線形モデルの違いを徹底解説

ログランク(log-rank)検定を徹底解説

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで

はじめに

適合度検定の数理的背景

設定

検定統計量の導出

漸近分布

製薬業界での実務的意義

Rによる実装例

まとめ

平均への回帰とは何か：統計学初学者のためのやさしい解説

AIC/BICの“本質”を数理統計から理解する：KL情報量・事後確率との接続

モデル選択の基礎：AIC・BICを“情報量”として理解する— 過学習を避け、汎化性能を高めるための実務的ガイド —

二値エンドポイントの単群臨床試験におけるベイズ流デザイン入門―小規模試験でも柔軟に意思決定できる統計的アプローチ―

製薬業界におけるFisherの正確検定〜数理的導出からR実装まで〜

連続分布のp値と離散分布のp値、そしてmid-p値の意義―製薬統計における応用を中心に―

COMMENT コメントをキャンセル

FDAガイダンスを踏まえたランダム化比較試験の共変量調整(導入)

MMRMをSASとR言語で実装するための実践ガイド

ICH E16 をやさしく理解する：バイオマーカー適格性確認ガイドラインのポイント解説

検証的試験における日本人データの必要性と、国際共同治験での症例数設定の考え方

RMST による調整解析と症例数設計を徹底解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

Cox比例ハザードモデル入門〜数式から実務応用まで〜

一般線形モデルと一般化線形モデルの違いを徹底解説

ログランク(log-rank)検定を徹底解説

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで