はじめに
製薬業界における臨床試験や薬剤疫学研究では、治療効果や曝露効果を評価する際にオッズ比 (odds ratio, OR) が頻繁に用いられます。特に、複数の層(例:施設、年齢群、性別など)に分けて解析する場合、Cochran-Mantel-Haenszel (CMH) 法によって「共通オッズ比」を推定するのが一般的です。
しかし、CMH法は「各層のオッズ比が等しい(均一である)」という仮定に基づいています。この仮定が破れる場合、共通オッズ比は意味を持たなくなります。そこで登場するのがBreslow-Day検定 (Breslow-Day test for homogeneity of odds ratios) です。本検定は、層ごとのオッズ比が統計的に同質かどうかを評価するために用いられます。
本稿では、数理的導入、検定統計量の導出、製薬業界での実務的意義、Rによる実装例を解説します。
数理的導入
基本設定
各層 \(k = 1, \dots, K\) において、2×2分割表を考えます。
| 治療群 (T=1) | 対照群 (T=0) | 合計 | |
| 事象あり (Y=1) | \(n_{11k}\) | \(n_{12k}\) | \(n_{1+k}\) | 
| 事象なし (Y=0) | \(n_{21k}\) | \(n_{22k}\) | \(n_{2+k}\) | 
| 合計 | \(n_{+1k}\) | \(n_{+2k}\) | \(n_{++k}\) | 
層 k におけるオッズ比は
\[\hat{\psi}_k = \frac{n_{11k} n_{22k}}{n_{12k} n_{21k}}\]
で与えられます。
帰無仮説
Breslow-Day検定の帰無仮説は
$$
\begin{eqnarray}
 \begin{cases}
 H_0: & \psi_1 = \psi_2 = \cdots = \psi_K = \psi\\
 H_1: & else
 \end{cases}
\end{eqnarray}
$$
すなわち「全ての層でオッズ比は等しい」です。
対立仮説は「少なくとも一つの層で異なるオッズ比を持つ」です。
検定統計量の導出
\(\tilde{n}_{11k}\)を第k階層における期待度数とすると、\(H_0\)の下で、\(\hat{E}(n_{11k}|\hat{\theta}_{MH}) = \tilde{n}_{11k}\)となる。
今、周辺度数の\((n_{1+k},n_{2+k},n_{+1k},n_{+2k})\)は固定した下で考えているので、\(\tilde{n}_{12k}, \tilde{n}_{21k}, \tilde{n}_{22k}\)は以下のようになる。
\[\tilde{n}_{12k}= n_{1+k} – \tilde{n}_{11k} , \tilde{n}_{21k} = n_{+1k} – \tilde{n}_{11k}\]
$$
\begin{eqnarray}
\tilde{n}_{22k} &=& n_{++k} – (\tilde{n}_{11k} + \tilde{n}_{12k} + \tilde{n}_{21k})\\
 &=& n_{++k} – \tilde{n}_{1+k} – \tilde{n}_{+1k} + \tilde{n}_{11k}\\
 &=& n_{+2k} – n_{+1k} + \tilde{n}_{11k}
\end{eqnarray}
$$
\(\tilde{n}_{11k}\)を使って、第k階層におけるオッズ比を求めると、
\[\frac{\tilde{n}_{11k}\tilde{n}_{22k}}{\tilde{n}_{21k}\tilde{n}_{21k}} = \frac{\tilde{n}_{11k}(n_{+2k} – n_{+1k} + \tilde{n}_{11k})}{(n_{1+k} – \tilde{n}_{11k})(\tilde{n}_{+1k} – \tilde{n}_{11k})} = \psi\]
(\(\because H_0\)の下で考える)
これを\(\tilde{n}_{11k}\)について解いていくと、
$$
\begin{eqnarray}
&\tilde{n}_{11k}(n_{+2k} – n_{+1k} +\tilde{n}_{11k}) = \psi(n_{+1k} -\tilde{n}_{11k})(n_{+1k} – \tilde{n}_{11k})\\
&\leftrightarrow \tilde{n}_{11k}^{2}(1 – \psi) + \tilde{n}_{11k}[n_{+2k} – n_{+1k} + \psi(n_{1+k} + n_{+1k})] – n_{1+k}n_{+1k}\psi = 0\\
&\leftrightarrow \tilde{n}_{11k} = \frac{C}{2(1 – \psi)}
\end{eqnarray}
$$
ただし、
\[C = -\psi(n_{1+k} + n_{+1k}) + n_{+1k} – n_{+2k} – \sqrt{[\psi(n_{1+k} + n_{+1k}) + n_{+2k} – n_{1+k}]^2 + 4\psi n_{1+k}n_{+1k}(1 – \psi)}\]
ここで、ピアソンのカイ2乗統計量より、
\[\chi^{2}_{BD} = \sum_{k=1}^{K}\left[\frac{(n_{11k} – \tilde{n}_{11k})^2}{\tilde{n}_{11k}} + \frac{(n_{12k} – \tilde{n}_{12k})^2}{\tilde{n}_{12k}} + \frac{(n_{21k} – \tilde{n}_{21k})^2}{\tilde{n}_{21k}} + \frac{(n_{22k} – \tilde{n}_{22k})^2}{\tilde{n}_{22k}}\right]\]
ここで、
$$
\begin{eqnarray}
n_{12k} – \tilde{n}_{12k} &=& n_{1+k} – n_{11k} – (n_{1+k} – \tilde{n}_{11k})\\
 &=& -(n_{11k} – \tilde{n}_{11k})
\end{eqnarray}
$$
よって、\((n_{12k} – \tilde{n}_{12k})^2 = (n_{11k} – \tilde{n}_{11k})^2\)
\((n_{21k} – \tilde{n}_{21k}) , (n_{22k} – \tilde{n}_{22k})\)も同様にして、
\[(n_{11k} – \tilde{n}_{11k})^2 = (n_{21k} – \tilde{n}_{21k})^2 = (n_{22k} – \tilde{n}_{22k})^2\]
したがって、
\[\chi^{2}_{BD} = \sum_{k=1}^{K}(\frac{1}{\tilde{n}_{11k}} + \frac{1}{\tilde{n}_{12k}} + \frac{1}{\tilde{n}_{21k}} + \frac{1}{\tilde{n}_{22k}})(n_{11k} – \tilde{n}_{11k})^2\]
ここで、\(H_0\)のもとで\(\chi^{2}_{BD} \sim \chi^{2}_{K-1}\)のため、有意水準\(\alpha\)とすると、以下のように検定を行う。
$$
\begin{eqnarray}
 \begin{cases}
 \chi^{2}_{BD} \ge & \chi^{2}_{K-1}(\alpha) \rightarrow H_0\text{を}reject\\
 \chi^{2}_{BD} < & \chi^{2}_{K-1}(\alpha) \rightarrow H_0\text{を}accept
 \end{cases}
\end{eqnarray}
$$
製薬業界での実務的意義
臨床試験での層別解析
多施設共同試験では、施設間で患者背景が異なることが多く、施設を層として解析するのが一般的です。このとき、施設ごとの治療効果(オッズ比)が均一であるかを確認するのにBreslow-Day検定が用いられます。
もし均一性が棄却されれば、施設間で治療効果が異なる可能性があり、共通オッズ比を解釈するのは不適切です。その場合、層別ごとの結果報告や交互作用解析が必要になります。
規制当局の視点
ICH E9(統計原則)や各国のガイドラインでも、層別解析や治療効果の一貫性評価は重要視されています。特にサブグループ解析において、Breslow-Day検定は「治療効果の一貫性を確認する」ための定量的根拠を提供します。
Rでの実装
# 各施設の2×2表を配列に格納
# m[行, 列, 層] の形式
# 行: 1=事象あり, 2=事象なし
# 列: 1=治療群, 2=対照群
m <- array(c(
12, 18, 8, 22, # 施設1
15, 25, 10, 30, # 施設2
20, 10, 15, 25 # 施設3
), dim = c(2, 2, 3))
#関数を読み込み
source(“http://aoki2.si.gunma-u.ac.jp/R/src/BD_test.R”, encoding=”euc-jp”)
#検定実行
BD.test(m)
Breslow-Day 検定data: m
chi sq. = 4.32, df = 2, p-value = 0.115
解釈:この場合、p=0.115 > 0.05 なので、層間のオッズ比の不均一性は有意ではなく、共通オッズ比を解釈してよいと判断できます。
Tarone補正
小標本や分布の偏りがある場合、Tarone補正を加えたBreslow-Day検定が推奨されることもあります。Rパッケージ metafor の rma.mh 関数などでも実装可能です。
まとめ
今回はBreslow-Day検定について解説いたしました。Breslow-Day検定は、層別オッズ比の均一性を評価する統計手法であり、臨床試験や薬剤疫学において共通オッズ比の妥当性を確認するために重要です。層間で治療効果が一貫しているかを検証することで、Cochran-Mantel-Haenszel法の前提を支え、規制当局への説明やサブグループ解析の判断材料として活用されます。Rによる実装も可能で、実務に直結する有用な検定です。












