はじめに

統計を学び始めてしばらくすると、多くの人が「p値の壁」にぶつかります。
p値は便利ですが、実務で意思決定するための情報としては不十分です。
医薬品開発、心理学、教育、マーケティングなど、どの分野でも本当に知りたいのは次の問いです。

「どれくらい効くのか?」
「その差は臨床的に意味があるのか?」

この問いに答えるのが 効果量(Effect Size) です。
この記事では、代表的な効果量であるCohen’s d、Hedges g、オッズ比、リスク比 を整理しつつ、医薬品開発の文脈での「治療差」と「臨床的意義」の違いまで踏み込みます。

なぜ効果量が重要なのか

p値の限界:サンプルサイズに依存しすぎる

p値は「差が偶然かどうか」を評価する指標ですが、次のような問題があります。

  • サンプルサイズが大きいと、ごく小さな差でも有意になる
  • サンプルサイズが小さいと、大きな差でも有意にならない
  • 差の大きさ(効果の大きさ)を教えてくれない

例:同じ差でも p 値は大きく変わる

研究n平均差p値
A10,0000.1p < 0.001
B205.0p = 0.07

Aは有意だが差は小さい。
Bは非有意だが差は大きい。

どちらが実務的に重要か?多くの場合、Bの方が意味のある差を示しています。

ここで必要なのが効果量 です。

効果量とは何か

効果量(Effect Size)は、群間の差の大きさを標準化して表す指標です。

  • 平均値の差を標準偏差で割る(Cohen’s d / Hedges g)
  • リスクの比率で表す(リスク比)
  • 確率の比率で表す(オッズ比)

効果量は次の特徴を持ちます。

  • サンプルサイズに依存しない
  • 研究間で比較しやすい
  • 実務的な意思決定に使える

平均差の効果量:Cohen’s d と Hedges g

Cohen’s d

2群の平均差を標準偏差で割ったものです。

\[d=\frac{\bar {X}_1-\bar {X}_2}{s_{\mathrm{pooled}}}\]

\[s_{\mathrm{pooled}}=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}\]

Hedges g

Cohen’s d は小標本でバイアスが生じるため、Hedges g はその補正を行います。

\[g=J\cdot d\]

\[J=1-\frac{3}{4(n_1+n_2)-9}\]

n が小さい研究(n < 20)では、Hedges g の方が推奨されます。

二値アウトカムの効果量:オッズ比とリスク比

医薬品開発では、二値アウトカム(治った / 治らない、イベントあり / なし)が多く扱われます。

リスク比(Risk Ratio, RR)

\[RR=\frac{P(\mathrm{イベント|治療群})}{P(\mathrm{イベント|対照群})}\]

例:
治療群 20%
対照群 40%

\[RR=\frac{0.20}{0.40}=0.5\]

→ 治療群のリスクは対照群の 半分

/

オッズ比(Odds Ratio, OR)

\[OR=\frac{\frac{p_1}{1-p_1}}{\frac{p_2}{1-p_2}}\]

例:
治療群 20% → オッズ = 0.25
対照群 40% → オッズ = 0.67

\[OR=\frac{0.25}{0.67}\approx 0.37\]

RR と OR の違い

イベント率が低い場合(<10%)
RR ≈ OR

イベント率が高い場合(>20%)
OR は RR より極端な値になりやすい

医薬品開発での具体例

ここでは、架空の抗炎症薬「Drug A」を例にします。

例:疼痛スコア(連続値)の改善

  • 治療群:平均改善 12、SD=10
  • 対照群:平均改善 8、SD=10

\[d=\frac{12-8}{10}=0.4\]

中程度の効果

例:副作用(発疹)の発生率(2値)

  • 治療群:5%
  • 対照群:10%

\[RR=\frac{0.05}{0.10}=0.5\]

副作用リスクが半減

\[OR=\frac{0.05/0.95}{0.10/0.90}=0.47\]

→ OR も同様に低い

p値ではなく“どれだけ効くか”を伝える重要性

医薬品開発では、次の2つを区別する必要があります。

1. 統計的有意性(p値)

  • 偶然かどうか
  • サンプルサイズに依存

2. 臨床的意義(Clinical Relevance)

  • 患者にとって意味があるか
  • 医師が治療方針を変えるレベルか
  • 既存治療との差として十分か

MCID(Minimal Clinically Important Difference)

例:疼痛スコアの MCID = 2
治療差 = 4 → 意義あり
治療差 = 1 → 意義なし

効果量は、治療差を標準化して比較可能にします。

効果量を計算するコード例(R言語)

RでCohen’s d を計算

install.packages(“effsize”)

# — パッケージの読み込み —
library(effsize)

# — データ生成 —
group1 <- rnorm(100, mean = 12, sd = 10)
group2 <- rnorm(100, mean = 8, sd = 10)

# — Cohen’s d の計算 —
cohen.d(group1, group2)

結果

Cohen’s d

d estimate: 0.355272 (small)
95 percent confidence interval:
lower upper
0.07419518 0.63634878

→信頼区間は[0.07, 0.64]となります。

Rでオッズ比を計算

treatment <- c(5, 95) # 発疹あり / なし
control <- c(10, 90)

matrix <- matrix(c(treatment, control), nrow = 2, byrow = TRUE)
fisher.test(matrix)

結果

Fisher’s Exact Test for Count Data

data: matrix
p-value = 0.2828
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.122593 1.597972
sample estimates:
odds ratio
0.4754059

→オッズ比は約0.475となります。

効果量を使いこなすための実務的ポイント

  • p値と効果量はセットで読む
    • p値:偶然かどうか
    • 効果量:どれだけ効くか
  • 効果量の95%信頼区間を見る
    例:
    d = 0.5
    95%CI = [0.48, 0.52] → 精度が高い
    95%CI = [-0.1, 1.1] → 不確実性が大きい
  • 臨床的意義と照らし合わせる
    • 効果量が大きくても、臨床的に意味がなければ価値は低い。

まとめ

効果量(Effect Size)は、統計を「p値の有意・非有意」から解放し、“どれだけ効くのか”を定量的に語るための指標です。Cohen’s d や Hedges g は平均差を標準化して比較可能にし、オッズ比やリスク比は二値アウトカムの効果を直感的に示します。これらはサンプルサイズに依存しないため、研究間の比較やメタアナリシスにも適しています。
医薬品開発では、統計的有意性(p値)だけでは不十分であり、治療差が患者にとって意味のある改善かどうか(臨床的意義)**を判断する必要があります。MCID(Minimal Clinically Important Difference)と効果量を組み合わせることで、治療効果の大きさをより実務的に評価できます。
さらに、効果量は R や Python で簡単に計算でき、実務の解析フローに自然に組み込めます。
p値と効果量をセットで読み、95%信頼区間と臨床的意義を合わせて判断することで、統計は単なる“有意・非有意の判定”から、意思決定を支える強力なツールへと進化します。
効果量を理解することは、統計を「学問」から「実務の言語」へと変える最初の大きな一歩です。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。