はじめに
統計解析において「外れ値(outlier)」は避けて通れない課題です。外れ値はデータの平均や分散を大きく歪め、解析結果や意思決定に重大な影響を与えます。特に製薬分野では、外れ値の扱いが承認審査や品質保証に直結するため、慎重な対応が求められます。本記事では、外れ値の基本概念から代表的な検定法である Smirnov-Grubbs棄却検定 を解説し、さらにFDAやPMDAのガイドラインにおける外れ値の扱い、実務的なケーススタディを紹介します。最後にR言語での実装例も示し、実務に役立つ形でまとめます。
外れ値とは何か
- 外れ値は必ずしも「誤り」ではなく、データの多様性を示す場合もある。
- 外れ値とは、データ集合の中で他の値と比べて極端に離れている観測値。
- 原因は多様で、測定ミス、入力エラー、特殊条件下での真の値、個体差などがある。
外れ値を検出する必要性
外れ値は統計解析に以下の影響を与えます:
- 平均値を大きく歪める
- 標準偏差を増加させる
- 回帰分析の精度を低下させる
製薬分野では、外れ値を放置すると OOS(Out-of-Specification)判定につながり、承認審査や製品供給に影響するため、検出と原因調査が不可欠です。
規制当局の外れ値の考え
FDAの「Investigating Out-of-Specification (OOS) Test Results for Pharmaceutical Production」(2022年改訂版)では:
OOSが発生した場合は、試験手順・機器・試薬の確認 → 再試験 → 品質ユニットの判断という段階的プロセスが必須。
外れ値検定は「参考情報」としては有用。
- 外れ値は「統計的異常値」として扱うが、原因調査を優先。
- 外れ値を除外する場合は「科学的根拠」が必要。
- 承認申請資料では、外れ値の扱いを明確に説明することが求められる。
Smirnov-Grubbs棄却検定の概要
目的:正規分布を仮定し、最も平均から離れた値が外れ値かを検定する。
検定統計量:
\[T=\frac{|x_i-\bar {x}|}{s}\]
ここで \(\bar {x}\) は平均、\(s\) は標準偏差。
逐次的棄却:外れ値と判定された値を除外し、再度検定を繰り返す。
ケーススタディ
溶出試験での外れ値
- 10試料中1つが極端に低い値。
- Grubbs検定では外れ値と判定。
- FDAガイドラインに従い試験手順を確認 → 攪拌速度の設定ミスが原因。
- 外れ値は「試験エラー」として除外、再試験で正常値を確認。
安定性試験での外れ値
- 原料ロットの違いが原因と判明し、品質管理体制の改善につながった。
- 保存試験で1ロットだけ異常な分解率。
- 統計的には外れ値だが、PMDAは「製造条件の差異」を調査するよう指導。
R言語での実装例
Rには outliers パッケージがあり、Grubbs検定を簡単に実行できます。
# パッケージのインストール
install.packages(“outliers”)
library(outliers)
# データ例
data <- c(52, 55, 54, 53, 56, 57, 54, 55, 150, 53)
# Grubbs検定の実行
grubbs.test(data)
Grubbs test for one outlier
data: data
G = 2.89, U = 0.23, p-value = 0.01
alternative hypothesis: highest value 150 is an outlier
この結果から、有意水準5%で「150」が外れ値と判定されます。
まとめ
外れ値は統計解析に大きな影響を与えるため、検出は重要です。Smirnov-Grubbs棄却検定は正規分布を仮定し、平均から最も離れた値を逐次的に検定する方法として有用です。しかし、FDAやPMDAのガイドラインでは、外れ値検定はあくまで参考情報であり、単独で試験結果を棄却する根拠にはできません。外れ値が検出された場合は、必ず原因調査を行い、科学的根拠をもって対応することが求められます。製薬分野においては、外れ値検定とOOS調査を組み合わせ、品質保証部門の判断を加えることで、信頼性の高いデータ解析と規制対応を両立することが可能です。






