外れ値

外れ値検出とSmirnov-Grubbs棄却検定

はじめに

統計解析において「外れ値(outlier)」は避けて通れない課題です。外れ値はデータの平均や分散を大きく歪め、解析結果や意思決定に重大な影響を与えます。特に製薬分野では、外れ値の扱いが承認審査や品質保証に直結するため、慎重な対応が求められます。本記事では、外れ値の基本概念から代表的な検定法である Smirnov-Grubbs棄却検定 を解説し、さらにFDAやPMDAのガイドラインにおける外れ値の扱い、実務的なケーススタディを紹介します。最後にR言語での実装例も示し、実務に役立つ形でまとめます。

外れ値とは何か

  • 外れ値は必ずしも「誤り」ではなく、データの多様性を示す場合もある。
  • 外れ値とは、データ集合の中で他の値と比べて極端に離れている観測値。
  • 原因は多様で、測定ミス、入力エラー、特殊条件下での真の値、個体差などがある。

外れ値を検出する必要性

外れ値は統計解析に以下の影響を与えます:

  • 平均値を大きく歪める
  • 標準偏差を増加させる
  • 回帰分析の精度を低下させる

製薬分野では、外れ値を放置すると OOS(Out-of-Specification)判定につながり、承認審査や製品供給に影響するため、検出と原因調査が不可欠です。

規制当局の外れ値の考え

FDAガイドラインにおける外れ値の扱い

FDAの「Investigating Out-of-Specification (OOS) Test Results for Pharmaceutical Production」(2022年改訂版)では:

OOSが発生した場合は、試験手順・機器・試薬の確認 → 再試験 → 品質ユニットの判断という段階的プロセスが必須。

外れ値検定は「参考情報」としては有用。

PMDA・厚労省の視点
  • 外れ値は「統計的異常値」として扱うが、原因調査を優先。
  • 外れ値を除外する場合は「科学的根拠」が必要。
  • 承認申請資料では、外れ値の扱いを明確に説明することが求められる。

Smirnov-Grubbs棄却検定の概要

目的:正規分布を仮定し、最も平均から離れた値が外れ値かを検定する。

検定統計量

\[T=\frac{|x_i-\bar {x}|}{s}\]

ここで \(\bar {x}\) は平均、\(s\) は標準偏差。

逐次的棄却:外れ値と判定された値を除外し、再度検定を繰り返す。

ケーススタディ

溶出試験での外れ値

  • 10試料中1つが極端に低い値。
  • Grubbs検定では外れ値と判定。
  • FDAガイドラインに従い試験手順を確認 → 攪拌速度の設定ミスが原因。
  • 外れ値は「試験エラー」として除外、再試験で正常値を確認。

安定性試験での外れ値

  • 原料ロットの違いが原因と判明し、品質管理体制の改善につながった。
  • 保存試験で1ロットだけ異常な分解率。
  • 統計的には外れ値だが、PMDAは「製造条件の差異」を調査するよう指導。

R言語での実装例

Rには outliers パッケージがあり、Grubbs検定を簡単に実行できます。

# パッケージのインストール
install.packages(“outliers”)
library(outliers)

# データ例
data <- c(52, 55, 54, 53, 56, 57, 54, 55, 150, 53)

# Grubbs検定の実行
grubbs.test(data)

この結果から、有意水準5%で「150」が外れ値と判定されます。

まとめ

外れ値は統計解析に大きな影響を与えるため、検出は重要です。Smirnov-Grubbs棄却検定は正規分布を仮定し、平均から最も離れた値を逐次的に検定する方法として有用です。しかし、FDAやPMDAのガイドラインでは、外れ値検定はあくまで参考情報であり、単独で試験結果を棄却する根拠にはできません。外れ値が検出された場合は、必ず原因調査を行い、科学的根拠をもって対応することが求められます。製薬分野においては、外れ値検定とOOS調査を組み合わせ、品質保証部門の判断を加えることで、信頼性の高いデータ解析と規制対応を両立することが可能です。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。