はじめに

相関係数といえば、まず思い浮かぶのはピアソンの相関係数でしょう。しかし、実務のデータ分析では「直線的ではない関係」や「外れ値が混じるデータ」「順位データ」など、ピアソン相関ではうまく捉えられないケースが多く存在します。
そこで活躍するのが スペアマンの順位相関係数(Spearman’s rank correlation coefficient) です。
この記事では、なぜ順位相関が必要なのか、どのように計算するのか、ピアソン相関との違い、実務での活用例、Rコードでの実装までわかりやすく解説します。

下記記事では母集団が2変量正規分布で仮定されている場合の時の検定や信頼区間を紹介しておりますので、是非ご一読ください。

母相関係数の検定と信頼区間、二つの母相関係数の検定をやさしく解説 はじめに 相関係数は「2つの変数の関係」を測る、とても身近で重要な指標です。しかし、 「相関係数が 0.4 って、統計的...

スペアマンの順位相関係数とは

スペアマンの順位相関係数(Spearman’s ρ)は、
2つの変数の“単調な関係”の強さを測る指標です。

  • ピアソン相関:直線的な関係を測る
  • スペアマン相関:順位に基づく単調関係を測る

つまり、データが直線に乗っていなくても、「X が増えると Y も増える(または減る)」という関係があれば高い相関を示します。

なぜ順位相関が必要なのか

実際のデータ分析では、次のような状況が頻繁に起こります。

  • 外れ値が混じる
    外れ値が1つあるだけで、ピアソン相関は大きく歪みます。順位に変換すれば外れ値の影響はほぼ消えます。
  • 非線形の関係
    例えば、右上がりの曲線関係はピアソン相関では弱く見えることがあります。
  • 尺度が異なる
    例:満足度(5段階)と売上金額→ 単位が違っても順位にすれば比較可能。
  • 順位データそのもの
    例:アンケートの順位評価、模試の順位→ まさにスペアマン相関の出番。

計算方法

スペアマン相関係数 ρ は次の式で定義されます。

\[\rho =1-\frac{6\sum d_i^2}{n(n^2-1)}\]

  • n:データ数
  • \(d_i=R(x_i)-R(y_i)\):各データの順位差

順位の差が小さいほど ρ は 1 に近づき、差が大きいほど ρ は -1 に近づきます。

ρ の値解釈
0.0〜0.2ほぼ無相関
0.2〜0.4弱い相関
0.4〜0.7中程度の相関
0.7〜1.0強い相関

ただし、相関は因果を意味しない点には注意が必要です。

具体例

次の5名のテスト結果を例にします。

生徒国語数学
A7090
B8060
C9095
D6070
E5040

① 順位に変換

生徒国語順位数学順位
A3位2位
B2位4位
C1位2位
D4位3位
E5位5位

順位差 \(d_i\) と \(d_{i}^{2}\)

生徒\(d_i\)\(d_{i}^{2}\)
A11
B-24
C00
D11
E00

\[\sum d_i^2=6\]

③ 公式に代入

\[\rho =1-\frac{6\cdot 6}{5(25-1)}\]

\[\rho =1-\frac{36}{120}=0.7\]

国語と数学には中程度の正の単調関係があるとわかります。

ピアソン相関との違い

特徴ピアソン相関スペアマン相関
測る関係直線的単調
外れ値の影響大きい小さい
非線形データ苦手得意
順位データ不向き最適
スペアマン相関の特徴
  • 外れ値に強い
  • 非線形でも使える
  • 尺度が違ってもOK
  • 順位データに最適
  • 解釈が直感的(順位差を見るだけ)

実務での活用例

① アンケート分析

満足度(5段階)とリピート意向(5段階)
→ 順位データなのでスペアマン相関が適切。

② マーケティング

商品評価順位と売上順位
→ 順位データ同士の相関。

③ 医療統計

症状の重症度スコアと医師の主観評価
→ 尺度が異なるため順位相関が有効。

④ 教育データ

模試の順位と本番試験の順位
→ 典型的な利用シーン。

Rでの計算例

x <- c(70, 80, 90, 60, 50)
y <- c(90, 60, 95, 70, 40)

cor(x, y, method = “spearman”)

R では method="spearman" を指定するだけで計算できます。

まとめ

スペアマンの順位相関係数は、データを順位に変換して単調な関係の強さを測る指標であり、外れ値の影響を受けにくく、非線形の関係や尺度の異なるデータにも柔軟に対応できる点が大きな特徴です。ピアソン相関が「直線的な関係」を前提とするのに対し、スペアマン相関は「増えれば増える」「減れば減る」といった単調性に着目するため、実務で遭遇する複雑なデータ構造をより適切に捉えることができます。
アンケートの順位評価、医療の重症度スコア、マーケティングのランキングデータ、教育分野の模試順位など、順位情報が中心となる場面では特に有効で、外れ値や非線形性が気になる場合にも安心して利用できます。計算方法もシンプルで、順位差の二乗和を用いるだけで求められるため、手計算でも直感的に理解しやすい指標です。
相関係数は因果関係を示すものではありませんが、データの関係性を把握するうえでスペアマン相関は非常に強力なツールです。ピアソン相関と併用することで、データの構造をより多面的に理解でき、分析の質を高めることにつながります。実務でも学術でも活躍する汎用性の高い指標として、ぜひ積極的に活用していきたいところです。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。