💡 この記事でわかること
・確率過程とマルコフ連鎖の基礎(マルコフ性・推移確率行列・チャップマン–コルモゴロフ方程式)
・定常分布・極限分布の意味と具体的な求め方
・ポアソン過程と指数分布の関係、イベント発生のモデリング
・Rでの確認方法と、統計検定準1級における典型的な出題パターン

はじめに

確率過程(時間とともに変化する確率現象を記述する数学的枠組み)は、統計検定準1級の出題範囲に含まれる重要テーマであり、多くの受験者が苦手意識を抱く分野でもあります。とりわけ、マルコフ連鎖・定常分布・ポアソン過程の3つは繰り返し問われる頻出項目であり、ここを得点源にできるかどうかが合否を左右すると言っても過言ではありません。

加えて、確率過程の理解は試験対策にとどまらず、製薬・生物統計の実務でも極めて重要になります。ベイズ統計で広く用いられる MCMC(マルコフ連鎖モンテカルロ)法はマルコフ連鎖そのものを土台としていますし、生存時間解析における事象の発生や、有害事象・来院イベントの発生回数のモデリングには、ポアソン過程と指数分布の知識が直接結びついてきます。

本記事では、確率過程の基礎概念から、定常分布・極限分布の求め方、ポアソン過程と指数分布の関係までを順に整理し、さらに R による確認方法と準1級の典型出題への対策まで、つまずきやすいポイントを補足しながら解説します。

確率過程とマルコフ連鎖の基礎

確率過程とは、時間 \(t\) とともに変化する確率変数の族 \(\{X_t\}\) のことを指します。本記事では、時間が \(0,1,2,\dots\) と離散的に進み、状態も有限個(あるいは可算個)である「離散時間・離散状態のマルコフ連鎖」に絞って解説します。

マルコフ連鎖の最大の特徴は、マルコフ性(無記憶性)と呼ばれる次の性質を満たすことです。

\[ P(X_{n+1}=j \mid X_n=i, X_{n-1},\dots,X_0)=P(X_{n+1}=j \mid X_n=i) \]

これは「次の時点の状態は、現在の状態 \(i\) のみに依存し、それより過去にどのような経路をたどってきたかには一切依存しない」ことを意味します。過去の履歴をすべて忘れて現在だけで未来が決まる、という性質が確率過程の解析を大きく簡単にしてくれます。

現在の状態 \(i\) から次に状態 \(j\) へ移る確率 \(P_{ij}=P(X_{n+1}=j \mid X_n=i)\) を要素に並べた行列を、推移確率行列 \(P=(P_{ij})\) と呼びます。各行は「ある状態から各状態へ移る確率」を表すため、どの行についても要素の和は必ず1になります(このような行列を確率行列といいます)。下図のように状態間の遷移を矢印と確率で表すと直感的に理解できます。

では、現在状態 \(i\) から \(n\) ステップ後に状態 \(j\) にいる確率(n段推移確率)はどう求めればよいのでしょうか。これを与えるのがチャップマン–コルモゴロフ方程式で、結論として n段推移確率は推移確率行列 \(P\) を \(n\) 乗した行列の \((i,j)\) 成分として得られます。

\[ P^{(n)}_{ij}=(P^n)_{ij} \]

つまり、1ステップの推移確率行列さえわかれば、その累乗を計算するだけで任意ステップ後の状態確率を求められるということです。

さらに、マルコフ連鎖では状態の性質を分類して扱います。どの状態からどの状態へも有限ステップで到達できる連鎖を既約といいます。各状態は、いつか必ず戻ってくる再帰的な状態と、戻ってこない可能性がある過渡的な状態に分けられます。また、ある状態に戻るまでのステップ数が常に特定の数の倍数になる場合、その状態は周期性を持つといい、そうでない場合を非周期的といいます。これらの性質は、後述する定常分布・極限分布が存在するかどうかを判定するうえで重要になります。

用語記号意味
マルコフ性未来は現在のみに依存し、過去によらない性質
推移確率行列\(P\)状態 \(i\) から \(j\) への推移確率を並べた行列(各行の和は1)
n段推移確率\(P^n\)\(n\) ステップ後の推移確率を与える行列(\(P\) の \(n\) 乗)
既約どの状態からどの状態へも到達可能であること
周期性\(d(i)\)同じ状態に戻るステップ数が特定の数の倍数に限られる性質

定常分布と極限分布の求め方

マルコフ連鎖の長期的なふるまいを記述するのが定常分布(stationary distribution、時間が経っても変化しない分布)です。状態の確率分布を表す行ベクトル \(\pi=(\pi_1,\pi_2,\dots)\) が、推移確率行列 \(P\) に対して次を満たすとき、\(\pi\) を定常分布と呼びます。

\[ \pi P=\pi,\quad \sum_i \pi_i=1 \]

これは「一度この分布になれば、さらに1ステップ進めても分布が変わらない(時間が経っても変化しない)」ことを意味します。ここで \(\pi\) は行ベクトルであり、左から \(P\) に掛ける点がポイントです。

具体例で求めてみましょう。状態 S(晴れ)と R(雨)の2状態を考え、推移確率行列を次のように置きます。

\[ P=\begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix} \]

\(\pi=(\pi_S,\pi_R)\) として \(\pi P=\pi\) を成分で書くと、第1成分の式は次のようになります。

\[ \pi_S = 0.8\,\pi_S + 0.4\,\pi_R \]

これを整理すると \(0.2\,\pi_S = 0.4\,\pi_R\)、すなわち \(\pi_S = 2\,\pi_R\) が得られます。規格化条件 \(\pi_S+\pi_R=1\) に代入すると \(2\pi_R+\pi_R=1\) より \(\pi_R=1/3\)、よって次の定常分布が得られます。

\[ \pi=\left(\tfrac{2}{3},\ \tfrac{1}{3}\right)\approx(0.667,\ 0.333) \]

この定常分布は、極限分布(limiting distribution)とも深く関係します。マルコフ連鎖が既約(どの状態からどの状態へもいずれ到達できる)かつ非周期的、すなわちエルゴード的であるとき、初期分布によらず

\[ \lim_{n\to\infty} P^{(n)}_{ij}=\pi_j \]

が成り立ち、一意な定常分布がそのまま極限分布になります。逆に周期性がある場合(例えば2状態を交互に往復するだけの連鎖)は、\(P^{(n)}\) が一つの値に収束せず、極限分布が存在しないことがあります。

📝 解釈・補足
定常分布は「\(P\) の固有値1に対応する左固有ベクトルを、成分の和が1になるように正規化したもの」と見ることもできます。\(\pi P=\pi\) は \(\pi(P-I)=0\) と同値であり、線形代数の固有ベクトル問題として扱えるわけです。
⚠️ 注意
定常分布は \(\pi\) を行ベクトルとして左から掛ける \(\pi P=\pi\) で定義されます。列ベクトルとして \(P\pi=\pi\)(右固有ベクトル)と取り違えると、得られる方程式も答えも変わってしまいます。行ベクトル×行列の向きを必ず確認してください。

ポアソン過程と指数分布

ランダムに発生するイベント(事故の発生、来院、放射性崩壊など)の回数をモデル化する代表的な確率過程がポアソン過程(Poisson process)です。強度(到着率)\(\lambda\) のポアソン過程は、重ならない時間区間でのイベント数が互いに独立(独立増分)で、かつその分布が区間の位置によらず長さだけで決まる(定常増分)という性質をもち、時間区間 \((0,t]\) に発生するイベント数 \(N(t)\) が次のポアソン分布に従います。

\[ P(N(t)=k)=\frac{(\lambda t)^k e^{-\lambda t}}{k!} \]

このとき、区間内のイベント数の平均は \(E[N(t)]=\lambda t\) となります。

イベントとイベントの間隔(待ち時間、到着間隔)\(T\) に注目すると、これは強度 \(\lambda\) の指数分布 \(\mathrm{Exp}(\lambda)\) に従います。

\[ P(T>t)=e^{-\lambda t},\quad E[T]=\frac{1}{\lambda} \]

指数分布の重要な特徴が無記憶性(memorylessness)です。

\[ P(T>s+t \mid T>s)=P(T>t) \]

これは「すでに \(s\) だけ待ったという情報は、その先さらに待つ時間の分布に一切影響しない」ことを表します。連続分布の中でこの性質をもつのは指数分布だけであり、ポアソン過程の「過去を引きずらない」性質の源になっています。

さらに、\(k\) 個目のイベントが発生するまでの時間は、独立な指数分布の和になります。これは形状パラメータ \(k\)・尺度パラメータ \(1/\lambda\) のガンマ分布(整数の形状パラメータをもつ場合は特にアーラン分布と呼びます)に従い、その平均は \(k/\lambda\) です。

対象分布平均
区間内イベント数 \(N(t)\)ポアソン分布 \(\mathrm{Po}(\lambda t)\)\(\lambda t\)
到着間隔 \(T\)指数分布 \(\mathrm{Exp}(\lambda)\)\(1/\lambda\)
\(k\) 番目までの時間ガンマ(アーラン)分布\(k/\lambda\)

下図のように、ランダムな間隔でイベントが次々と発生する様子をイメージすると理解しやすくなります。

Rで確かめる確率過程

ここまで手計算で求めてきたマルコフ連鎖の定常分布やポアソン過程の性質を、Rを使って数値的に確認してみましょう。理論で導いた値とシミュレーション・数値計算の結果が一致することを確かめると、出題内容の理解がより確実になります。ここでは「晴れ→晴れの確率0.8、雨→晴れの確率0.4」という2状態(晴れ・雨)の天気モデルを例に進めます。

まず、推移確率行列を累乗して定常分布への収束を確認します。 1ステップの推移確率行列 \(P\) を何度も掛け合わせて \(P^n\) を計算すると、\(n\) が大きくなるにつれて各行が同じ値に近づいていきます。この収束先が定常分布です。expm パッケージの %^% 演算子を使うと、行列の累乗を簡単に計算できます。

library(expm)
P <- matrix(c(0.8, 0.2,
              0.4, 0.6), nrow = 2, byrow = TRUE)
P %^% 2     # 2ステップ後
P %^% 10    # 10ステップ後
> P %^% 2
     [,1] [,2]
[1,] 0.72 0.28
[2,] 0.56 0.44
> P %^% 10
          [,1]      [,2]
[1,] 0.6666667 0.3333333
[2,] 0.6666667 0.3333333
📝 解釈・補足
2ステップ後の \(P^2\) は1行目と2行目で値が異なりますが、10ステップ後の \(P^{10}\) では1行目・2行目ともに \((0.6666667,\ 0.3333333)\) でほぼ一致しています。これは、晴れから出発しても雨から出発しても、十分時間が経てば同じ分布に落ち着くことを意味します。この収束先こそが定常分布 \(\pi=(2/3,\ 1/3)\approx(0.667,\ 0.333)\) であり、手計算で求めた値と完全に一致しています。

次に、固有ベクトルを使って定常分布を直接求めます。 定常分布の定義式 \(\pi P=\pi\) は、「\(\pi\) が固有値1に対応する \(P\) の左固有ベクトルである」ことと同値です。Rの eigen() は右固有ベクトルを返すため、転置行列 \(P^{\top}\) に対して固有値・固有ベクトルを求めます。

e <- eigen(t(P))          # 転置行列の固有値・固有ベクトル
v <- e$vectors[, 1]       # 固有値1に対応する固有ベクトル
pi_stat <- v / sum(v)     # 和が1になるよう正規化
pi_stat
> pi_stat
[1] 0.6666667 0.3333333
📝 解釈・補足
固有ベクトル法で求めた定常分布も \(\pi=(0.6667,\ 0.3333)\) となり、累乗法および手計算の結果と一致しました。ここで t(P)(転置)を使うのは、定常分布が満たす \(\pi P=\pi\) が左固有ベクトルの式であり、左固有ベクトルは転置行列 \(P^{\top}\) の右固有ベクトルとして求められるためです。正規化(和が1になるよう割る)を忘れると確率分布になりませんので注意しましょう。

最後に、ポアソン過程をシミュレーションします。 ポアソン過程は「到着間隔が独立に指数分布に従う」という性質を持ちます。そこで、指数分布から到着間隔を生成して累積していけば到着時刻の列が得られ、一定区間内のイベント数がポアソン分布に従うことを確認できます。強度 \(\lambda=2\)、観測時間 \(T=10\) とすると、区間内の平均イベント数は理論上 \(\lambda T=20\) です。

set.seed(123)
lambda <- 2; Tmax <- 10
interarrival <- rexp(1000, rate = lambda)   # 到着間隔(指数分布)
arrival <- cumsum(interarrival)             # 到着時刻
n_events <- sum(arrival <= Tmax)            # 区間[0,10]のイベント数
n_events
mean(interarrival[1:n_events])              # 平均到着間隔(理論値 1/λ = 0.5)
> n_events
[1] 19
> mean(interarrival[1:n_events])
[1] 0.4823
📝 解釈・補足
観測された区間 \([0,10]\) 内のイベント数は19件で、理論的な平均 \(\lambda T=20\) に非常に近い値となりました。また平均到着間隔は0.4823で、指数分布の期待値 \(1/\lambda=0.5\) とよく一致しています。乱数による誤差はあるものの、シミュレーション結果が理論値と整合していることが確認できます。なお、こうしたポアソン過程のモデリングは、製薬実務における有害事象の発生件数や来院イベントの発生タイミングを記述する際にも活用されます。

統計検定準1級での典型出題と攻略法

確率過程は統計検定準1級において繰り返し問われる頻出分野です。一見すると抽象的で取り組みにくい印象を受けますが、出題のパターンはおおむね4つに集約されます。逆に言えば、この4パターンの計算手順を体に染み込ませておけば、本番でも安定して得点できる「稼ぎどころ」になります。

第1のパターンは、推移確率行列の \(n\) 段推移確率です。状態間の1段階の遷移を並べた推移確率行列 \(P\) に対し、\(n\) ステップ後の遷移確率は \(P^n\) の \((i,j)\) 成分として与えられます。試験では \(P^2\) や \(P^3\) 程度までを手計算させる問題が典型で、行列の積を丁寧に計算できれば確実に得点できます。

第2は、定常分布の計算です。定常分布 \(\pi\) は連立方程式

\[ \pi P = \pi,\qquad \sum_i \pi_i = 1 \]

を満たす行ベクトルとして求めます。\(\pi P=\pi\) を成分ごとに展開し、規格化条件 \(\sum_i \pi_i = 1\) と連立させて解くのが定石です。

第3は、ポアソン過程の確率計算です。強度 \(\lambda\) のポアソン過程において、時間 \(t\) までの事象発生回数 \(N(t)\) は

\[ P(N(t)=k) = \frac{(\lambda t)^k e^{-\lambda t}}{k!} \]

に従います。来院数や故障件数などを題材に、特定回数の確率や平均 \(\lambda t\) を問う形が頻出です。

第4は、指数分布の無記憶性と到着間隔です。ポアソン過程の到着間隔は強度 \(\lambda\) の指数分布に従い、\(P(T>s+t \mid T>s)=P(T>t)\) という無記憶性が成り立ちます。この性質を使った条件付き確率の計算が問われます。

出題パターン問われ方対策のコツ
\(n\) 段推移確率\(P^n\) の特定成分を求める行列積を確実に。経路分解での検算も有効
定常分布\(\pi P=\pi\) を解く規格化条件 \(\sum\pi_i=1\) を必ず併用
ポアソン過程\(P(N(t)=k)\) の計算平均は \(\lambda t\)。指数部の \(t\) を忘れない
指数分布・到着間隔無記憶性を使った条件付き確率「過去を忘れる」性質を式で表現する
⚠️ 注意
受験者が落としやすいのは、定常分布で行ベクトルと列ベクトルの向きを取り違える点です。定常分布は左固有ベクトルにあたり、必ず \(\pi P=\pi\)(\(\pi\) を左から掛ける)の向きで立式します。\(P\pi=\pi\) と混同すると別物になってしまうため要注意です。もう一点、ポアソン過程では強度 \(\lambda\)(単位時間あたりの平均発生回数)と、時間 \(t\) までの平均発生回数 \(\lambda t\) を混同しがちです。確率計算に入れるのは常に \(\lambda t\) であることを意識してください。
🔑 まとめ・実務ポイント
確率過程は試験のためだけの知識ではありません。ベイズ統計で標準的に使われるMCMC(マルコフ連鎖モンテカルロ法)は、まさにマルコフ連鎖の定常分布が事後分布に一致するよう設計された手法であり、本記事の定常分布の考え方がそのまま土台になります。またポアソン過程は、生存時間解析における有害事象の発生や、臨床試験での来院イベント・組み入れ数のモデリングに直結します。試験対策がそのまま実務スキルにつながる、費用対効果の高い分野だと言えます。

この記事をより深く理解するための参考書籍

確率過程の出題は、まず公式テキストで全体像をつかみ、過去問で計算手順を反復するのが王道です。準1級対策として定番の2冊に加え、確率過程そのものを腰を据えて学びたい方向けの入門書を1冊紹介します。

『日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック』 日本統計学会 編(学術図書出版社)
準1級の試験範囲を32章で網羅した公式テキストです。確率過程に対応する章でマルコフ連鎖・推移確率行列・定常分布・ポアソン過程が体系的に整理されており、各章末の例題で本記事の典型出題パターンをそのまま演習できます。まずこの1冊を確率過程の軸に据えるのがおすすめです。
『日本統計学会公式認定 統計検定 準1級 公式問題集』 日本統計学会 編(実務教育出版)
準1級開始以降の過去問を全問収録・解説した唯一の公式問題集です。確率過程は計算手順を反復してこそ得点源になる分野なので、ワークブックで理解した内容を本問題集で実戦演習し、定常分布やポアソン過程の確率計算を時間内に解き切る感覚を養うのに最適です。
『確率過程の基礎』 R. デュレット 著/今野紀雄ほか 訳(丸善出版)
マルコフ連鎖から始まり、ポアソン過程・再生理論・マルチンゲール・ブラウン運動までを、細かな測度論的議論より全体の見通しを重視して解説した入門書です。試験範囲を超えて確率過程の理論的背景を理解したい方や、MCMC・イベントモデリングの土台を固めたい実務家にとって、第1章のマルコフ連鎖と定常分布の議論がとくに役立ちます。

関連記事・次のステップ

まとめ

本記事では、統計検定準1級の確率過程分野について、マルコフ連鎖の推移確率行列と \(n\) 段推移確率、定常分布を \(\pi P=\pi\) と規格化条件から求める手順、極限分布と周期性の関係、ポアソン過程の確率計算 \(P(N(t)=k)\)、そして指数分布の無記憶性と到着間隔まで、典型出題4パターンを軸に整理しました。あわせてRでの推移確率行列のべき乗計算や定常分布の数値的な確認方法にも触れ、手計算とプログラムの両面から理解を固められるよう構成しました。

確率過程は、定式化さえ覚えれば計算自体は機械的に進められる、得点効率の高い分野です。さらにその知識は試験にとどまらず、ベイズ推定のMCMC、生存時間解析や臨床イベントのモデリングといった製薬実務の現場に直結します。試験対策と実務の橋渡しとなる確率過程を確実に身につけておけば、データ解析の引き出しを大きく広げる強みになります。学習をさらに進めたい方は、上で紹介した「ベイズ統計」「時系列解析」の関連記事へと読み進めていただければと思います。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。