AIC/BICの“本質”を数理統計から理解する：KL情報量・事後確率との接続

記事の目次

はじめに

モデル選択の現場では、AIC や BIC は「とりあえず計算する指標」として扱われがちです。しかし、これらの基準が何を最適化しているのか、そしてどのような理論的背景を持つのかを理解すると、モデル選択の判断が格段に洗練されます。
この記事では、AIC/BIC の導出を「公式の暗記」ではなく、
・AIC＝予測誤差（KL情報量）を最小化する基準
・BIC＝事後確率最大化（ベイズモデル選択）に対応する基準
として捉え直し、実務での誤用や判断のポイントまで丁寧に解説します。
AIC,BICに関する基礎的な内容は下記で解説しておりますので、是非ご一読ください。

モデル選択の基礎：AIC・BICを“情報量”として理解する— 過学習を避け、汎化性能を高めるための実務的ガイド —AICとBICを単なる「指標」ではなく、“情報量”として理解すること...

AIC/BIC は何を最適化しているのか？

■ AIC：予測性能（KL情報量）を最小化する

AIC の本質は「真の分布 f と、モデル\( g_{\theta }\) の距離（KL情報量）を最小化する」ことです。

KL情報量とは？

真の分布 \(f(x)\) とモデル \(g_{\theta }(x)\) の距離を測る尺度：

\[\mathrm{KL}(f,g_{\theta })=\int f(x)\log \frac{f(x)}{g_{\theta }(x)}dx\]

これは「モデルが真の分布をどれだけうまく近似できているか」を測る指標。

● AIC の導出（直感）

AIC は次の形で定義されます：

\[\mathrm{AIC}=-2\log L(\hat {\theta })+2k\]

ここで

\(L(\hat {\theta })\)：最尤推定値での尤度
\(k\)：推定パラメータ数

なぜ +2k が必要なのか？
→ 尤度最大化は「当てはまり」を最大化するが、複雑なモデルほど当てはまりが良くなるため、過学習を補正するためのペナルティが必要。

AIC は、KL情報量の期待値を最小化する推定量を求める過程で、
「尤度のバイアス補正項」＝ 2k
が自然に現れる。

■ BIC：事後確率最大化（ベイズモデル選択）

BIC は次の形：

\[\mathrm{BIC}=-2\log L(\hat {\theta })+k\log n\]

AIC と似ているが、ペナルティが \(\log n\) で増える点が重要。

● BIC の導出（直感）

ベイズモデル選択では、モデル M の事後確率を最大化する：

\[p(M\mid \mathrm{data})\propto p(\mathrm{data}\mid M)p(M)\]

このうち

\[p(\mathrm{data}\mid M)=\int p(\mathrm{data}\mid \theta ,M)p(\theta \mid M)d\theta\]

をラプラス近似すると、

\[-2\log p(\mathrm{data}\mid M)\approx -2\log L(\hat {\theta })+k\log n\]

これが BIC の式そのもの。

BIC の本質

モデルの事後確率を最大化する基準
データ数が増えるとペナルティが強くなる
大標本での一貫性（consistency）を持つ
→ 真のモデルが候補に含まれていれば、BIC は必ずそれを選ぶ

AIC＝予測性能、BIC＝真のモデル選択

基準	最適化対象	特徴	適した用途
AIC	KL情報量（予測誤差）	複雑なモデルを選びやすい	予測重視
BIC	モデルの事後確率	シンプルなモデルを選びやすい	真のモデル推定

実務での誤用と対策

■ 誤用1：AIC で過度に複雑なモデルを選ぶ

AIC はペナルティが弱いため、説明変数が多い回帰モデルや高次多項式で過剰適合しやすい。

対策

AICc（小標本補正 AIC）を使う
\[\mathrm{AICc}=\mathrm{AIC}+\frac{2k(k+1)}{n-k-1}\]
クロスバリデーションと併用する
変数選択では LASSO など正則化を併用

誤用2：BIC を「予測性能の良いモデル」と誤解する

BIC は「真のモデル選択」に強いが、予測性能では AIC に劣ることが多い。

対策

予測タスクでは AIC または CV を優先
BIC は「説明の簡潔さ」を重視する場面で使う

実データで AIC/BIC が異なる結論を出すとき

これは実務で非常に頻繁に起こる。

例：線形回帰で次数を選ぶとき

AIC → 4次多項式
BIC → 2次多項式
のように結論が分かれる。

■ 判断のポイント

① 目的が「予測」なら AIC

将来データの予測誤差を最小化したい
モデルが真である必要はない
CV と整合的

② 目的が「解釈」なら BIC

どの変数が本当に効いているか知りたい
モデルの簡潔性を重視
大標本での一貫性が魅力

③ 両者の差が小さい場合は「どちらでもよい」

AIC と BIC の差が 2〜4 程度なら、実質的には同程度の支持と考えてよい。

④ モデル平均化（Model Averaging）という選択肢

AIC/BIC を重みとして、複数モデルの予測を平均する方法：

\[\hat {y}=\sum _mw_m\hat {y}_m\]

AIC重み
BIC重み
ベイズモデル平均（BMA）

などがある。

まとめ

AIC と BIC は、単なる「モデル選択のための数値」ではなく、それぞれが明確に異なる統計的思想を背景に持つ基準です。AIC は、真の分布とモデルの距離を測る KL 情報量を最小化するという観点から導かれ、将来データに対する予測性能を重視します。一方で BIC は、ベイズモデル選択における事後確率最大化に対応し、データ数が増えるほど複雑なモデルを強く罰することで、真のモデルを選び抜くことに焦点を当てています。
この違いは、実務での判断にも直結します。予測精度を最優先するなら AIC（特に小標本では AICc）が適しており、モデルの解釈性や構造の簡潔さを重視するなら BIC が有効です。両者が異なる結論を示す場面は珍しくありませんが、そのときこそ「何を目的とした分析なのか」を明確にすることが重要です。また、AIC が複雑なモデルを選びすぎる、BIC が単純化しすぎるといった誤用も起こりやすく、クロスバリデーションやモデル平均化といった補完的な手法を併用することで、より堅牢な判断が可能になります。
AIC/BIC の本質を理解することは、モデル選択を「数値の比較」から「統計的思想に基づく判断」へと引き上げます。予測か、解釈か、真の構造か。目的に応じて基準を使い分けることで、分析の質は大きく向上します。AIC/BIC を“暗記して使う”段階から、“理解して選ぶ”段階へ進むことこそ、統計モデリングをより深く、より実践的に活かすための第一歩と言えるでしょう。

AIC BIC KL情報量モデル選択

AIC/BICの“本質”を数理統計から理解する：KL情報量・事後確率との接続

はじめに

AIC/BIC は何を最適化しているのか？

AIC＝予測性能、BIC＝真のモデル選択

実務での誤用と対策

実データで AIC/BIC が異なる結論を出すとき

まとめ

COMMENT コメントをキャンセル

FDAガイダンスを踏まえたランダム化比較試験の共変量調整(導入)

MMRMをSASとR言語で実装するための実践ガイド

ICH E16 をやさしく理解する：バイオマーカー適格性確認ガイドラインのポイント解説

検証的試験における日本人データの必要性と、国際共同治験での症例数設定の考え方

RMST による調整解析と症例数設計を徹底解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

Cox比例ハザードモデル入門〜数式から実務応用まで〜

一般線形モデルと一般化線形モデルの違いを徹底解説

ログランク(log-rank)検定を徹底解説

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで

はじめに

AIC/BIC は何を最適化しているのか？

AIC＝予測性能、BIC＝真のモデル選択

実務での誤用と対策

実データで AIC/BIC が異なる結論を出すとき

まとめ

ベイズ統計の仮説検定と頻度論的仮説検定の違いを徹底解説

分割表の独立性の検定：製薬統計の現場での理論と実装

ベイズ統計と平均リスク・事後リスクの理解

がん臨床試験におけるベイズ流バスケットデザインの理論と実装― 階層ベイズモデル・EXNEXモデル・モデル平均化の応用 ―

順序統計量の標本最大値、最小値の分布

Jonckheere の順位和検定を徹底解説：順序をもつ多群比較に最適なノンパラメトリック手法

COMMENT コメントをキャンセル

FDAガイダンスを踏まえたランダム化比較試験の共変量調整(導入)

MMRMをSASとR言語で実装するための実践ガイド

ICH E16 をやさしく理解する：バイオマーカー適格性確認ガイドラインのポイント解説

検証的試験における日本人データの必要性と、国際共同治験での症例数設定の考え方

RMST による調整解析と症例数設計を徹底解説

MMRM（反復測定混合モデル）とは― 臨床試験での柔軟な時系列解析手法 ―

Cox比例ハザードモデル入門〜数式から実務応用まで〜

一般線形モデルと一般化線形モデルの違いを徹底解説

ログランク(log-rank)検定を徹底解説

p値を正しく理解する：統計学を勉強していく人のための基礎から応用まで