はじめに

モデル選択の現場では、AIC や BIC は「とりあえず計算する指標」として扱われがちです。しかし、これらの基準が何を最適化しているのか、そしてどのような理論的背景を持つのかを理解すると、モデル選択の判断が格段に洗練されます。
この記事では、AIC/BIC の導出を「公式の暗記」ではなく、
・AIC=予測誤差(KL情報量)を最小化する基準
・BIC=事後確率最大化(ベイズモデル選択)に対応する基準

として捉え直し、実務での誤用や判断のポイントまで丁寧に解説します。
AIC,BICに関する基礎的な内容は下記で解説しておりますので、是非ご一読ください。

モデル選択の基礎:AIC・BICを“情報量”として理解する— 過学習を避け、汎化性能を高めるための実務的ガイド —AICとBICを単なる「指標」ではなく、“情報量”として理解すること...

AIC/BIC は何を最適化しているのか?

■ AIC:予測性能(KL情報量)を最小化する

AIC の本質は「真の分布 f と、モデル\( g_{\theta }\) の距離(KL情報量)を最小化する」ことです。

KL情報量とは?

真の分布 \(f(x)\) とモデル \(g_{\theta }(x)\) の距離を測る尺度:

\[\mathrm{KL}(f,g_{\theta })=\int f(x)\log \frac{f(x)}{g_{\theta }(x)}dx\]

これは「モデルが真の分布をどれだけうまく近似できているか」を測る指標。

● AIC の導出(直感)

AIC は次の形で定義されます:

\[\mathrm{AIC}=-2\log L(\hat {\theta })+2k\]

ここで

  • \(L(\hat {\theta })\):最尤推定値での尤度
  • \(k\):推定パラメータ数

なぜ +2k が必要なのか?
→ 尤度最大化は「当てはまり」を最大化するが、複雑なモデルほど当てはまりが良くなるため、過学習を補正するためのペナルティが必要。

AIC は、KL情報量の期待値を最小化する推定量を求める過程で、
「尤度のバイアス補正項」= 2k
が自然に現れる。

■ BIC:事後確率最大化(ベイズモデル選択)

BIC は次の形:

\[\mathrm{BIC}=-2\log L(\hat {\theta })+k\log n\]

AIC と似ているが、ペナルティが \(\log n\) で増える点が重要。

● BIC の導出(直感)

ベイズモデル選択では、モデル M の事後確率を最大化する:

\[p(M\mid \mathrm{data})\propto p(\mathrm{data}\mid M)p(M)\]

このうち

\[p(\mathrm{data}\mid M)=\int p(\mathrm{data}\mid \theta ,M)p(\theta \mid M)d\theta\]

をラプラス近似すると、

\[-2\log p(\mathrm{data}\mid M)\approx -2\log L(\hat {\theta })+k\log n\]

これが BIC の式そのもの。

BIC の本質
  • モデルの事後確率を最大化する基準
  • データ数が増えるとペナルティが強くなる
  • 大標本での一貫性(consistency)を持つ
    → 真のモデルが候補に含まれていれば、BIC は必ずそれを選ぶ

AIC=予測性能、BIC=真のモデル選択

基準最適化対象特徴適した用途
AICKL情報量(予測誤差)複雑なモデルを選びやすい予測重視
BICモデルの事後確率シンプルなモデルを選びやすい真のモデル推定

実務での誤用と対策

■ 誤用1:AIC で過度に複雑なモデルを選ぶ

AIC はペナルティが弱いため、説明変数が多い回帰モデルや高次多項式で過剰適合しやすい

対策
  • AICc(小標本補正 AIC)を使う
    \[\mathrm{AICc}=\mathrm{AIC}+\frac{2k(k+1)}{n-k-1}\]
  • クロスバリデーションと併用する
  • 変数選択では LASSO など正則化を併用

誤用2:BIC を「予測性能の良いモデル」と誤解する

BIC は「真のモデル選択」に強いが、予測性能では AIC に劣ることが多い

対策
  • 予測タスクでは AIC または CV を優先
  • BIC は「説明の簡潔さ」を重視する場面で使う

実データで AIC/BIC が異なる結論を出すとき

これは実務で非常に頻繁に起こる。

例:線形回帰で次数を選ぶとき

  • AIC → 4次多項式
  • BIC → 2次多項式
    のように結論が分かれる。

■ 判断のポイント

① 目的が「予測」なら AIC

  • 将来データの予測誤差を最小化したい
  • モデルが真である必要はない
  • CV と整合的

② 目的が「解釈」なら BIC

  • どの変数が本当に効いているか知りたい
  • モデルの簡潔性を重視
  • 大標本での一貫性が魅力

③ 両者の差が小さい場合は「どちらでもよい」

AIC と BIC の差が 2〜4 程度なら、実質的には同程度の支持と考えてよい。

④ モデル平均化(Model Averaging)という選択肢

AIC/BIC を重みとして、複数モデルの予測を平均する方法:

\[\hat {y}=\sum _mw_m\hat {y}_m\]

  • AIC重み
  • BIC重み
  • ベイズモデル平均(BMA)

などがある。

まとめ

AIC と BIC は、単なる「モデル選択のための数値」ではなく、それぞれが明確に異なる統計的思想を背景に持つ基準です。AIC は、真の分布とモデルの距離を測る KL 情報量を最小化するという観点から導かれ、将来データに対する予測性能を重視します。一方で BIC は、ベイズモデル選択における事後確率最大化に対応し、データ数が増えるほど複雑なモデルを強く罰することで、真のモデルを選び抜くことに焦点を当てています。
この違いは、実務での判断にも直結します。予測精度を最優先するなら AIC(特に小標本では AICc)が適しており、モデルの解釈性や構造の簡潔さを重視するなら BIC が有効です。両者が異なる結論を示す場面は珍しくありませんが、そのときこそ「何を目的とした分析なのか」を明確にすることが重要です。また、AIC が複雑なモデルを選びすぎる、BIC が単純化しすぎるといった誤用も起こりやすく、クロスバリデーションやモデル平均化といった補完的な手法を併用することで、より堅牢な判断が可能になります。
AIC/BIC の本質を理解することは、モデル選択を「数値の比較」から「統計的思想に基づく判断」へと引き上げます。予測か、解釈か、真の構造か。目的に応じて基準を使い分けることで、分析の質は大きく向上します。AIC/BIC を“暗記して使う”段階から、“理解して選ぶ”段階へ進むことこそ、統計モデリングをより深く、より実践的に活かすための第一歩と言えるでしょう。

ABOUT ME
tomokichi
外資系製薬会社で生物統計家として働ている1児のパパ。生物統計家とは何か、どのようなスキルが必要か、何を行っているのかを共有していきたいと思っております!生物統計に関する最新情報を皆様にお届けすべく、日々奮闘中です。趣味は筋トレ、温泉巡り、家族と散歩。