AIC(赤池情報量規準)の導出過程

Question

現在ＡＩＣ(赤池情報量規準)について勉強しています。
対数尤度/平均対数尤度/期待平均対数尤度
といった似た言葉が多く混乱しています。
以下の記述は私の理解を整理したものですが、おかしな点はあるでしょうか？

-----------------------------------------------
以下のように記号を定義する

θ：未知のパラメータ
θ*:真のパラメータ
θ★:パラメータの最尤推定量
K:モデルの自由パラメータ数

対数尤度：l(θ)
平均対数尤度のn倍：l*(θ)
期待平均対数尤度：l'*(K)

統計モデルの良さを評価したいとき

●(Ｋ－Ｌ情報量)が小さい(０に近い)モデルほど良いモデル
↓
●(Ｋ－Ｌ情報量)は　(定数)－（平均対数尤度）　で表されるので
(平均対数尤度)が大きいほど良いモデル
↓
●(平均対数尤度のn倍)が大きいほど良いモデル
(∵nは標本数であり一定だから)
↓
●(平均対数尤度のn倍)の不偏推定量である(対数尤度)が最大になるような未知のパラメーターθ★を求める。これが最尤推定値。
↓
●(平均対数尤度のn倍)に最尤推定値θ★を代入した、
l*(θ★)が大きいほど良いモデル
↓
●l*(θ★)は、得られた標本 x_i (i=1,2,…,n)　に依存する値
(∵最尤推定値θ★はx_iによって表される) なので、
l*(θ★)の x_i (i=1,2,…,n) についての期待値をとると
これが(期待平均対数尤度) l*'(K) となり、この値が大きいほど良いモデル
↓
●とはいえ、真のモデルが未知であるため、(期待平均対数尤度)は
実際には求められない
↓
●(期待平均対数尤度)の不偏推定量である l(θ★)－Ｋ　が大きいほど
良いモデル
↓
●歴史的経緯により、l(θ★)－Ｋ　を－２倍した値が、ＡＩＣ(赤池情報量規準)
であり、ＡＩＣが小さいほど良いモデル

                                         以上
-----------------------------------------------
ここまでで、どこかおかしなところはあるでしょうか？
よろしくお願いします。

stomachman · Accepted Answer

用語に関しては、新しい記号とその名称をあれもこれもと導入しすぎると混乱する。そういうときには定義に戻って、最低限の用語と記号で書いた式で表現しなおせば（長くはなりますが）混乱は解消できます。
　ところで、K-L情報量

　　I(P*,P) = - ∫ P*(y) ln(P*(y) / P(y))dy

は、２つの確率密度関数P*, Pのずれの指標ですね。I(P*,P)≧0で、=になるのはP*=Pのときだけ。これを

　　P* : 未知の確率密度関数
　　P : P*に従うサンプルにモデルを当て嵌めて推定した確率密度関数

と解釈して、Pの推定の良さの評価に応用しようと言う訳ですが、P*が未知なんで、これじゃ計算のしようがない。
　さて、赤池先生が証明したのは、適当な条件のもとで

　(　I(P*,P) + （定数）) を　　(- ln(P*に従うサンプルとモデルから決まる最大尤度) + (モデルの自由度）)　で推定できる

ということ。つまり、P*が未知でも、P*に従うサンプルとモデルを与えればI(P*,P)が（定数を除いて）推定できる、ってことです。
　「…ほど良いモデル」というのはあくまでも価値観の話なんで、この証明そのものとは直接関係ない。でも、AICの意味の本質を捉えていらっしゃるように思います。
　証明を点検することを通して、この推定法がどんな条件下でどれぐらい旨く成り立つか、つまり裏返せば、破綻するのは例えばどんな場合で、その場合どんな原因でどの程度ひどく破綻するか（全然駄目になるのか、それとも、おおまかな目安ぐらいになら使えるのか）という、AICの限界を見極めることが重要でしょうね。

AIC(赤池情報量規準)の導出過程

用語に関しては、新しい記号とその名称をあれもこれもと導入しすぎると混乱する。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　　用語に関しては、新しい記号とその名称をあれもこれもと導入しすぎると混乱する。