線形自己回帰モデルの次数選択の指標となるAIC(赤池情報量基準)のもつ意味について教えて下さい。
 

このQ&Aに関連する最新のQ&A

A 回答 (2件)

>「ランダムなノイズしかない、と仮定したときに、自由度を増やすことでどの位残差が小さくなるか」を予測する式を作る。


ということで良いと思います。これをゆっくり読んで戴ければ分かると思うのですが、ここで言う予測式は「データの変動を予測する式(=モデル)」のことではありません。 そうではなくて、「モデルの自由度を増やしたとき、どれだけ残差が減るか、を予測する式」のことです。
 たとえば、2次元(x,y)平面上に4個の点が与えられ、これにfitする1次式を作れと言われたら、残差が出ます。2次式y=ax^2+bx+cにしたら言われたら残差が小さくなります。もう一つパラメータを増やして3次式にしたら、この場合モデルは全部の点を通り、残差は絶対に0になるということが確実に「予測」できますよね。だからといって、3次式が一番良いモデルなのか?たとえば1次式のモデルの時に、すでに残差が(データに含まれるノイズレベルを考慮したときに)ランダム変動であると解釈出来るんであれば、それ以上次数を増やしたのは、単にノイズに惑わされているだけじゃないの?
 ということなんですよ。疑問点あれば、ご遠慮なく補足してください。
    • good
    • 0
この回答へのお礼

ありがとうございました。

ここで言う予測式は「データの変動を予測する式(=モデル)」のことではありません。 そうではなくて、「モデルの自由度を増やしたとき、どれだけ残差が減るか、を予測する式」のことです。

この説明ですっきりしました。今後ともよろしくお願いします。

お礼日時:2001/01/13 22:13

AIC(A Information Criterior, Akaike's Information Criterior)はかなり難しい理屈なんですが、要するに「モデルがなるべくシンプルで、かつデータをよく説明するようなものであるか」ということを評価するための指標です。


 モデルの自由度を増やせば、当然モデルはデータをよく説明するようになる。だからモデルとデータのずれ(残差)が小さくなる。
 でも小さくなり方が問題である。モデルの自由度を増やしても残差が余り小さくならない場合、それはデータにそれ以上系統的な変動がなくて、ランダムなノイズしか残っていないということだ。
 だから逆に、「ランダムなノイズしかない、と仮定したときに、自由度を増やすことでどの位残差が小さくなるか」を予測する式を作る。それに比べて、実際にモデルの自由度を増やすことによって残差が小さくなる効果が勝るようなら、それ(自由度を増やすこと)は妥当だが、さもなければ無駄に自由度を増やしただけであると判定する。
 てなところでいかがでしょうか。
    • good
    • 0
この回答へのお礼

早々のご助言誠にありがとうございました。浅学故、ご回答に少し質問があるのですが、ご教示願えますか。

「ランダムなノイズしかない、と仮定したときに、自由度を増やすことでどの位残差が小さくなるか」を予測する式を作る。

という個所ですが、ランダムなノイズのみとかていした場合、予測式をたてる意味は失われないでしょうか。つまり何らかの時間相関構造が時系列を構成する系に存在することを仮定する必要はないのでしょうか。たとえば相関次元が有限値で飽和すなどの・・・。素人考えなおので誤りがあるかもしれませんが、よろしくお願いします。

お礼日時:2001/01/13 18:50

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q赤池情報量基準AICとベイズ情報量基準BIC

赤池情報量基準AICとベイズ情報量基準BIC

シミュレーション実験ではBICの方が良い結果を与えると聞きますが、何故そうなるのか教えてください。
繰り返し誤差が存在しないことが原因でしょうか?

Aベストアンサー

こんにちは。だいぶ前の質問のようですが,回答させていただきます。
まず,AIC,BICは数式的には,
AIC=-2{対数尤度}+2{モデルパラメータ数}
BIC=-2{対数尤度}+log({サンプルサイズ}){モデルパラメータ数}
とあらわされます。
第1項は,モデルの当てはまりを表すものですので,当てはまりが
良いほど小さくなります。また,同じデータでは関係ありませんが,
サンプルサイズが大きくなれば,小さくなります。

第2項は,「罰則項」とも呼ばれ,パラメータ数が多いほど(すなわちモデルが
複雑になるほど)大きくなります。
あてはまりが良くても滅茶苦茶複雑なモデルは好ましくないということで,
いずれの指標も,当てはまりが良く,なおかつシンプルなモデルが
志向される指標といえるでしょう。

AICとBICの数式的な違いは第2項ですが,AICは,罰則項がサンプルサイズによらず,
サンプルサイズが大きいときに,第1項の比重が大きくなり,複雑なモデルが選ばれがちに
なります。その点BICは罰則項もサンプルサイズの関数ですので,AICよりもシンプルな
モデルが選ばれがちです。

ただし,そもそもの考え方のベースが両指標で異なります(AICは尤度推測,
BICはBayes推測)ので,モデルパラメータの推測ストラテジに合わせる必要がある
と考える人もいます。たとえば,モデルパラメータをBayes流で推定するならば
BIC,最尤法で求めるならAICというように。必ずしもこのように用いなければならない
というコンセンサスはないとは思いますが。

以上,ご参考まで。

こんにちは。だいぶ前の質問のようですが,回答させていただきます。
まず,AIC,BICは数式的には,
AIC=-2{対数尤度}+2{モデルパラメータ数}
BIC=-2{対数尤度}+log({サンプルサイズ}){モデルパラメータ数}
とあらわされます。
第1項は,モデルの当てはまりを表すものですので,当てはまりが
良いほど小さくなります。また,同じデータでは関係ありませんが,
サンプルサイズが大きくなれば,小さくなります。

第2項は,「罰則項」とも呼ばれ,パラメータ数が多いほど(すなわちモデルが
複雑になるほど)大き...続きを読む

QAIC(赤池情報量基準)について

統計学初心者です。ピント外れな質問だったら申し訳ありません。


ある医学データの解析で、AICを用いて変数選択を行いたいのですが、

1、AICというのはそもそも相対的な基準なのでしょうか?それとも絶対的な基準なのでしょうか?

2、もし絶対的基準だとしたら、どのくらいの値より小さくなれば、モデルに意味があるとみなされるのでしょうか?


よろしくお願いいたします。

Aベストアンサー

 パラメータの数を増減してみてAICが一番小さくなるようなモデルを選ぶ、という形で使いますね。ですが、AICは天下りの「基準」なんかじゃありません。「二つの確率密度関数P, Qのずれを測る尺度であるK-L情報量I(P,Q)に未知の定数Cを加えたものを、未知の確率密度関数Pに従うデータとモデルが与える確率密度関数Qについて、推定する」のがAICですので、本質的にはK-L情報量という尺度で測った得点を見ている訳です。ただしAICには定数Cの分だけ不定性がありますから、絶対尺度としては使えない。
 「モデルに意味があるかどうか」はまた別の話で、それぞれの応用において「モデルに意味がある」という表現が何を意味しているのか、ということから考えないといけません。もちろん、機械的に判定するようなもんじゃありません。

QAIC(赤池情報量規準)の導出過程

現在AIC(赤池情報量規準)について勉強しています。
対数尤度/平均対数尤度/期待平均対数尤度
といった似た言葉が多く混乱しています。
以下の記述は私の理解を整理したものですが、おかしな点はあるでしょうか?

-----------------------------------------------
以下のように記号を定義する

θ:未知のパラメータ
θ*:真のパラメータ
θ★:パラメータの最尤推定量
K:モデルの自由パラメータ数

対数尤度:l(θ)
平均対数尤度のn倍:l*(θ)
期待平均対数尤度:l'*(K)

統計モデルの良さを評価したいとき

●(K-L情報量)が小さい(0に近い)モデルほど良いモデル

●(K-L情報量)は (定数)-(平均対数尤度) で表されるので
(平均対数尤度)が大きいほど良いモデル

●(平均対数尤度のn倍)が大きいほど良いモデル
(∵nは標本数であり一定だから)

●(平均対数尤度のn倍)の不偏推定量である(対数尤度)が最大になるような未知のパラメーターθ★を求める。これが最尤推定値。

●(平均対数尤度のn倍)に最尤推定値θ★を代入した、
l*(θ★)が大きいほど良いモデル

●l*(θ★)は、得られた標本 x_i (i=1,2,…,n) に依存する値
(∵最尤推定値θ★はx_iによって表される) なので、
l*(θ★)の x_i (i=1,2,…,n) についての期待値をとると
これが(期待平均対数尤度) l*'(K) となり、この値が大きいほど良いモデル

●とはいえ、真のモデルが未知であるため、(期待平均対数尤度)は
実際には求められない

●(期待平均対数尤度)の不偏推定量である l(θ★)-K が大きいほど
良いモデル

●歴史的経緯により、l(θ★)-K を-2倍した値が、AIC(赤池情報量規準)
であり、AICが小さいほど良いモデル

以上
-----------------------------------------------
ここまでで、どこかおかしなところはあるでしょうか?
よろしくお願いします。

現在AIC(赤池情報量規準)について勉強しています。
対数尤度/平均対数尤度/期待平均対数尤度
といった似た言葉が多く混乱しています。
以下の記述は私の理解を整理したものですが、おかしな点はあるでしょうか?

-----------------------------------------------
以下のように記号を定義する

θ:未知のパラメータ
θ*:真のパラメータ
θ★:パラメータの最尤推定量
K:モデルの自由パラメータ数

対数尤度:l(θ)
平均対数尤度のn倍:l*(θ)
期待平均対数尤度:l'*(K)

統計モデルの良さを評価し...続きを読む

Aベストアンサー

  用語に関しては、新しい記号とその名称をあれもこれもと導入しすぎると混乱する。そういうときには定義に戻って、最低限の用語と記号で書いた式で表現しなおせば(長くはなりますが)混乱は解消できます。
 ところで、K-L情報量

  I(P*,P) = - ∫ P*(y) ln(P*(y) / P(y))dy

は、2つの確率密度関数P*, Pのずれの指標ですね。I(P*,P)≧0で、=になるのはP*=Pのときだけ。これを

  P* : 未知の確率密度関数
  P : P*に従うサンプルにモデルを当て嵌めて推定した確率密度関数

と解釈して、Pの推定の良さの評価に応用しようと言う訳ですが、P*が未知なんで、これじゃ計算のしようがない。
 さて、赤池先生が証明したのは、適当な条件のもとで

 ( I(P*,P) + (定数)) を  (- ln(P*に従うサンプルとモデルから決まる最大尤度) + (モデルの自由度)) で推定できる

ということ。つまり、P*が未知でも、P*に従うサンプルとモデルを与えればI(P*,P)が(定数を除いて)推定できる、ってことです。
 「…ほど良いモデル」というのはあくまでも価値観の話なんで、この証明そのものとは直接関係ない。でも、AICの意味の本質を捉えていらっしゃるように思います。
 証明を点検することを通して、この推定法がどんな条件下でどれぐらい旨く成り立つか、つまり裏返せば、破綻するのは例えばどんな場合で、その場合どんな原因でどの程度ひどく破綻するか(全然駄目になるのか、それとも、おおまかな目安ぐらいになら使えるのか)という、AICの限界を見極めることが重要でしょうね。

  用語に関しては、新しい記号とその名称をあれもこれもと導入しすぎると混乱する。そういうときには定義に戻って、最低限の用語と記号で書いた式で表現しなおせば(長くはなりますが)混乱は解消できます。
 ところで、K-L情報量

  I(P*,P) = - ∫ P*(y) ln(P*(y) / P(y))dy

は、2つの確率密度関数P*, Pのずれの指標ですね。I(P*,P)≧0で、=になるのはP*=Pのときだけ。これを

  P* : 未知の確率密度関数
  P : P*に従うサンプルにモデルを当て嵌めて推定した確率密度関数

と解釈して、Pの...続きを読む

QEXCELで線形自己回帰分析どこまでできるか

ソフト   : エクセルだけ。
時系列データ: 為替レート(10年分、毎日)
     (別に、何でもいいのですが、為替にしましょう)。

例えば、アメリカドル・日本円などの為替レートの水準には、根拠があまりないように思います。121円だろうと、120円だろうと、別に皆が、そう考えているだけであって。

だからこそ、次の瞬間に何銭位動くのか、ということの何かしらの根拠みたいなものを人間は求めます。つまり、過去が118円だったとか、つい最近は119円だったとか、昨日は120円50銭だったとか、あまり遠い昔よりもつい最近とか、14日間の移動平均でどれくらいだったとかチャートにすることもあるでしょう。

ということは、ある程度、自身の過去データが説明変数となっているように解釈するのが自然と考えました。

それで、エクセルを使って、どうやって行えばいいのでしょうか。
重回帰分析でいいのでしょうか。
次数pの決定に赤池情報基準を使うそうですが、それはエクセルでどのように可能なのでしょう。

別に為替レートでなくてもいいです。

 

ソフト   : エクセルだけ。
時系列データ: 為替レート(10年分、毎日)
     (別に、何でもいいのですが、為替にしましょう)。

例えば、アメリカドル・日本円などの為替レートの水準には、根拠があまりないように思います。121円だろうと、120円だろうと、別に皆が、そう考えているだけであって。

だからこそ、次の瞬間に何銭位動くのか、ということの何かしらの根拠みたいなものを人間は求めます。つまり、過去が118円だったとか、つい最近は119円だったとか、昨日は120...続きを読む

Aベストアンサー

統計で言う自己回帰モデルは【定常性の仮定】が入るので重回帰では解けませんが(Yule-Walker方程式を解く)、ここではそういった細かいことを考えずに、過去の情報を用いてモデルを作成するにはどうしたらよいか?という風に解釈して回答します。※エクセルに自己回帰モデルがあったかどうか走りません。

Excelで簡単に行なうには、ある系列のデータがA列にあった場合、
それを1行シフトしたデータをB列に、、、、という風にして時間をずらしたデータを隣の列に作成していくと、
 A,B,C,D
 10,,,
 11,10,,
 12,11,10,,
 13,12,11,10

のようなデータが作成されるので、A列をB以降の列を用いて回帰すれば希望の処理になるかと思います。ただし、空欄になる行は捨ててください。回帰には使用できません。

Q線形回帰分析:多重共線性と主成分回帰について

 最小二乗法による線形回帰モデルのあてはめについて,説明変数間に多重共線性がある場合,回帰係数の信頼性や予測精度が低下すると習いました.これを防止する方法として,元の説明変数行列の主成分を説明変数としてあてはめを行う主成分回帰(PCR)等があるようです.

 しかし,説明変数行列の線形変換は,回帰モデルのあてはめ値(fitted values),残差,新たなデータに関する予測値に影響を与えません.主成分も線形変換の1つなので,元の説明変数と同数の主成分を説明変数に用いる場合,全く同じあてはめ値,残差,予測値が得られます.

それでは,主成分回帰は何故,多重共線性による回帰係数の信頼性,予測精度の低下を防止する手段と言えるのでしょうか?

(主成分回帰の狙いは,元の説明変数より少数の重要な主成分のみを説明変数に用いることにもあるようですが,これは,多重共線性の問題の防止とは関係ないと思います.)

勘違いしている点もあるかもしれないので,コメントを頂ければ嬉しいです。

Aベストアンサー

こんばんは.

指摘をいただきました部分は単純に書き損じです.
質問者様の指摘にあります通り,
正しくは,X = U*S*V' です.

お詫びというものでもありませんが,補足を行っておきます.
行空間と列空間はそれぞれ解の一意性と存在にかかわるものです.
任意の n * m 行列 y = X*a の方程式系について,
ベクタ y が X の列空間にある場合,等価的に X の列ベクタの線型和で書ける場合,系には解 a が存在します.
そうでない場合は, y から 「Xの列ベクタで書けない成分」を抜き取ります.
この「」の中身が残差であり,最小二乗法はこれが最小になるような修正を行います.
これは真っ直ぐ射影すること,X の列空間への直交射影で達成できます.
さて,修正した y (つまりXの列ベクタの線型和で書ける)に関する方程式 y_hat = X*a_hat の解が最小二乗解です.
ところで, X*b = 0 なる b が存在する場合(b は X の零空間といいます),
X*(a_hat+b) = X*a_hat + 0 = y_hat となってしまいます.
あるスカラー c に関して, X*(c*b) = c*(X*b) = 0 ですから,このような b が存在する場合,
最小二乗解は無数に存在することになります.
これは都合が悪いので,この無数の解のうち b をを含まないものを選択します.
b は X の行ベクタに直交することに注意すると,これは「X の行ベクタで書けない成分」の抜き取りですから,
先の議論同様 X の行空間への直交射影で達成できます.
まとめると,
(1) 左辺をXの列空間へ直交射影する (解を得るため)
(2) (1) で得た解をXの行空間へ直交射影する (解を一意に決めるため)
という作業で最小二乗解を確定します.
以上が X の 列ベクタと行ベクタそれぞれで張られる空間の基底が必要になる理由です.

説明変数が独立でない場合,n*m 行列 X のランクは m より小さくなります.
X のランクを l (l < m) と書くと, X の行ベクタで独立なものは l 本しかないので,
これらに直交する一次独立なベクタを m - l 本持ってこれます(上記の b が存在する).
結果として,(2) の作業が必要になり,求解に特異値分解が要求されるということになります.
このとき,X'*X は m*m 行列ですが,ランク l 行列の積であるため,そのランクも l であり,
逆行列が作れず普段の解法が使えない,と考えてもよいでしょう.

こんばんは.

指摘をいただきました部分は単純に書き損じです.
質問者様の指摘にあります通り,
正しくは,X = U*S*V' です.

お詫びというものでもありませんが,補足を行っておきます.
行空間と列空間はそれぞれ解の一意性と存在にかかわるものです.
任意の n * m 行列 y = X*a の方程式系について,
ベクタ y が X の列空間にある場合,等価的に X の列ベクタの線型和で書ける場合,系には解 a が存在します.
そうでない場合は, y から 「Xの列ベクタで書けない成分」を抜き取ります.
この...続きを読む


人気Q&Aランキング

おすすめ情報