統計解析のクロスバリデーションについて

解決済

質問者：peramico
質問日時：2013/11/17 11:24
回答数：1件

統計解析において、クロスバリデーション法でRMSEなど算出する際、
分割数がサンプル数と等しいleave one out法であればRMSEの結果は常に同じですが
そうでない場合、毎回計算結果が異なりますよね。
例えば2foldのときと3foldのときで計算結果は異なりますが、
2foldで固定した場合でもその分割の仕方をランダムにすれば当然結果はその都度異なりますが
その際RMSEの値は何回か計算した場合の平均値としてよいのでしょうか？

同じ2foldでも1回目の計算ではRMSEがそれなりに小さくなるが、
2回目の計算ではかなり大きくなってしまったりすると
それを平均したり、はたまた良い方の結果を採用するのは不適切ですよね？

計算結果がその都度大幅に変わってしまうときは
モデルとして精度が低いということなのでしょうか。
初歩的なことですが、よろしくお願いいたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

ベストアンサー優先
最新から表示
回答順に表示

No.1ベストアンサー

回答者： ur2c
回答日時：2013/11/24 09:38

resampling では普段 bootstrapping を使っており、cross validation は理屈だけわかってるつもりながら実務経験がほとんどない者です。

詳しい人が答えてくれるだろうと思っていたら回答が付かないので、しゃしゃり出ました。参考程度に考えてください。

> RMSEの値は何回か計算した場合の平均値としてよいのでしょうか？

良いです。

> 平均したり、はたまた良い方の結果を採用するのは不適切ですよね？

良い方の結果を採用するのは論外ですけど、平均は妥当です。cross validation は予測誤差の分布を推定していて、その分布は通常、平均と標準偏差を持つと考えるのが自然ですから。

> 計算結果がその都度大幅に変わってしまうときはモデルとして精度が低いということなのでしょうか。

計算結果が予測誤差の標準偏差を指し「モデルとして精度が低い」とは「予測が当たらない」という意味なら、そのとおりです。普通の意味の精度である「母数の推定量の分散の逆数」ではありません。

なお、英語版 wiki の resampling
http://en.wikipedia.org/wiki/Resampling_(statist …
からの link 先である日本語版
http://ja.wikipedia.org/wiki/リサンプリング
は、統計でいわゆる resampling の説明ではありません。

ついでながら、resampling を理解するには推定量（確率変数）と推定値（実現値）をはっきり区別するのが大切と思います。