予測モデルの精度の検定方法について

締切済

質問者：creamysoft
質問日時：2022/01/18 16:29
回答数：6件

成人大学の自由レポート提出で「株価の予測モデル」というのをやっています。

モデル作成自体はpythonのsarimaxとprophetでやっつけ、testデータに対するrmseもでました。
モデル精度については、「予測値と実際値を並列したグラフで目視的に」かつ「rmseが小さいほう」が予測精度が高いとしているサイトが多いようです。
参考サイト:ttps://medium.com/analytics-vidhya/time-series-forecasting-arima-vs-prophet-5015928e402a

しかし、講座の教授が求めているのは、
1.仮説検定を立てて、実際のデータで得られた結果を述べる。
2.分散分析やχ2検定やt検定など講義で扱った基本的なものでもよいが、説明さえしていれば講義で扱っていない検定でもよい。

従って、rmse単独値を比較したり、グラフを提示しただけでは上記要求に応えられていないように感じます。

そこで、ご質問なんですが、、、
A.私が思いついたのは「クロスバリデーションのK-分割交差検証法なるもので、無理くり複数のrmseを求めてt検定する。」ですが、これは上記1.2.の要求を満たす学問的に正しいやり方なんでしょうか？
B.A以外に、2つの予測モデルの精度を比較するオーセンティックな統計手法とかライブラリーとかありますでしょうか？

予測モデルを作成するのは、pythonのおかげで比較的簡単にできたのですが、モデルの優劣を学問的に正しい手段で説明することは、初学者の私には難しいと感じております。

このあたりについて詳しい方がおられましたら、何卒よろしくお願い申し上げます

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (6件)

最新から表示
回答順に表示

No.6

回答者： kamiyasiro
回答日時：2022/01/20 08:45

（）内を追加します。

解析者は、「残っているのは偶然誤差だけ」ということに興味があるのであり、その大きさについてはデータ依存（ピンク）だから議論する価値はあまりない、ということでもあります。

- 0
- 件

通報する

No.5

回答者： kamiyasiro
回答日時：2022/01/20 08:35

#4です。

ホワイトノイズって、電気屋から言わせてもらえば周波数依存性のないノイズで、対する語句としてピンクノイズってのがありますよね。

馬場さんは、もはや何も説明のつかない偶然誤差成分のみしか残っていないという意味でホワイトを使っているんでしょうね。

回帰残差の検定は、残差中にはもはや何も説明すべきものが無い、残っているのは不偏で等分散で正規分布に従い独立な偶然誤差だけだ、という検定をしているので、意味としては通じます。

解析者は、「残っているのは偶然誤差だけ」ということに興味があるのであり、その大きさについてはデータ依存だから議論する価値はあまりない、ということでもあります。

最初の話につながりましたね。

- 0
- 件

通報する

No.4

回答者： kamiyasiro
回答日時：2022/01/19 23:11

#3です。

ホワイトノイズって、著者の馬場さんが書いているんですね。びっくり。

- 0
- 件

通報する

No.3

回答者： kamiyasiro
回答日時：2022/01/19 23:02

#2です。

コメントありがとうございます。
なかなかスジのあるQ＆Aで、回答のしがいがあります。

A.上記1.2.の理解で、大枠あってますでしょうか？

はい。
ただ、ホワイトノイズ性という語句は初めて聞きました・・・。

B.上記Aの理解があってるのであれば、ネット上の各種サイトに記載してあるモデルの優劣をrsmeの大小で論じてある議論には学術的には意味がない、と考えてよいでしょうか？

はい。かつてはそれが許されましたが、今は違います。

まず、あるひとつのデータセットの下でrmseを比較しているのであれば、意味がありません。なぜなら、データセットが変更されれば、逆転するかもしれません。

また、どんなに意味のない変数を取り込んでも、どんどんrmseは小さくなります。例えば、メタボリック・シンドロームを説明するのに、
一日の摂取カロリー量、
一日の運動量、
通勤手段、までは良いとして、
好きな映画のジャンル、
日曜日に小説を読んでいるか、
などを説明変数にしても、rmseはどんどん小さくなります。いわゆる過学習です。

本質的な問題は、モデルのシンプルさ解釈性の高さと、予測精度は相反するものであり（「オッカムの剃刀」とか「オッカムのジレンマ」と言われます）、予測精度のみを追い求めることは好ましくないということです。

この問題を解決する手段として、「LIME」（2016）や「SHAP」（2017）という手法が出てきました。
もし、きちんとモデル比較を行いたのであれば、これらの手法を使い、正しい（役立つ）特徴量を言い当てているかも併せて評価すべきだ、というのが今日の定説です。
本来役立つ予測式とはこういう式のハズです。

参考図書を挙げておきます。
大坪直樹ら（2021）「XAI（説明可能なAI）」，リックテレコム
森下光之助（2021）「機械学習を解釈する技術」，技術評論社

- 0
- 件

通報する

この回答へのお礼

今回も、貴重な情報ありがとうございます。

当初思ってたより、いろいろ勉強することがあると分かり、レポートをまとめ上げれるのか?とやや不安に思う一方で、やりがいのあるテーマであるとも感じています。

>また、どんなに意味のない変数を取り込んでも、どんどんrmseは小さくなります。
>本質的な問題は、モデルのシンプルさ解釈性の高さと、予測精度は相反するものであり（「オッカムの剃刀」とか「オッカムのジレンマ」と言われます）、予測精度のみを追い求めることは好ましくないということです。
そうなんですか！
てっきりドル円やら、ＶＩＸ指数を外部変数として突っ込んでやれば精度が上がるんじゃね？と目論んでいたのですが、そこは慎重にやらねばならないようですね。。

ご提示いただいた書物も参考にして、なんとか、「過学習」の懸念まで触れ得るレポートに仕上げたいと願っております。

また、ご質問させていただく機会もあると思うのですが、、その節は何卒よろしくお願い申し上げます。

通報する

お礼日時：2022/01/20 21:23

No.2

回答者： kamiyasiro
回答日時：2022/01/19 08:04

#1です。

コメントありがとうございます。

rmseの検定が意味がないという点について補足します。

回帰の検定の代表的なものは、回帰によって説明された変化の大きさが、偶然誤差rmseに比較して有意に大きいか、という「回帰そのものの有意性検定」です。
ここでは、「説明された回帰変動」に興味があるのであり、「偶然誤差変動」は検定対象ではなく検定の比較基準になります。
比較基準は回帰モデルごとに異なりますから、その大小を論ずるのは意味が無いということです。

ところで今回は、予測された値が「変化が無い」ということも重要な情報ですので、変化量が偶然誤差よりも大きいことが必ずしも是ではありません。
そこで、rmseを小さくした（フィッティングさせた）ことによって、モデルの前提である誤差の基準が崩れていないかが、調査すべき点となります。

モデルの前提が崩れていないものが良い予測式となります。

ついでに、誤差の条件として挙げた４点は、私の思い付きではなく、「ガウス・マルコフの定理」で挙げられているものです。（３点に集約している人もいます）

- 0
- 件

通報する

この回答へのお礼

再度、ご教示いただきありがとうございます。

早速、ご教示いただいた「時系列分析と状態空間モデルの基礎」を購読しました。
第2部5-13以降に、ご指摘いただいたモデル残差の検定意義、第2部7-12にはRでの残差チェック関数まで記載してあり、大変参考になりました。

以上の書物から得た知識と、この度のご回答から、現状以下のような理解度です。。

1.
＞偶然誤差rmseに比較して有意に大きいか、という「回帰そのものの有意性検定」です。
この目的のために、残差が「不偏で等分散で正規分布に従い独立であるかどうかを検定」する。

2.
＞「偶然誤差変動」は検定対象ではなく検定の比較基準になります。比較基準は回帰モデルごとに異なりますから、その大小を論ずるのは意味が無いということです。
rmseは同一モデル内においてのみ有意義な尺度であって、異なるモデル間の比較に用いるものではない。モデルの比較としては、1.に記した残差のホワイトノイズ性を調べるべきである。

A.上記1.2.の理解で、大枠あってますでしょうか？
B.上記Aの理解があってるのであれば、ネット上の各種サイトに記載してあるモデルの優劣をrsmeの大小で論じてある議論には学術的には意味がない、と考えてよいでしょうか？

重ね々々、申し訳ございませんがよろしくお願い申し上げます。

通報する

お礼日時：2022/01/19 21:33

No.1

回答者： kamiyasiro
回答日時：2022/01/18 22:06

rmseの最小化という基準でフィッティングしたのであれば、それが有意かどうかというのは意味のないことです。

一般に回帰診断で行われる仮説検定としては、
①各回帰係数の有意性（線形回帰の場合）：個々の回帰係数＝０
②回帰係数間の線形制約：Rβ＝ｒ
③均一分散の検定
・ブロイシュ・ペーガンテスト
・ホワイトテスト
④定式化テスト
⑤正規性テスト
・シャピロ・ウィルクテスト
・ジャック・ベラテスト

今回は時系列回帰だと思いますので、

⑥残差の自己相関の検定
・リュング・ボックステスト

③⑤⑥、つまり誤差が不偏で等分散で正規分布に従い独立であるかどうかを検定すれば良いと思います。
この条件は基本中の基本ですから。

参考図書を挙げておきます。
蓑谷千鳳彦（2017）「回帰診断」朝倉書店
馬場真哉（2018）「時系列分析と状態空間モデルの基礎」プレアデス出版

- 0
- 件

通報する

この回答へのお礼

>rmseの最小化という基準でフィッティングしたのであれば、それが有意かどうかというのは意味のないことです。
そうなんですか、、私も直感的にはそのように感じておりました。

>③⑤⑥、つまり誤差が不偏で等分散で正規分布に従い独立であるかどうかを検定すれば良いと思います。
レポート提出期限に間に合うか微妙ですが、せっかくの勉強機会でもあり、できるだけ理解、習得してレポートに反映させたいと思います。

今回は、大きな示唆をいただき、大変ありがとうございました！

通報する

お礼日時：2022/01/18 23:54

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう！