信頼区間についての質問です。

Question

信頼区間についての質問です。

現在は私は為替レートを予測するAIモデルを作成しています。そこで予測値と実測値との誤差について、信頼区間を求めたいと考えています。

母平均は未知、母標準偏差は未知、標本数は1744、標本平均は0.0000523、標本標準偏差は0.004567689となりました。

誤差についてヒストグラムを作成したところ、正規分布に従うと判断しました。（ヒストグラムは添付画像を参照）

このとき、誤差の80%信頼区間は自由度1743のt分布に従い、0.0000523±t(1743)40％点*0.004567689/√(1744)となりますでしょうか？

もし、導出に誤りがあった場合正しい導出方法と信頼区間を教えていただけると助かります。

宜しくお願いします。

kamiyasiro · Accepted Answer

#3さんがご回答のとおり、誤差の信頼区間ということは一般的に言いません。

信頼区間は母数（平均とか予測値）を推定したときの確からしさの値であり、誤差はその算出に用いられる値です。

もし、敢えて誤差の大きさを書き添えるなら、標準誤差SEを示しておけば良いと思います。

ところで、誤差の期待値が０でないなら、それは偏差（バイアス）が入っているということです。そのときは、バイアスとバリアンス（分散）は2乗和の分解※をして別々に示さないと、正しい推定精度の表示にはなりません。（※両者が独立ならば、という条件があります）

「この時計は毎日正確に１分進む」という時計はバイアスが入っているのですが、実はめちゃくちゃ正確な時計です。校正すれば良いからです。

仕入先の計測性能と受け入れ検査の計測性能を比較するときはバリアンス（分散：ばらつき）が問題であって、バイアスは問題にはなりません。これらは別物です。バイアスは検量線を取り交わせば解決できます。

あと、

①実データの存在範囲は、信頼区間に対して予測区間という言葉を使います。

②推定値の存在範囲は信頼区間と言いますが、それは切片変動＋回帰変動です。切片変動が平均値の信頼区間に相当します。それに対し、データの希薄な外縁部では回帰の不確かさによって予測の誤差が増えますのでご注意を。

③信頼区間に誤差を乗せたものが予測区間になります。

stomachman · Answer

No.5へのコメントについて。

> この予測モデルを用いて80%予測区間を基準にロスカットを設定した取引を考えています。

そのアルゴリズムの成績を予測したいんだとすると、（区間を外れる確率だけを考えてもしょうがなくて）区間を外れたときのロスの大きさを見積もる必要があるでしょう。なぜなら、不良品を廃棄したときに生じるロスは「製品1個分」という定数ですが、ご質問の場合はそうではない。だから、裾野が重要なんです。

stomachman · Answer

ご質問の趣旨とは違うけど：

> 誤差についてヒストグラムを作成したところ、正規分布に従うと判断しました。

それは早計でしょう。

為替レートの場合、「とんでもなくハズレた値が（低い確率ではあるけれども）どれだけの確率で生じるか」ということが決定的に重要です。なので、分布の裾野がどうなっているかをよく調べる必要がある。
　正規分布は、たとえば製造業で不良品の発生率を見積もる役に立ちますが、それは不良品は（不良の程度によらず）単に廃棄されるからです。廃棄の際に「ある不良品がとんでもなくハズレた値を示す確率」なんてことには全く興味がありません。言い換えれば、品質管理をやるという目的においては、分布の真ん中の山になっている近辺だけに興味がある。だから、正規分布で近似しておけば足りるわけです。でも、為替レートの話ではそうはいきません。

ところで「経済物理学」は経済現象を（リクツが先行する経済学とは逆に、ちょうど物理現象を観測するのと同様に）もっぱら膨大なデータに基づいて研究する、比較的新しい分野です。その成果のひとつに、為替や株の変動が従う確率分布は正規分布ではなく、1/((|x|+c)^α) に比例する分布（幾何分布）だという発見があります。この分布は正規分布に比べて裾野の部分の確率密度が大きい。つまり「予想が大きく外れる確率」が正規分布よりも大きいんです。逆に言えば、正規分布は暴騰や暴落の発生確率を低く見積もりすぎている。かの有名な（ノーベル賞までもらった）ブラック・ショールズ方程式モデルも、正規分布が理論の前提になっていたために現実では大外れをやらかして、まさにそのノーベル賞受賞者を雇っていた証券会社が破綻したんでした。

というわけで、裾野の部分について再検討なさることをお勧めいたします。データ数がとても少ないけれども、それでも、正規分布から外れているらしい兆候がすでに見えているようです。（たとえば平均から4σも離れたデータが生じる確率は正規分布なら1/30000程度であり、標本数1744ならまず出現しないだろうデータですよね。）相対頻度を正規分布の確率密度で割った値をプロットしてみるとよくわかると思います。

かくて、分布を推定するには、ご質問のデータ数ではまるきり不足です。ごく稀にしか生じない値のデータがたくさん必要なんです。

yhr2 · Answer

No.2 です。「お礼」に書かれたことについて。

＞これまで私が導出していたのは「母平均の信頼区間」ではないでしょうか？

はい。「予測値と実測値との誤差」という母集団の平均の信頼区間だと思います。

＞本来の目的である、誤差の母集団において誤差が取り得る８０％信頼区間を導出する場合は以下の手順になりませんか？

いやいや、本来のことをしていると思いますよ。

＞始めに母平均=0とみなし

それはあり得ません。
あなたの「予測のアルゴリズム」が常に「実測値よりも高めに出る」ようなものであるかもしれず、そんな仮定はできません。
あくまで「観測されたサンプル」から「未知の」母集団を推定することになります。

yhr2 · Answer

No.1 です。「お礼」に書かれたことについて。

＞為替レートであるため、USD/JPY=140/100=1.40のように表しています。この場合、単位は[ドル/円]になります。

了解しました。
だとすると、[ドル/円] というより [セント/円] ですかね。

＞すみません、左側累積確率 = 0.9はどこから算出しましたか？

信頼区間80%ということは、
　下から10% ～ 下から90%
ということですよね？
「下から○○%」というのが「累積確率」ですから、信頼区間の上端の「変数値」を求めるために「90%」を使っています。（平均が 0 なら、下端は同じ値に「マイナス」を付けたものになる）

yhr2 · Answer

どのような「平均」「標準偏差」をとったのでしょうか？

おそらく「予測値と実測値の差」なので、理想的には「平均は 0」になるのだと思いますが、そのときの「標準偏差」はどのような単位での値ですか？
まさか「円」ではありませんよね。
また「標本標準偏差」とは、「不偏分散の平方根」で求めたものですか？　ｔ分布を使うのであれば「不偏分散の平方根」を使わないといけません。

「平均」と「標準偏差」が正しいものであれば、その「80％信頼区間」の求め方の式は、「t(1743)40％点」が「片側 40%」という意味であれば正しいと思います。

なお、自由度1743のt分布の値は求められますか？
エクセル関数「T.INV(左側累積確率,自由度)」で「T.INV(0.9,1743)」を計算すると
　1.282037459
と出てきますね。

自由度が 1743 もあれば、ほとんど「正規分布」と同じです。
ちなみに、正規分布で同様に「左側累積確率 = 0.9」の値を求めると
　1.281551566
と出てきます。

信頼区間についての質問です。

#3さんがご回答のとおり、誤差の信頼区間ということは一般的に言いません。

No.5へのコメントについて。

ご質問の趣旨とは違うけど：

No.2 です。

No.1 です。

どのような「平均」「標準偏差」をとったのでしょうか？

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング