信頼区間についての質問です。
現在は私は為替レートを予測するAIモデルを作成しています。そこで予測値と実測値との誤差について、信頼区間を求めたいと考えています。
母平均は未知、母標準偏差は未知、標本数は1744、標本平均は0.0000523、標本標準偏差は0.004567689となりました。
誤差についてヒストグラムを作成したところ、正規分布に従うと判断しました。(ヒストグラムは添付画像を参照)
このとき、誤差の80%信頼区間は自由度1743のt分布に従い、0.0000523±t(1743)40%点*0.004567689/√(1744)となりますでしょうか?
もし、導出に誤りがあった場合正しい導出方法と信頼区間を教えていただけると助かります。
宜しくお願いします。
No.4ベストアンサー
- 回答日時:
#3さんがご回答のとおり、誤差の信頼区間ということは一般的に言いません。
信頼区間は母数(平均とか予測値)を推定したときの確からしさの値であり、誤差はその算出に用いられる値です。
もし、敢えて誤差の大きさを書き添えるなら、標準誤差SEを示しておけば良いと思います。
ところで、誤差の期待値が0でないなら、それは偏差(バイアス)が入っているということです。そのときは、バイアスとバリアンス(分散)は2乗和の分解※をして別々に示さないと、正しい推定精度の表示にはなりません。(※両者が独立ならば、という条件があります)
「この時計は毎日正確に1分進む」という時計はバイアスが入っているのですが、実はめちゃくちゃ正確な時計です。校正すれば良いからです。
仕入先の計測性能と受け入れ検査の計測性能を比較するときはバリアンス(分散:ばらつき)が問題であって、バイアスは問題にはなりません。これらは別物です。バイアスは検量線を取り交わせば解決できます。
あと、
①実データの存在範囲は、信頼区間に対して予測区間という言葉を使います。
②推定値の存在範囲は信頼区間と言いますが、それは切片変動+回帰変動です。切片変動が平均値の信頼区間に相当します。それに対し、データの希薄な外縁部では回帰の不確かさによって予測の誤差が増えますのでご注意を。
③信頼区間に誤差を乗せたものが予測区間になります。
ご返信ありがとうございます。
予測区間という概念が存在するとは存じ上げませんでした。改めて計算し直したいと思います。
ご指摘ありがとうございます。
No.6
- 回答日時:
No.5へのコメントについて。
> この予測モデルを用いて80%予測区間を基準にロスカットを設定した取引を考えています。
そのアルゴリズムの成績を予測したいんだとすると、(区間を外れる確率だけを考えてもしょうがなくて)区間を外れたときのロスの大きさを見積もる必要があるでしょう。なぜなら、不良品を廃棄したときに生じるロスは「製品1個分」という定数ですが、ご質問の場合はそうではない。だから、裾野が重要なんです。
No.5
- 回答日時:
ご質問の趣旨とは違うけど:
> 誤差についてヒストグラムを作成したところ、正規分布に従うと判断しました。
それは早計でしょう。
為替レートの場合、「とんでもなくハズレた値が(低い確率ではあるけれども)どれだけの確率で生じるか」ということが決定的に重要です。なので、分布の裾野がどうなっているかをよく調べる必要がある。
正規分布は、たとえば製造業で不良品の発生率を見積もる役に立ちますが、それは不良品は(不良の程度によらず)単に廃棄されるからです。廃棄の際に「ある不良品がとんでもなくハズレた値を示す確率」なんてことには全く興味がありません。言い換えれば、品質管理をやるという目的においては、分布の真ん中の山になっている近辺だけに興味がある。だから、正規分布で近似しておけば足りるわけです。でも、為替レートの話ではそうはいきません。
ところで「経済物理学」は経済現象を(リクツが先行する経済学とは逆に、ちょうど物理現象を観測するのと同様に)もっぱら膨大なデータに基づいて研究する、比較的新しい分野です。その成果のひとつに、為替や株の変動が従う確率分布は正規分布ではなく、1/((|x|+c)^α) に比例する分布(幾何分布)だという発見があります。この分布は正規分布に比べて裾野の部分の確率密度が大きい。つまり「予想が大きく外れる確率」が正規分布よりも大きいんです。逆に言えば、正規分布は暴騰や暴落の発生確率を低く見積もりすぎている。かの有名な(ノーベル賞までもらった)ブラック・ショールズ方程式モデルも、正規分布が理論の前提になっていたために現実では大外れをやらかして、まさにそのノーベル賞受賞者を雇っていた証券会社が破綻したんでした。
というわけで、裾野の部分について再検討なさることをお勧めいたします。データ数がとても少ないけれども、それでも、正規分布から外れているらしい兆候がすでに見えているようです。(たとえば平均から4σも離れたデータが生じる確率は正規分布なら1/30000程度であり、標本数1744ならまず出現しないだろうデータですよね。)相対頻度を正規分布の確率密度で割った値をプロットしてみるとよくわかると思います。
かくて、分布を推定するには、ご質問のデータ数ではまるきり不足です。ごく稀にしか生じない値のデータがたくさん必要なんです。
ご返信ありがとうございます。
為替や株の変動が幾何分布に従うとは存じ上げませんでした。私は現在、変動が正規分布に近似すると仮定した上で、この予測モデルを用いて80%予測区間を基準にロスカットを設定した取引を考えています。
つまり、分布の真ん中の山になっている近辺だけに興味があるということですが、この場合は正規分布で近似してしまうと問題がありますでしょうか?
No.3
- 回答日時:
No.2 です。
「お礼」に書かれたことについて。>これまで私が導出していたのは「母平均の信頼区間」ではないでしょうか?
はい。「予測値と実測値との誤差」という母集団の平均の信頼区間だと思います。
>本来の目的である、誤差の母集団において誤差が取り得る80%信頼区間を導出する場合は以下の手順になりませんか?
いやいや、本来のことをしていると思いますよ。
>始めに母平均=0とみなし
それはあり得ません。
あなたの「予測のアルゴリズム」が常に「実測値よりも高めに出る」ようなものであるかもしれず、そんな仮定はできません。
あくまで「観測されたサンプル」から「未知の」母集団を推定することになります。
No.2
- 回答日時:
No.1 です。
「お礼」に書かれたことについて。>為替レートであるため、USD/JPY=140/100=1.40のように表しています。この場合、単位は[ドル/円]になります。
了解しました。
だとすると、[ドル/円] というより [セント/円] ですかね。
>すみません、左側累積確率 = 0.9はどこから算出しましたか?
信頼区間80%ということは、
下から10% ~ 下から90%
ということですよね?
「下から○○%」というのが「累積確率」ですから、信頼区間の上端の「変数値」を求めるために「90%」を使っています。(平均が 0 なら、下端は同じ値に「マイナス」を付けたものになる)
ご返信ありがとうございます。
詳しいご説明ありがとうございます。しかし、申し訳ありませんが、勘違いしていたかもしれません。これまで私が導出していたのは「母平均の信頼区間」ではないでしょうか?本来の目的である、誤差の母集団において誤差が取り得る80%信頼区間を導出する場合は以下の手順になりませんか?
始めに母平均=0とみなし、標本から求めた不偏分散0.004567689^2を母分散として、母集団は正規分布(0,0.004567689^2)に従うと仮定し、信頼区間は
±1.281551566*0.004567689となる。
No.1
- 回答日時:
どのような「平均」「標準偏差」をとったのでしょうか?
おそらく「予測値と実測値の差」なので、理想的には「平均は 0」になるのだと思いますが、そのときの「標準偏差」はどのような単位での値ですか?
まさか「円」ではありませんよね。
また「標本標準偏差」とは、「不偏分散の平方根」で求めたものですか? t分布を使うのであれば「不偏分散の平方根」を使わないといけません。
「平均」と「標準偏差」が正しいものであれば、その「80%信頼区間」の求め方の式は、「t(1743)40%点」が「片側 40%」という意味であれば正しいと思います。
なお、自由度1743のt分布の値は求められますか?
エクセル関数「T.INV(左側累積確率,自由度)」で「T.INV(0.9,1743)」を計算すると
1.282037459
と出てきますね。
自由度が 1743 もあれば、ほとんど「正規分布」と同じです。
ちなみに、正規分布で同様に「左側累積確率 = 0.9」の値を求めると
1.281551566
と出てきます。
ご返信ありがとうございます。
説明が不足しておりました。
>「標準偏差」はどのような単位での値ですか?
為替レートであるため、USD/JPY=140/100=1.40のように表しています。この場合、単位は[ドル/円]になります。標本を抽出しているため、誤差はありますが「平均は0」として構いません。
>「標本標準偏差」とは、「不偏分散の平方根」で求めたものですか?
その通りです。
すみません、左側累積確率 = 0.9はどこから算出しましたか?信頼区間は80%なので、どうしてか分からずお聞きしました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 ある会社の製品全体の質量mを推定したい。その製品をn個無作為に選んで測ったところn個の平均はm0であ 3 2022/07/29 12:18
- 統計学 以下の問題が分からないので計算式を教えてください ある企業が製造している電球の寿命の母平均と,母標準 3 2023/01/14 00:43
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 統計学 化学 物理 電気 とある実験で求めた抵抗値の測定から求めた標準偏差(124)を利用して計算された平均 3 2023/06/25 20:34
- 統計学 【統計】標本平均、標本標準偏差からt分布グラフ作成方法 9 2022/10/18 23:46
- 統計学 生物統計学の質問 7 2022/05/17 13:59
- 統計学 統計学の問題です 2 2022/08/18 14:50
- 統計学 統計学についての質問です。 2標本問題で A: サイズ32 平均62.2 標準偏差11.0 B: サ 2 2023/02/08 14:15
- 統計学 統計学の問題です。教えてください(_ _) 数万人の有権者がいる選挙区で, 無作為に400人の標本を 2 2023/02/03 15:27
- 統計学 ある集団の平均身長を調べたい. 集団全体を母集団とし, 母集団から無作為抽出した15人の平均身長が1 1 2023/02/03 15:26
このQ&Aを見た人はこんなQ&Aも見ています
おすすめ情報
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
平均値と中庸値の違い
-
数学Bの「統計的な推測」の【復...
-
エクセル STDEVとSTDEVPの違い
-
これは令和四年の平均身長なの...
-
またまた質問です。 平均2.210 ...
-
信頼区間についての質問です。
-
母分散と標本分散の違い
-
標準平均Xバーの標準偏差について
-
母標準偏差・標本標準偏差と標...
-
相関係数0.876 0.991 危険率...
-
切断された正規分布
-
母集団分布を平均 μ, 分散 σ2 ...
-
カニの標本
-
標本平均、分散、期待値・・・...
-
「平均の2倍 - 最小値」とは?
-
平均の加法性とは
-
高校数学の統計 非復元抽出での...
-
大数の法則と中心極限定理の違...
-
かにの標本の作り方
-
信頼区間とt検定
おすすめ情報