性格悪い人が優勝

数学がものすごく苦手です。
統計学の勉強は、分かる人なら数式を追って理解するのでしょうが、私の場合インターネットや書籍などで理解できるところだけを少しずつ増やしていく感じでやっています。
下記質問でも数式の書き方など間違ってるかもしれませんがご容赦ください。

今、回帰分析の信頼区間、予測区間の式について理解ができずにいます。

予測区間の式を一部抜粋すると、√Ve(1+1/n+(xーxbar/sxx)^2)となっています。

私の理解では、この式は分散の加法性の式なのかなと思って見ています。
1と、1/nと、(xーxbar/sxx)^2に対して、カッコの外にあるVe(分散)がそれぞれかかり分散となり、3つの分散を足しているのかなと。
そして最後にルートをかけることで標準偏差の形に持ち込んでいる。

(ここまでどうでしょう?もう全然違うよというのであれば、以下の質問も検討違いな質問になってしまいますがお付き合いください)

この3つの分散ですが、1はデータの分散、1/nは平均値の分散、
最後に(xーxbar/sxx)^2が、これが何の分散なのかわかりません。

xからxbarを引いたものを、xの偏差平方和で割ったもの・・・
これが何を意味するのかがわかりません。

サルでもわかる的な書籍がわからない私です。
どなたか何卒宜しくお願いいたします。

A 回答 (15件中1~10件)

#1です。



まだ、閉じていらっしゃらなかったのですね。だったら、もう一度整理して書かせて下さい。

回帰残差(説明が付かないもの)をσres(resはレジデュー)とすると、

①回帰線の存在範囲つまり信頼区間は、以下の合計(分散の加法性を利用)

・回帰線の上下ばらつき=切片のばらつき(y平均のばらつき)=σres/√n
※平均値のばらつきはσ/√nだからです。

・回帰係数のばらつきに起因するばらつき=(x-xbar)×√V(β)
※傾きβの分散V(β)の平方根が傾きのばらつきですが、その影響は回帰線の重心から離れるに従って大きくなることを意味しています。(回帰線はx重心、y重心を必ず通ります)

②データの存在範囲つまり予測区間は、それに加えて、

・データのばらつき=1×σres


さて、
②の予測区間の分散の和は、σres^2=Ve・・・誤差分散とすると、

Ve+Ve/n+(x-xbar)^2×V(β)・・・(1)

ここで、回帰線の分散はV(β)=(XTX)^-1・σres^2=1/Sxx・Ve

式(1)のVeを共通因数として前に出すと、

Ve(1+1/n+(x-xbar)^2/Sxx)・・・これが分散の加法性の結果

よって、95%予測区間は、

t(φ,0.05)×√{Ve(1+1/n+(x-xbar)^2/Sxx)}ルートは最後まで含む

なお、φ=nー2
    • good
    • 0
この回答へのお礼

非常に早くからご返答頂きまして真に有難うございます。

No.1、2のご回答に対して、もっと早く返信したかったのですが、自分には理解が及ばない所がいくつかあり、インターネットで調べたり、返答の下書きを作ったりして、これまでずっとお礼を言えずにいました。
(何せ、ピンとくると仰られたところにピンとこないレベルです)

そんな中No.3のご回答を頂きまして、ご回答者様のお気遣いには頭が下がります。有難うございます。

まずはNo.1とNo.2のご回答に対して・・・

◆質問文中の式が間違っている件についてご指摘有難うございます。
正しい式は分かっているのですが、これはうっかりミスでした。

◆予測区間の式は分散の加法性であるという点について、
理解が正しいと言ってもらえるだけで、非常に前進しました。


続いてNo.3のご回答に対しまして、

◆>>回帰残差(説明が付かないもの)をσres(resはレジデュー)とすると・・・の所ですが、回帰残差とは、SEとかSSEと呼ばれているもので、式は、Σ(yi-yhati)^2ですか?(平方和ですか?)


◆>回帰係数のばらつきに起因するばらつき=(x-xbar)×√V(β)・・・との所ですが、回帰係数とは傾きのことですよね?よく回帰式はY=ax+bで紹介され傾きはaですが、ご回答者様はこれをβと置いて説明されているんですよね?


◆>ここで、回帰線の分散はV(β)=(XTX)^-1・σres^2=1/Sxx・Ve・・・の所ですが、行列でご解説されている所は中学数学レベルの私に立ちはだかる壁になっています。なので上記式の行列の所は省略して、
V(β)=1/Sxx・Veだと受け入れることにしました。

なぜ、 1/SxxにVeを掛け算したものが、V(β)なのかと、
Sxxがどこからどう出現したのかは分からないままです。
行列が分かれば理解できるという感じなんでしょうか。
もし言葉でうまくご説明できるものであれば伺ってみたいです。
(甘えですが・・・。行列は少しずつ頑張ります)


◆ご解説頂きましたお蔭で流れが何となく見えました。
自分にとってはすごい成長です。ありがとうございます!

お礼日時:2021/07/09 16:52

#14です。



自由に手法を発想されるのは良いですが、それが合っているかどうか聞かれても、単に、「ダメ」「無理」と回答するだけなら簡単なんですが、理由を書くのは結構面倒です。
ここまでくると、専門書を購入して読まれた方が良いかと思います。


>(点推定値)± T値・ √Ve(1/n+(xーxbar)^2/Sxx)
これが何の作業をしているところのご説明なのかが分かりません。
それとYhatが正確/不正確は、どう見極めるのかということが分かりません。

何の作業かは、この式は回帰線の信頼区間の式ですから回帰線のばらつきを求めています。これは偶然誤差の区間推定とは別物だと説明しています。
また、この式から分かるように、nが膨大で、Sxxが大きい(つまりx軸方向に幅広くデータが取られている=これをテコ比が大きいと言いますが)ならば、この式の値は極めて小さくなりますので、Yhatは僅かなばらつきしかなく回帰線は正確ということが分かります。
我々実務者は、実験データを整理するときに回帰線の信頼区間がネグリジブル・スモールだと判断できるときは単に偶然誤差の区間推定分(±1.96σ)だけを表示する場合があります。実は、実験データの要因効果図は、回帰線というかモデルの不安定分は考慮されていないグラフです。企業内教育ではこんなことを説明しています。


>通常の予測区間の式を使うか、ブートストラップ+区間推定を使うかは、常に後者でやるのではまずいのでしょうか?

常にブートストラップ+区間推定でやっても構いません。でもモデルが変わるたびに大量の演算が発生するので、コンピュータの負荷は高くなります。


>でも各Xで何個もサンプルが集められる場合、このやり方はダメなのでしょうか。

実際に実験などで同じ点で何個も観測が可能であれば、やっても構いません。


>回帰の推定値Yhatがどれだけ変化するかは、データだけでは決まりません。回帰をやってみないと決まりません。という意味が分かりません。

グネグネのデータに1次式を当てはめるのか、高次式を当てはめるのか、それが決まらないと残差が計算できません。
それが決まれば、とりあえず点推定値が計算できるので残差も計算でき、偶然誤差分の区間推定はできます。しかし、そのグネグネの線自体がどれだけばらつくのか(信頼区間)は、理論的に求められない場合は、別の手段で求めなければなりません。その手段はグネグネ度合というかモデルに依存します。
その一つがブートストラップ法です。


>各Xごとに何個もサンプルが集められる時、各X地点でのグラフを作っていけば、それは回帰分析の予測区間と同等だと思ったのですが。

実測データであれば、そうです。
しかし、ブートストラップ法で何本も回帰線が出来たとき、あるxを代入すれば、その点で何個もサンプルが得られることになり、この何個ものデータが1万個あったとき、2501点目~9750点目の範囲は信頼区間であり、予測区間ではありません。
では、予測区間がどうなるかと言えば、各5000点目の値を結んだ線が回帰線になりますから、回帰線上の点と実測値の乖離の二乗和の平方根をσresとして、±1.96σresを取ったものになります。
何を集めているか(実測の生データか、モデルから生み出されている値か=偶然誤差を含んでいるか、いないのか)で異なります。
    • good
    • 0
この回答へのお礼

ご回答頂きまして真に有難うございます。

Yhatが正確/不正確について理解できました。
信頼区間が狭ければ正確ですね。それが信頼区間というものだろ!と、当たり前のことですが理解が繋がってなかったです。



ブートストラップを使った予測区間を求める方法としては、

◆Yhatが正確なら(ブートストラップ9500本の回帰線の幅が無視できる程狭い)なら、ブートストラップの各5000点目を結んで作った回帰線(大雑把に見て直線かもしれないし、グネグネかもしれない)と、その上下に偶然誤差の区間推定分だけ表示する(場合がある)

偶然誤差の区間推定分の求め方は、上記回帰線上の点と実測値の乖離の二乗和の平方根をσresとして、±1.96σresを取る。

◆Yhatが不正確なら、9500本の回帰線で、信頼下限と上限のラインが見えるので、そこに、上記同様偶然誤差の区間推定分±1.96σresをグラフに足す。

(これだと分散の加法性で足してないので、予測区間が大きくなると思うが、まあ安全方向か)

これはご回答者様の下記コメントの所が理解できておらず(分散の加法性でブートストラップの信頼区間と予測区間を足してなさそうなので)、今の自分ではとりあえずこんなやり方しかできないなと思い書きました・・・


“では、予測区間がどうなるかと言えば、各5000点目の値を結んだ線が回帰線になりますから、回帰線上の点と実測値の乖離の二乗和の平方根をσresとして、±1.96σresを取ったものになります。”


短絡的な思考で、色んな所でご回答者様が伝えようとしている意図とは違った理解をしてしまっているんだろうなと思っています。
元より、分からないと思って放置状態のセンテンスも多々あります。

専門書も読むべきですが理解できる専門書が無く、でも諦めたくなかったので、ここまで甘えさせて頂いておりました。

とても長いやり取りになってしまいご負担をお掛けしましたこと、大変申し訳なく思います。

お付き合いいただきまして、真に有難うございました。

心よりお礼申し上げます。

お礼日時:2021/07/22 17:15

#13です。



①“√xに比例する誤差”

事例を図で示します。横軸が「地積(平米)」縦軸が「土地価格」です。薄くて見にくいですが緑色の線が予測区間で、放物線のように広がっています。これが√x に比例して誤差が大きくなるというポアソン回帰の例です。


②“「回帰線の不安定分」が上乗せされることを忘れないで下さい”

これはご質問者が書かれた区間推定の式(修正しました)
Yhat ± T値・ √Ve(1+1/n)
が間違っていることを言っています。1/nが不要です。
ここの説明は、誤差変動なので、平均値変動Ve/nは入れてはいけません。平均値変動は切片変動なので回帰線のばらつきの方に含まれると考えて下さい。
信頼区間:切片変動+回帰変動
予測区間:信頼区間に誤差変動を加えたもの
私は、予測区間で追加される誤差変動分を区間推定として考えることが可能だと申し上げています。Yhatが正確ならば、単に±1.96σを上下に取るだけです。Yhatが不正確なら、それは回帰の不安定分なので信頼区間として考慮しなければなりません。それは、
(点推定値)± T値・ √Ve(1/n+(xーxbar)^2/Sxx)
となります。


②’ 各Xの所ごとにN数を集めて、例えば下記のように
X=1のところでN=30程集めて平均値と区間推定
X=2のところでN=30程集めて平均値と区間推定・・・

違います。各Xで何個もサンプルが与えられている訳がありません。区間推定は残差から求めた代表値σresを使って行います。
また、回帰の推定値Yhatがどれだけ変化するかは、データだけでは決まりません。回帰をやってみないと決まりません。だから平均値変動を区間推定で考慮することは上でも指摘したようにできません。


③ブートストラップの件。
重複を許して再標本化とは、例えば①②③④⑤と5個のデータが有る場合に、重複を許すということは、
再標本1回目:①②②④⑤
再標本2回目:①③③③④
こんな感じのことを10000回やるということでしょうか?

はい。

③’ ブートストラップは同じデータからの再抽出の為、基本的に回帰直線は似たような線になりますね。
平均値が少し上下すると思うので10000回の回帰直線はY方向に幅を持ち、さらに傾き具合も少し変わるのでラッパの様に開くんですね。
これがご回答者様の仰られた、“切片変動+回帰変動で、回帰の信頼区間”ということなのかなと思って読んでいます。

はい。

③’ でもブートストラップで求めた信頼区間に、データのばらつきを分散の加法性で足さないといけないんですよね?

はい。


④話が読めなくなってきました。
各Xの所で信頼区間を求める方法と、ブートストラップで求める方法と2つあるということでしょうか?

はい。
直線回帰では、そもそも最初の質問投稿で書かれた信頼区間、予測区間の式が導出されます。そして、その式はxを含んでいるので、各xの箇所で値が求められます。こんなふうに解析的に解けるのは特殊ケースだと申し上げました。「等分散の仮定」という強い制約の下で解いているからです。
非線形回帰では、信頼区間の式が求められないケースがあります※。そんなときにブートストラップ法を使って信頼区間を求めます。これにデータの区間推定分を分散の加法性を使って加えれば予測区間になります。この方法であれば√xやyに比例する誤差でも考慮することが可能です。

※一般化加法モデルというノンパラメトリック回帰が該当します。
「回帰分析の信頼区間、予測区間について」の回答画像14
    • good
    • 0
この回答へのお礼

ご回答頂き真に有難うございます。

①②の件
√xのグラフのご添付有難うございます。

手持ちデータのプロットがこういう広がり方をする場合、予測区間の式は根拠ある値にならないということですね。

間違ってるかもしれませんが今の私の理解をまとめさせて下さい。

▼手持ちデータのプロットが等分散仮定では無い場合は予測区間の式を使えない。

▼こういう時はブートストラップで回帰の信頼区間(切片変動+回帰変動)を求め、

▼上記に誤差変動を加えることで、予測区間を求められる。

▼誤差変動は区間推定で求める。式は Yhat ± T値・ √Ve(1)

▼誤差変動を分散の加法性で足す

どうでしょうか。
ただちょっと分からないところがあり、下記ご説明頂いた所に関して、

“Yhatが正確ならば、単に±1.96σを上下に取るだけです。

Yhatが不正確なら、それは回帰の不安定分なので信頼区間として考慮しなければなりません。

それは、(点推定値)± T値・ √Ve(1/n+(xーxbar)^2/Sxx)となります。“

これが何の作業をしているところのご説明なのかが分かりません。

それとYhatが正確/不正確は、どう見極めるのかということが分かりません。

分散の加法性で足す方法について確認したいのですが、ブートストラップで求めた信頼区間は、回帰線9500回分プロットであり言わば絵なのですが、ここからどうやって分散の値を取り出せばいいのでしょうか。

通常の予測区間の式を使うか、ブートストラップ+区間推定を使うかは、常に後者でやるのではまずいのでしょうか?

②‘の件

てっきりこういうやり方をイメージしていました。

でも各Xで何個もサンプルが集められる場合あったとしても、このやり方はダメなのでしょうか。

“回帰の推定値Yhatがどれだけ変化するかは、データだけでは決まりません。回帰をやってみないと決まりません”

ここが分かりません。
各Xごとに何個もサンプルが集められる時、各X地点での

平均値ーT値・ √V(1+1/n)+  ≤ μ  ≤  平均値+T値 ・ √V(1+1/n)
を求め、グラフを作っていけば、それは回帰分析の予測区間と同等だと思ったのですが。

中々理解が追いつかず質問が多岐に渡り申し訳ありません。

お礼日時:2021/07/20 18:46

#12です。



X=1のところでの平均値と区間推定
X=2のところでの平均値と区間推定
X=3のところでの平均値と区間推定
X=4のところでの平均値と区間推定・・・とやっていき、グラフを完成させるということでしょうか。

データ誤差ε分については、まさにそのとおりです。以前お話しした√xに比例する誤差という条件等を満たしながら計算します。

t値×√Ve(1) の部分に相当します。この式の1の部分が常に1じゃない場合に対応できます。

ただし、これに「回帰線の不安定分」が上乗せされることを忘れないで下さい。頂いたコメントはここが間違っています。

直線であれば、切片変動+回帰変動で、回帰の信頼区間というものです。ここが重要ポイントです。

t値×√Ve(1/n+(x-xbar)^2/Sxx) の部分に相当します。

回帰線のばらつきに関しては、ブートストラップ法という方法で信頼区間を計算します。それを分散の加法性を使って加算します。

例えばn=30のサンプルで回帰線を求めたのであれば、n=30から重複を許して再標本化し回帰線を求めます。サンプルが違いますので少し違う回帰線ができます。これを何度も繰り返し、各x点における回帰線の95%存在範囲を求めます。10000本の回帰線のうち上下250本ずつ取り除けば良いです。

これは、グネグネの曲線の信頼区間を求めるときの定石のひとつです。
ちょうど、次のHPに直線回帰の信頼区間を求めるイメージ図があります。

https://qastack.jp/stats/183230/bootstrapping-co …
「回帰分析の信頼区間、予測区間について」の回答画像13
    • good
    • 0
この回答へのお礼

今回もご回答頂きまして真に有難うございます。
また、私からの返答が遅くて申し訳ありません。
読むだけだと理解できず、PCが使える時にパワポでご回答整理しながら読ませて頂いてます。


①“√xに比例する誤差”の所、
この言葉が初登場したところも読み直したのですが理解できず、
私にはこの言葉が唐突に現れたように見え、どこから現れたxなのか、なぜ√がかかってるのかなど分かりません。
補足説明をお願いできませんでしょうか。
“条件を満たしながら計算する“と仰られた所も何か計算上の手続きがあるということでしょうか?


②“「回帰線の不安定分」が上乗せされることを忘れないで下さい”
これは私が書きました区間推定の式

XbarーT値・ √V(1+1/n)+  ≤ μ  ≤  Xbar+T値 ・ √V(1+1/n)
に(x-xbar)^2/Sxxが入ってないということを仰っているのでしょうか?


各Xの所ごとにN数を集めて、例えば下記のように
X=1のところでN=30程集めて平均値と区間推定
X=2のところでN=30程集めて平均値と区間推定・・・

このように各Xの所ごとに信頼区間を出しているので、重心から遠くなるが故のゆらゆら分の項は不要かなと思ったのですが。


③ブートストラップの件。
重複を許して再標本化とは、例えば①②③④⑤と5個のデータが有る場合に、重複を許すということは、

再標本1回目:①②②④⑤
再標本2回目:①③③③④

こんな感じのことを10000回やるということでしょうか?


ブートストラップは同じデータからの再抽出の為、基本的に回帰直線は似たような線になりますね。

平均値が少し上下すると思うので10000回の回帰直線はY方向に幅を持ち、さらに傾き具合も少し変わるのでラッパの様に開くんですね。

これがご回答者様の仰られた、“切片変動+回帰変動で、回帰の信頼区間”ということなのかなと思って読んでいます。

でもブートストラップで求めた信頼区間に、データのばらつきを分散の加法性で足さないといけないんですよね?


④話が読めなくなってきました。
各Xの所で信頼区間を求める方法と、ブートストラップで求める方法と2つあるということでしょうか?

お礼日時:2021/07/19 18:00

#11です。



丁寧なコメント、本当にありがとうございます。こちらこそ、お付き合いありがとうございました。

>予測区間というのが、やはり特殊ケースだ

ではなく、予測区間を「あの式で求めることが出来るのは特殊ケース」です。

予測式って、1次式=直線だけではないですよね。グネグネの曲線のときもあります。むしろ、実際の加工工程では直線でないことの方が多いです。
そのようなケースでも、別の方法で信頼区間、予測区間は算出されます。

そのようなグネグネの曲線のとき、実際の特性値はどこまで行く可能性があるのか±3σの幅を予測せよ、あるいは加工条件の管理幅をそれから決めよう、という問題に直面したとき、別の方法で求めた予測区間が用いられます。

ご質問者様は、これを回帰分析の項目として学習されたと思いますが、全体が見通せないので理解が大変だったとお察しします。それは教科書を執筆した人の都合でしかないからです。

利用者からみれば、条件を変えたときの加工結果を予測をしたいという動機があって、予測線は直線からグネグネまで色々あるという全体を俯瞰して(点推定)、では予測線の上下にどれだけ「ばらつき」が乗ってくるのか(区間推定)、という順序で予測区間を考えると思います。

「区間推定」であれば、平均値の区間推定などで学んでいるので、すんなり入っていけますよね。

今後、仲間にご説明されるときは、是非、現場視点の順序でお話しして下さい。
    • good
    • 0
この回答へのお礼

すいません、本当に質問をクローズしようと思ってたのですが・・・・

もう少し教えてください(申し訳ありません)

回帰分析の予測区間を学んだので、つい、『これを使うんだ!』と意気込んでやってきたのですが、それ以外の方法として、

グラフ横軸の各xにおいて、いくつか測定値を取得し、その平均値を求め、さらに区間推定をする。ということですか?

この様に、

X=1のところでの平均値と区間推定
X=2のところでの平均値と区間推定
X=3のところでの平均値と区間推定
X=4のところでの平均値と区間推定・・・とやっていき、グラフを完成させるということでしょうか。

これだと回帰直線がグネグネでも対応できますね。『その手が有ったか!』と、目からうろこの方法です。

違いますと言われると、ここからの話も無駄になってしまうのですが、

“区間推定”の勉強は、“平均値の区間推定”としか学んでません。

それは回帰分析で言えば、“予測区間”ではなくて、“信頼区間”に相当する内容ですよね。

平均値の区間推定の式は(式が自己流な書き方かもしれませんが)

XbarーT値・σ/√n ≤ μ ≤  Xbar+T値・σ/√n 

上記の式に(回帰分析の予測区間でならったように)さらにデータのばらつきを分散の加法性で加えて、

XbarーT値・ √V(1+1/n)+  ≤ μ  ≤  Xbar+T値 ・ √V(1+1/n)

とすればいいでしょうか。

何度も質問してしまってすいません。

>予測区間というのが、やはり特殊ケースだ
>ではなく、予測区間を「あの式で求めることが出来るのは特殊ケース」です

多分こういうところですよね。

ご回答者さまのおっしゃるように理解できていましたが、頭の中で正しく言葉を整理できていない・・・

こういう国語力が数学力に繋がってるんでしょうね。

お礼日時:2021/07/16 12:12

#10です。



>この掛け算は回帰線のゆらゆらする量が距離に比例するということなんですが、本当に丁度良い根拠ある大きさになるのだろうか・・・

もやもや感分かりますよ。こんな絵に描いた餅のように、常になるわけは無いです。

冗長ですが整理しておきましょう。
予測区間の式全体は分散の加法性を使って、次の「予測式y=ax+b+ε の3つの項の誤差」の二乗和を計算していることは、お分かり頂けたと思います。ここで、σres=√Ve です。

(1)データのばらつきεは、各実測値が回帰線からどれだけy(=予測値)方向に離れているかの代表値σresを使います。

(2)切片項のばらつきΔbは、これは回帰線がx重心y重心を通るという性質からその点でのy(=予測値)方向のブレを考えればよいです。その点というのはまさしくy平均ですので、平均値のばらつきσres/√nを使います。

(3)回帰項のばらつきΔaxは、重心でのばらつきは0です。傾きaの直線が、回帰線のばらつきwによって傾き(a+w)に変化すると、y(=予測値)方向の誤差の大きさは、
Δy=y’ーy={(a+w)x+b}-{ax+b}=wx
です。よって回帰線のばらつきwに重心からの偏差xを掛けたものを使います。
掛け算のイメージは「比例」です。ばらつきはxに比例して増えていきます。


これが本当に妥当かどうかは、次の「誤差の仮定」によります。

「等分散仮定」これは各データのばらつきが、回帰線の横軸のどこにあっても等しい程度でばらつく、という仮定です。この仮定のもとで上記の式は妥当です。

「ポアソン仮定」これは各データのばらつきが「平均がλのときは分散もλ」というポアソン分布のようにばらつく、という仮定です。データの予測区間は原点を起点として「放物線」のように広がります。なぜなら横軸がxのときは、ばらつきは√xに比例して増えていますからね。

「変動係数一定仮定(ガンマ仮定)」これは各データのばらつきが、平均値の何%という一定の比率で増えるようにばらつく、という仮定です。データの予測区間は原点を起点として「三角形」のように広がります。

後の二者では、上で求めた予測区間の式は丁度良い根拠のある値にはなりません。


「回帰係数がばらつきを持つとき、予測ばらつきの回帰係数依存分はxに比例して増える」というのは回帰線が直線つまり「Δax=(a+w)x-ax=wx」で、かつ「σres(これは回帰係数ばらつきwの式に使用される)が単純な平均(=√(Se/n))で求めることが出来る」からこそ言えることです。

言い換えれば、
・予測式中の回帰係数aの依存項が1つでそれはxの1次式。
・回帰係数aのばらつきΔaを表す式に出てくる残差σresがxに依存しない。
という場合にのみ成立します。

実は、このように厳しい条件が課せられたときにしか、丁度良い値とは言えないのです。

一般の教科書は、まずこの予測区間の式を持ち出して「こうだ!」って言っておきながら、学習が進むとそれを全否定します。
私が担当する企業内教育では、最初からあらゆる予測方法を俯瞰して、その特殊ケースとして予測区間の式の説明をしています。
    • good
    • 0
この回答へのお礼

ご回答頂きまして真に有難うございます。

ご回答者様の理解の深さには畏敬の念すらいだきます。

また、こんなにも私の質問に向き合っていただき、その懐の広さにも感激しております。

話はそれますが、私は小学校1年の算数で挫折しました(笑うところです)

そんな私が現場作業者として統計学を学んできました。

しかし、自分レベルではどうしても分からないのです。

簡単だという本ですら分からず、『これが分かるんだったら現場作業者してないよ!』と心の底で思っていました。

(世間の現場作業者を見下しているわけではありません、自分を卑下して思っているのです)

特に、自分に分かるレベルで教えてくれる先生がどこにもいないということに関して絶望しました。

なので、自分みたいな出来ない人間が、自分の力で統計学を1つづつ理解していくことができれば、それこそ現場のみんなの力になると考えてここまでやってきました。

ご回答者様におかれましては、そんな私に応えていただき、このような方がいるんだということだけで報われる思いです。

あらためて感謝申し上げます。

ご回答いただいた内容ですが、

冒頭のご回答を拝読しまして、質問していたもやもや感が自分の中で整理された感があります。
ここまでの理解を補強する上でも大変助かりました。

>これが本当に妥当かどうかは、次の「誤差の仮定」によります。

ここより後のパートに関しては、理解及ばずでした。

最初にひっかかったのは√xに比例して増えると仰られた所で、何のことだっけ?となってしまいました。

その後も自分には厳しい内容でした。

しかし収穫もありました。

予測区間というのが、やはり特殊ケースだと仰られたところです。

どう特殊なのかは上記の通り分からずでしたが、“特殊なんだ“ということが分かったことが自分の中での前進です。

ご回答者様は企業内講師を担当されているようですが、その授業に参加できる人は幸せだと思います。

これからもお力を発揮してください!

有難うございました。

お礼日時:2021/07/15 18:30

#9です。



コメント、ありがとうございます。内容、読みました。間違っていません。
敢えて訂正するなら(私も間違えたので大汗なんですが・・・)、

>傾きの分散Ve/Sxxに、xbarからの距離が掛け算されているということですね。

>傾きの分散Ve/Sxxの「平方根」に、xbarからの距離が掛け算されて「回帰係数ばらつきに依存する推定結果のばらつき」を表現している。それを2乗したものを回帰変動と言っている。
2乗するのは、モデルを下の式(3項)だとすると、「データの偶然ばらつきε」「切片項bのばらつき」「回帰係数a依存のばらつき」の3項のばらつきを合算するのに分散の加法性を利用したいため。

y=ax+b+ε

この先、項が増えれば増えただけ、ばらつきを合算する項も増えます。また推定しているパラメータはab2つありますので、全体の自由度はφ=nー2ですが、推定するパラメータが増えれば自由度も小さくなります。


是非、高度な統計解析を手の内化し業務に役立てて頂ければと思います。
    • good
    • 0
この回答へのお礼

いつもお世話になっております。

正しくご訂正頂きまして、真に有難うございます。
曖昧な理解が矯正されるので、とても助かります。


一件落着というところでは御座いますが、もう1つ教えて欲しいことがありまして、恐縮ながらもう少しお付き合いいただけないでしょうか。

(ここまででも大変お手数をお掛けしてますので贅沢は言えないのですが・・・)


分からないのは、傾きの分散の平方根と、xbarからの距離の掛け算に関してです。


掛け算の使い方としては、小学校で初めて習うような、鉛筆が3ダースあるから12×3=36本とか、サイコロ2個の出目は6×6=36通りなどは分かります。

鉛筆の例では、12個あるものが3セット。サイコロの例では、6本の線と6本の線の交差する点の数がサイコロの出目の組み合わせという風に、掛け算のイメージが持てるからです。


一方で、傾きの分散の平方根と、xbarからの距離の掛け算は、どうしてこの掛け算をすると、求めたいものになるのか?が分からないのです。


この掛け算は回帰線のゆらゆらする量が距離に比例するということなんですが、本当に調度良い根拠ある大きさになるのだろうか・・・


私のもやもや感、なんとなくお分かりいただけるでしょうか・・・・

もしかしたら、私が理解できなかった行列のご解説の所にヒントがあるのかなと思ったりもします。


でもこの質問を書いていて、ふと思いました。

これは多分ご解説頂いても、自分には理解できない領域かもしれず、もし御回答いただけたとしても、 沈黙してしまうかもしれません・・・

数学ができないでずっと来た私の苦しみ、ご理解頂ければ幸いです。

お礼日時:2021/07/13 18:16

すみません。

1か所間違えました。

[誤]回帰変動V(xβ)はこれに(x-xbar)を掛けたものです。



[正]回帰変動V(xβ)はこれに(x-xbar)^2 を掛けたものです。


βの上下にゆらゆらする量は、傾きの標準偏差に(x-xbar)を掛けたもので、その分散はその2乗ですね。ここがよく間違えるんですよね。

すみません。
    • good
    • 0
この回答へのお礼

何度も丁寧なご回答頂きまして、真にありがとうございます。

以前のものも含めて、教えて頂きました言葉を再整理致しました。
多分合ってると思います・・・。

・S(SS、Sum of Squre):偏差平方和
・Se(SSE):誤差平方和(残差平方和) ・・・式は、Σ(yi-yhati)^2 (SEと大文字で書いてしまうと標準誤差になってしまう)
・Ve:誤差分散・・・式はSe/n
・se(σres):回帰残差。回帰直線からの残差でありYbarからの残差ではないことに注意。上記残差平方和をnで割ってルートで開いたもの。つまり標準偏差(se)・・・式は√(Se/n)
・SE:標準誤差・・・式は√(Ve/n)

・残差: yi-yihat 

>「予測区間の回帰残差依存分」とか言うと、それはσのオーダーという意味です。

ここでおっしゃておられるσのオーダーとは、回帰残差(σres)のこと

・β:単回帰の回帰係数。Y=ax+bのa(傾き)を回帰分析の世界ではβ(またはb)と呼ぶ。・・・式はβ=Sxy/Sxx
・ V(β):単回帰係数の分散。式はV(β)=σres^2/Sxx=Ve/Sxx
・ V(xβ):回帰変動。式はVe/Sxx・ (x-xbar)^2  回帰直線の重心からx軸方向に離れれば、それに比例する変動


当初の質問は解決できたように思います。
厳密に理解出来ているわけではないのですが、
傾きの分散Ve/Sxxに、xbarからの距離が掛け算されているということですね。

一般的に紹介されている予測区間の式は、
(xーxbar)^2をSxxで割ったものに、外出しされたVeがかかってるので、(xーxbar)^2をSxxで割ったものが何を表しているのか?と引っ掛かっていました。

お礼日時:2021/07/12 17:48

補足です。



スモールsは、standard deviation=標準偏差です。
スモールeは、error=誤差です。
seは誤差の標準偏差です。

ラージSeは、誤差の平方和です。誤差はもともと偏差ですから偏差平方和とは言いません。
ラージVは、Variance。Veは誤差分散、Se/n。
その平方根がseあるいはσe。

しかし回帰の場合は、σeと書くと、y平均からの偏差の代表値と混同されてしまいます。Syyから求められる値と混同されるのです。

回帰の場合は回帰線からの偏差を考えますので、それを回帰残差と呼び、その代表値をσresと書きます。

このあたりが、文献やサイトによってまちまちなので戸惑われるでしょう。

単回帰の回帰係数は、β=Sxy/Sxx
単回帰係数の分散(あるいは変動)は、V(β)=σres^2/Sxx=Ve/Sxx
回帰変動V(xβ)はこれに(x-xbar)を掛けたものです。

なぜ、βxでなくてxβなのかは、行列の掛け算のルールだからです。

回帰変動V(xβ)がご質問の最後の項になるのですが、これが絵的には説明できない部分です。
回帰線は、x重心、y重心を通ってシーソーのように傾きβの上下にゆらゆらしているのです、としか言いようがありません。

信頼区間、予測区間の式は、xの関数になっているということです。横軸の値によって、その大きさが変わるということです。そういう意味もありますので、ご注意下さい。
    • good
    • 0

統計分野の言い回しや、用語に慣れていらっしゃらないようですね。




>回帰残差=σres=標準偏差と来ましたが、厳密にはこれも違って、予測値と実測値の差をすべて足した、期待値ゼロとなるものというものということでしょうか。

厳密に残差というと、yi-yi_hat ですよね。残差はそれぞれの観測値について算出されますからn個あります。誤差を評価するときは足してはいけません。足すと合計は0になります。2乗してから足してnで割ります。それが分散とか変動と言われるものです。
ところで、残差に依存して信頼区間が変わるのですが、そのときの残差は、1個1個の残差ではなく、2乗してから足してnで割ってルートで開いたものを代表値として使います。それがσresです。
私が回答中で使っている「残差依存分」の残差は、厳密な意味の残差ではなく、残差の代表値σresを便宜上残差と呼んでいるのです。


>最後のσのオーダーとおっしゃられたのは、○○オーダーという言い方がどういう意味かよくわからず、理解できませんでした。

〇〇のオーダーという言い回しは理科系の人が良く使う言葉で、ディメンジョン(次数・単位)のことです。
「2乗のオーダー」とか「Kgのオーダー」のように使います。
σのオーダーというのは、1乗の単位という意味です。
SSEは2乗の単位です。
「残差はSSEではないのですね」と聞かれましたから、「いいえ、単位が違います」という答えを述べたのです。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!