つらい・・・

回帰分析の信頼区間、予測区間について

解決済

質問者：hecunhehui
質問日時：2021/07/01 23:16
回答数：15件

数学がものすごく苦手です。
統計学の勉強は、分かる人なら数式を追って理解するのでしょうが、私の場合インターネットや書籍などで理解できるところだけを少しずつ増やしていく感じでやっています。
下記質問でも数式の書き方など間違ってるかもしれませんがご容赦ください。

今、回帰分析の信頼区間、予測区間の式について理解ができずにいます。

予測区間の式を一部抜粋すると、√Ve（１＋１／ｎ＋（ｘーxbar／ｓｘｘ）＾２）となっています。

私の理解では、この式は分散の加法性の式なのかなと思って見ています。
１と、１／ｎと、（ｘーxbar／ｓｘｘ）＾２に対して、カッコの外にあるVe（分散）がそれぞれかかり分散となり、３つの分散を足しているのかなと。
そして最後にルートをかけることで標準偏差の形に持ち込んでいる。

（ここまでどうでしょう？もう全然違うよというのであれば、以下の質問も検討違いな質問になってしまいますがお付き合いください）

この３つの分散ですが、１はデータの分散、１／ｎは平均値の分散、
最後に（ｘーxbar／ｓｘｘ）＾２が、これが何の分散なのかわかりません。

ｘからｘbarを引いたものを、ｘの偏差平方和で割ったもの・・・
これが何を意味するのかがわかりません。

サルでもわかる的な書籍がわからない私です。
どなたか何卒宜しくお願いいたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (15件中11～15件)

ベストアンサー優先
最新から表示
回答順に表示

No.6

回答者： kamiyasiro
回答日時：2021/07/09 19:00

#5です。

厳密には、回帰残差は予測値と実測値の差ですから、全体ではｎ個あり、正負の値を持ち、期待値は０になります。

でも、「予測区間の回帰残差依存分」とか言うと、それはσのオーダーという意味です。

- 0
- 件

通報する

この回答へのお礼

引き続きお世話になります。

回帰残差＝σres＝標準偏差と来ましたが、
厳密にはこれも違って、
予測値と実測値の差をすべて足した、期待値ゼロとなるものというものということでしょうか。

最後のσのオーダーとおっしゃられたのは、
○○オーダーという言い方がどういう意味かよくわからず、理解できませんでした。

大変親切に教えていただいているなかで、やはり文字だけということもあり、御回答者様にお手間をかけまして申し訳ない気持ちでいっぱいです。

申し訳ありません。

通報する

お礼日時：2021/07/09 22:13

No.5

回答者： kamiyasiro
回答日時：2021/07/09 18:20

#4です。

＞回帰残差＝σres＝標準偏差であって、SSEではないということですね？

(1)「残差平方和は・・・」とかいう文脈で使われます。残差はσです。二乗和SSEや分散Veを「残差」とすると残差平方和は４乗になってしまいますね。

(2)SSEという略号はあまり見かけないのですが、SSつまりSum of Square ですから標準誤差SEとは区別できますよね。でもSSEはｎで割っていない、平方根でもない値です。残差の単位は、偏差平方和をｎで割って平方根を取ったものです。SSEではありません。

- 0
- 件

通報する

この回答へのお礼

お世話になっております。
なかなか理解できず、どう返答しようか今も悩んでいます。

＞「残差平方和は・・・」とかいう文脈で使われます。
ここなんですが、主語が読み取れずにいます。というか、話の意図が読み取れず・・・すいません。

また、SSEというのはマイナーな言葉なんですね。
インターネットで見つけた言葉なんですが、色々他の呼び方があったりで、言葉の決定版というべきものが見つからず困ってました。

通報する

お礼日時：2021/07/09 22:04

No.4

回答者： kamiyasiro
回答日時：2021/07/09 17:27

#3です。

コメント、ありがとうございます。

◆＞＞回帰残差（説明が付かないもの）をσres（resはレジデュー）とすると・・・の所ですが、回帰残差とは、SEとかSSEと呼ばれているもので、式は、Σ（yi-yhati）^2ですか？（平方和ですか？）

ラージS（あるいはSS、Sum of Squre）は偏差平方和を表しており残差平方和（誤差平方和）はSe、それをｎで割ったものが誤差分散Veです。スモールseまたはσresはその平方根で標準偏差（誤差，残差）です。
なお、SEのようにEに大文字を使用すると、標準誤差（Standard Error）となり、意味が違ってきます。標準誤差は√(Ve／n)です。

◆＞回帰係数のばらつきに起因するばらつき＝(x-xbar)×√V(β)・・・との所ですが、回帰係数とは傾きのことですよね？よく回帰式はY=ax+bで紹介され傾きはaですが、ご回答者様はこれをβと置いて説明されているんですよね？

はい。統計の本を読み進めて重回帰分析を扱うようになると、回帰係数はβあるいはbボールドが使われるようになります。

◆＞ここで、回帰線の分散はV(β)＝(XTX)^-1・σres^2＝1／Sxx・Ve・・・の所ですが、行列でご解説されている所は中学数学レベルの私に立ちはだかる壁になっています。なので上記式の行列の所は省略して、
V(β)＝1／Sxx・Veだと受け入れることにしました。

導出過程を添付します。

- 0
- 件

通報する

この回答へのお礼

ご回答ありがとうございます！

ただ整理しただけですが、下記であってますでしょうか。

・S（SS)：偏差平方和
・Se：誤差平方和
・Ｖｅ：誤差分散・・・式はSe／ｎ
・ｓｅ（σres）：標準偏差・・・式は√（Se／ｎ）
・SE：標準誤差・・・式は√(Ve／n)

上記の整理でいくと、回帰残差は、
回帰残差＝σres＝標準偏差であって、SSEではないということですね？

導出過程もいただきましてありがとございます。
いつか理解するためのピースとして納めさせていただきます。

通報する

お礼日時：2021/07/09 17:56

No.2

回答者： kamiyasiro
回答日時：2021/07/02 08:44

#1です。

私、うっかり間違えていました。分散で考えるべき値と標準偏差に掛ける係数の区別がついていませんでした。本当にすみません。

Sxxには２乗は掛からないです。もともと分散の項ですから。
（x-xbar）はルートの中に入るときに２乗が掛かります。
ルートの中は分散です。ご質問者の式は間違っていますよ。

（回帰変動）＝（重心からの距離）^2　×（回帰係数の変動）

（予測区間の上下幅）＝（重心からの距離）×（回帰係数の標準偏差）

と訂正します。本当にすみませんでした。

なお、95％信頼限界となると、標準偏差の1.96倍とか、あるいはｔ値で標準偏差の何倍かを求めて掛ける必要があります。

- 0
- 件

通報する

No.1

回答者： kamiyasiro
回答日時：2021/07/02 08:02

企業で統計を推進する立場の者です。

１ステップ目の分散の加法性は、今のご理解で正しいです。

２ステップ目の疑問点ですが、

√内の最後の項は、回帰変動と言われるものです。
（回帰変動）＝（重心からの距離）×（回帰係数の変動）
ご質問のレベルの方であれば、たぶんこれでピンとくるはずです。

１項目：回帰線は、ｘ重心ｙ重心を通り、シーソーのようにゆらゆらします。回帰線の信頼区間の幅がラッパのように開いているのはそのためです。つまり、横軸（x軸）上で重心（xbar）から遠ざかれば、それに比例して大きくなります。（ｘ－xbar）の係数は、そのような意味を持ちます。

２項目：回帰係数の変動は、一般の重回帰分析では、V(β)＝(XTX)^-1・σres^2　です（Tは転置）。σresは残差の標準偏差ですので、その２乗はVeです。それは（）の外に出ています。XTXの部分だけが√（）の中に2乗の形で入ってきます。
XTXは分散共分散行列のｎ倍で、単回帰の場合はｘ分散のｎ倍です。つまり偏差平方和Sxxです。(XTX)^-1は逆行列ですが、単回帰の場合は逆数です。それが２乗の形で√内に入ってきます。

まとめますと、回帰変動、つまり傾きのばらつきがデータの予測に及ぼす影響は、（回帰変動）＝（重心からの距離）×（回帰係数の変動）

（x-xbar）×（XTX）^-1 × Ve

ただし、単回帰の場合は、(XTX)^-1＝１／Sxx