最速怪談選手権

数学がものすごく苦手です。
統計学の勉強は、分かる人なら数式を追って理解するのでしょうが、私の場合インターネットや書籍などで理解できるところだけを少しずつ増やしていく感じでやっています。
下記質問でも数式の書き方など間違ってるかもしれませんがご容赦ください。

今、回帰分析の信頼区間、予測区間の式について理解ができずにいます。

予測区間の式を一部抜粋すると、√Ve(1+1/n+(xーxbar/sxx)^2)となっています。

私の理解では、この式は分散の加法性の式なのかなと思って見ています。
1と、1/nと、(xーxbar/sxx)^2に対して、カッコの外にあるVe(分散)がそれぞれかかり分散となり、3つの分散を足しているのかなと。
そして最後にルートをかけることで標準偏差の形に持ち込んでいる。

(ここまでどうでしょう?もう全然違うよというのであれば、以下の質問も検討違いな質問になってしまいますがお付き合いください)

この3つの分散ですが、1はデータの分散、1/nは平均値の分散、
最後に(xーxbar/sxx)^2が、これが何の分散なのかわかりません。

xからxbarを引いたものを、xの偏差平方和で割ったもの・・・
これが何を意味するのかがわかりません。

サルでもわかる的な書籍がわからない私です。
どなたか何卒宜しくお願いいたします。

A 回答 (15件中11~15件)

#5です。



厳密には、回帰残差は予測値と実測値の差ですから、全体ではn個あり、正負の値を持ち、期待値は0になります。

でも、「予測区間の回帰残差依存分」とか言うと、それはσのオーダーという意味です。
    • good
    • 0
この回答へのお礼

引き続きお世話になります。

回帰残差=σres=標準偏差と来ましたが、
厳密にはこれも違って、
予測値と実測値の差をすべて足した、期待値ゼロとなるものというものということでしょうか。

最後のσのオーダーとおっしゃられたのは、
○○オーダーという言い方がどういう意味かよくわからず、理解できませんでした。

大変親切に教えていただいているなかで、やはり文字だけということもあり、御回答者様にお手間をかけまして申し訳ない気持ちでいっぱいです。

申し訳ありません。

お礼日時:2021/07/09 22:13

#4です。



>回帰残差=σres=標準偏差であって、SSEではないということですね?

(1)「残差平方和は・・・」とかいう文脈で使われます。残差はσです。二乗和SSEや分散Veを「残差」とすると残差平方和は4乗になってしまいますね。

(2)SSEという略号はあまり見かけないのですが、SSつまりSum of Square ですから標準誤差SEとは区別できますよね。でもSSEはnで割っていない、平方根でもない値です。残差の単位は、偏差平方和をnで割って平方根を取ったものです。SSEではありません。
    • good
    • 0
この回答へのお礼

お世話になっております。
なかなか理解できず、どう返答しようか今も悩んでいます。

>「残差平方和は・・・」とかいう文脈で使われます。
ここなんですが、主語が読み取れずにいます。というか、話の意図が読み取れず・・・すいません。

また、SSEというのはマイナーな言葉なんですね。
インターネットで見つけた言葉なんですが、色々他の呼び方があったりで、言葉の決定版というべきものが見つからず困ってました。

お礼日時:2021/07/09 22:04

#3です。



コメント、ありがとうございます。

◆>>回帰残差(説明が付かないもの)をσres(resはレジデュー)とすると・・・の所ですが、回帰残差とは、SEとかSSEと呼ばれているもので、式は、Σ(yi-yhati)^2ですか?(平方和ですか?)

ラージS(あるいはSS、Sum of Squre)は偏差平方和を表しており残差平方和(誤差平方和)はSe、それをnで割ったものが誤差分散Veです。スモールseまたはσresはその平方根で標準偏差(誤差,残差)です。
なお、SEのようにEに大文字を使用すると、標準誤差(Standard Error)となり、意味が違ってきます。標準誤差は√(Ve/n)です。


◆>回帰係数のばらつきに起因するばらつき=(x-xbar)×√V(β)・・・との所ですが、回帰係数とは傾きのことですよね?よく回帰式はY=ax+bで紹介され傾きはaですが、ご回答者様はこれをβと置いて説明されているんですよね?

はい。統計の本を読み進めて重回帰分析を扱うようになると、回帰係数はβあるいはbボールドが使われるようになります。


◆>ここで、回帰線の分散はV(β)=(XTX)^-1・σres^2=1/Sxx・Ve・・・の所ですが、行列でご解説されている所は中学数学レベルの私に立ちはだかる壁になっています。なので上記式の行列の所は省略して、
V(β)=1/Sxx・Veだと受け入れることにしました。

導出過程を添付します。
「回帰分析の信頼区間、予測区間について」の回答画像4
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます!

ただ整理しただけですが、下記であってますでしょうか。

・S(SS):偏差平方和
・Se:誤差平方和
・Ve:誤差分散・・・式はSe/n
・se(σres):標準偏差・・・式は√(Se/n)
・SE:標準誤差・・・式は√(Ve/n)

上記の整理でいくと、回帰残差は、
回帰残差=σres=標準偏差であって、SSEではないということですね?


導出過程もいただきましてありがとございます。
いつか理解するためのピースとして納めさせていただきます。

お礼日時:2021/07/09 17:56

#1です。



私、うっかり間違えていました。分散で考えるべき値と標準偏差に掛ける係数の区別がついていませんでした。本当にすみません。

Sxxには2乗は掛からないです。もともと分散の項ですから。
(x-xbar)はルートの中に入るときに2乗が掛かります。
ルートの中は分散です。ご質問者の式は間違っていますよ。

(回帰変動)=(重心からの距離)^2 ×(回帰係数の変動)

(予測区間の上下幅)=(重心からの距離)×(回帰係数の標準偏差)

と訂正します。本当にすみませんでした。

なお、95%信頼限界となると、標準偏差の1.96倍とか、あるいはt値で標準偏差の何倍かを求めて掛ける必要があります。
    • good
    • 0

企業で統計を推進する立場の者です。



1ステップ目の分散の加法性は、今のご理解で正しいです。

2ステップ目の疑問点ですが、

√内の最後の項は、回帰変動と言われるものです。
(回帰変動)=(重心からの距離)×(回帰係数の変動)
ご質問のレベルの方であれば、たぶんこれでピンとくるはずです。

1項目:回帰線は、x重心y重心を通り、シーソーのようにゆらゆらします。回帰線の信頼区間の幅がラッパのように開いているのはそのためです。つまり、横軸(x軸)上で重心(xbar)から遠ざかれば、それに比例して大きくなります。(x-xbar)の係数は、そのような意味を持ちます。

2項目:回帰係数の変動は、一般の重回帰分析では、V(β)=(XTX)^-1・σres^2 です(Tは転置)。σresは残差の標準偏差ですので、その2乗はVeです。それは()の外に出ています。XTXの部分だけが√()の中に2乗の形で入ってきます。
XTXは分散共分散行列のn倍で、単回帰の場合はx分散のn倍です。つまり偏差平方和Sxxです。(XTX)^-1は逆行列ですが、単回帰の場合は逆数です。それが2乗の形で√内に入ってきます。

まとめますと、回帰変動、つまり傾きのばらつきがデータの予測に及ぼす影響は、(回帰変動)=(重心からの距離)×(回帰係数の変動)

(x-xbar)×(XTX)^-1 × Ve

ただし、単回帰の場合は、(XTX)^-1=1/Sxx
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!