回帰分析の信頼区間、予測区間について

Question

数学がものすごく苦手です。
統計学の勉強は、分かる人なら数式を追って理解するのでしょうが、私の場合インターネットや書籍などで理解できるところだけを少しずつ増やしていく感じでやっています。
下記質問でも数式の書き方など間違ってるかもしれませんがご容赦ください。

今、回帰分析の信頼区間、予測区間の式について理解ができずにいます。

予測区間の式を一部抜粋すると、√Ve（１＋１／ｎ＋（ｘーxbar／ｓｘｘ）＾２）となっています。

私の理解では、この式は分散の加法性の式なのかなと思って見ています。
１と、１／ｎと、（ｘーxbar／ｓｘｘ）＾２に対して、カッコの外にあるVe（分散）がそれぞれかかり分散となり、３つの分散を足しているのかなと。
そして最後にルートをかけることで標準偏差の形に持ち込んでいる。

（ここまでどうでしょう？もう全然違うよというのであれば、以下の質問も検討違いな質問になってしまいますがお付き合いください）

この３つの分散ですが、１はデータの分散、１／ｎは平均値の分散、
最後に（ｘーxbar／ｓｘｘ）＾２が、これが何の分散なのかわかりません。

ｘからｘbarを引いたものを、ｘの偏差平方和で割ったもの・・・
これが何を意味するのかがわかりません。

サルでもわかる的な書籍がわからない私です。
どなたか何卒宜しくお願いいたします。

kamiyasiro · Accepted Answer

#1です。

まだ、閉じていらっしゃらなかったのですね。だったら、もう一度整理して書かせて下さい。

回帰残差（説明が付かないもの）をσres（resはレジデュー）とすると、

①回帰線の存在範囲つまり信頼区間は、以下の合計（分散の加法性を利用）

・回帰線の上下ばらつき＝切片のばらつき(y平均のばらつき)＝σres／√ｎ
※平均値のばらつきはσ／√nだからです。

・回帰係数のばらつきに起因するばらつき＝(x-xbar)×√V(β)
※傾きβの分散V(β)の平方根が傾きのばらつきですが、その影響は回帰線の重心から離れるに従って大きくなることを意味しています。（回帰線はｘ重心、ｙ重心を必ず通ります）

②データの存在範囲つまり予測区間は、それに加えて、

・データのばらつき＝１×σres

さて、
②の予測区間の分散の和は、σres^2＝Ve・・・誤差分散とすると、

Ve＋Ve／n＋(x-xbar)^2×V(β)・・・(1)

ここで、回帰線の分散はV(β)＝(XTX)^-1・σres^2＝1／Sxx・Ve

式(1)のVeを共通因数として前に出すと、

Ve（１＋1/n＋(x-xbar)^2/Sxx）・・・これが分散の加法性の結果

よって、95％予測区間は、

t(φ,0.05)×√｛Ve（１＋1/n＋(x-xbar)^2/Sxx）｝ルートは最後まで含む

なお、φ＝ｎー2

kamiyasiro · Answer

#14です。

自由に手法を発想されるのは良いですが、それが合っているかどうか聞かれても、単に、「ダメ」「無理」と回答するだけなら簡単なんですが、理由を書くのは結構面倒です。
ここまでくると、専門書を購入して読まれた方が良いかと思います。

＞（点推定値）± T値・ √Ve（１／ｎ＋(ｘーｘbar)^2／Sxx）
これが何の作業をしているところのご説明なのかが分かりません。
それとYhatが正確／不正確は、どう見極めるのかということが分かりません。

何の作業かは、この式は回帰線の信頼区間の式ですから回帰線のばらつきを求めています。これは偶然誤差の区間推定とは別物だと説明しています。
また、この式から分かるように、ｎが膨大で、Sxxが大きい（つまりｘ軸方向に幅広くデータが取られている＝これをテコ比が大きいと言いますが）ならば、この式の値は極めて小さくなりますので、Yhatは僅かなばらつきしかなく回帰線は正確ということが分かります。
我々実務者は、実験データを整理するときに回帰線の信頼区間がネグリジブル・スモールだと判断できるときは単に偶然誤差の区間推定分（±1.96σ）だけを表示する場合があります。実は、実験データの要因効果図は、回帰線というかモデルの不安定分は考慮されていないグラフです。企業内教育ではこんなことを説明しています。

＞通常の予測区間の式を使うか、ブートストラップ＋区間推定を使うかは、常に後者でやるのではまずいのでしょうか？

常にブートストラップ＋区間推定でやっても構いません。でもモデルが変わるたびに大量の演算が発生するので、コンピュータの負荷は高くなります。

＞でも各Xで何個もサンプルが集められる場合、このやり方はダメなのでしょうか。

実際に実験などで同じ点で何個も観測が可能であれば、やっても構いません。

＞回帰の推定値Yhatがどれだけ変化するかは、データだけでは決まりません。回帰をやってみないと決まりません。という意味が分かりません。

グネグネのデータに１次式を当てはめるのか、高次式を当てはめるのか、それが決まらないと残差が計算できません。
それが決まれば、とりあえず点推定値が計算できるので残差も計算でき、偶然誤差分の区間推定はできます。しかし、そのグネグネの線自体がどれだけばらつくのか（信頼区間）は、理論的に求められない場合は、別の手段で求めなければなりません。その手段はグネグネ度合というかモデルに依存します。
その一つがブートストラップ法です。

＞各Xごとに何個もサンプルが集められる時、各X地点でのグラフを作っていけば、それは回帰分析の予測区間と同等だと思ったのですが。

実測データであれば、そうです。
しかし、ブートストラップ法で何本も回帰線が出来たとき、あるｘを代入すれば、その点で何個もサンプルが得られることになり、この何個ものデータが１万個あったとき、2501点目～9750点目の範囲は信頼区間であり、予測区間ではありません。
では、予測区間がどうなるかと言えば、各5000点目の値を結んだ線が回帰線になりますから、回帰線上の点と実測値の乖離の二乗和の平方根をσresとして、±1.96σresを取ったものになります。
何を集めているか（実測の生データか、モデルから生み出されている値か＝偶然誤差を含んでいるか、いないのか）で異なります。

kamiyasiro · Answer

#13です。

①“√ｘに比例する誤差”

事例を図で示します。横軸が「地積(平米)」縦軸が「土地価格」です。薄くて見にくいですが緑色の線が予測区間で、放物線のように広がっています。これが√ｘ に比例して誤差が大きくなるというポアソン回帰の例です。

②“「回帰線の不安定分」が上乗せされることを忘れないで下さい”

これはご質問者が書かれた区間推定の式（修正しました）
Yhat ± T値・ √Ve（１＋１／ｎ）
が間違っていることを言っています。1/nが不要です。
ここの説明は、誤差変動なので、平均値変動Ve/nは入れてはいけません。平均値変動は切片変動なので回帰線のばらつきの方に含まれると考えて下さい。
信頼区間：切片変動＋回帰変動
予測区間：信頼区間に誤差変動を加えたもの
私は、予測区間で追加される誤差変動分を区間推定として考えることが可能だと申し上げています。Yhatが正確ならば、単に±1.96σを上下に取るだけです。Yhatが不正確なら、それは回帰の不安定分なので信頼区間として考慮しなければなりません。それは、
（点推定値）± T値・ √Ve（１／ｎ＋(ｘーｘbar)^2／Sxx）
となります。

②’ 各Xの所ごとにN数を集めて、例えば下記のように
Ｘ＝１のところでN＝30程集めて平均値と区間推定
Ｘ＝２のところでN＝30程集めて平均値と区間推定・・・

違います。各Xで何個もサンプルが与えられている訳がありません。区間推定は残差から求めた代表値σresを使って行います。
また、回帰の推定値Yhatがどれだけ変化するかは、データだけでは決まりません。回帰をやってみないと決まりません。だから平均値変動を区間推定で考慮することは上でも指摘したようにできません。

③ブートストラップの件。
重複を許して再標本化とは、例えば①②③④⑤と5個のデータが有る場合に、重複を許すということは、
再標本1回目：①②②④⑤
再標本2回目：①③③③④
こんな感じのことを10000回やるということでしょうか？

はい。

③’ ブートストラップは同じデータからの再抽出の為、基本的に回帰直線は似たような線になりますね。
平均値が少し上下すると思うので10000回の回帰直線はY方向に幅を持ち、さらに傾き具合も少し変わるのでラッパの様に開くんですね。
これがご回答者様の仰られた、“切片変動＋回帰変動で、回帰の信頼区間”ということなのかなと思って読んでいます。

はい。

③’ でもブートストラップで求めた信頼区間に、データのばらつきを分散の加法性で足さないといけないんですよね？

はい。

④話が読めなくなってきました。
各Xの所で信頼区間を求める方法と、ブートストラップで求める方法と2つあるということでしょうか？

はい。
直線回帰では、そもそも最初の質問投稿で書かれた信頼区間、予測区間の式が導出されます。そして、その式はｘを含んでいるので、各ｘの箇所で値が求められます。こんなふうに解析的に解けるのは特殊ケースだと申し上げました。「等分散の仮定」という強い制約の下で解いているからです。
非線形回帰では、信頼区間の式が求められないケースがあります※。そんなときにブートストラップ法を使って信頼区間を求めます。これにデータの区間推定分を分散の加法性を使って加えれば予測区間になります。この方法であれば√ｘやｙに比例する誤差でも考慮することが可能です。

※一般化加法モデルというノンパラメトリック回帰が該当します。

kamiyasiro · Answer

#12です。

Ｘ＝１のところでの平均値と区間推定
Ｘ＝２のところでの平均値と区間推定
Ｘ＝３のところでの平均値と区間推定
Ｘ＝４のところでの平均値と区間推定・・・とやっていき、グラフを完成させるということでしょうか。

データ誤差ε分については、まさにそのとおりです。以前お話しした√ｘに比例する誤差という条件等を満たしながら計算します。

ｔ値×√Ve（１)　の部分に相当します。この式の１の部分が常に１じゃない場合に対応できます。

ただし、これに「回帰線の不安定分」が上乗せされることを忘れないで下さい。頂いたコメントはここが間違っています。

直線であれば、切片変動＋回帰変動で、回帰の信頼区間というものです。ここが重要ポイントです。

ｔ値×√Ve（1/n＋(x-xbar)^2／Sxx） の部分に相当します。

回帰線のばらつきに関しては、ブートストラップ法という方法で信頼区間を計算します。それを分散の加法性を使って加算します。

例えばｎ＝30のサンプルで回帰線を求めたのであれば、ｎ＝30から重複を許して再標本化し回帰線を求めます。サンプルが違いますので少し違う回帰線ができます。これを何度も繰り返し、各ｘ点における回帰線の95％存在範囲を求めます。10000本の回帰線のうち上下250本ずつ取り除けば良いです。

これは、グネグネの曲線の信頼区間を求めるときの定石のひとつです。
ちょうど、次のHPに直線回帰の信頼区間を求めるイメージ図があります。

https://qastack.jp/stats/183230/bootstrapping-confidence-interval-from-a-regression-prediction

kamiyasiro · Answer

#11です。

丁寧なコメント、本当にありがとうございます。こちらこそ、お付き合いありがとうございました。

＞予測区間というのが、やはり特殊ケースだ

ではなく、予測区間を「あの式で求めることが出来るのは特殊ケース」です。

予測式って、１次式＝直線だけではないですよね。グネグネの曲線のときもあります。むしろ、実際の加工工程では直線でないことの方が多いです。
そのようなケースでも、別の方法で信頼区間、予測区間は算出されます。

そのようなグネグネの曲線のとき、実際の特性値はどこまで行く可能性があるのか±３σの幅を予測せよ、あるいは加工条件の管理幅をそれから決めよう、という問題に直面したとき、別の方法で求めた予測区間が用いられます。

ご質問者様は、これを回帰分析の項目として学習されたと思いますが、全体が見通せないので理解が大変だったとお察しします。それは教科書を執筆した人の都合でしかないからです。

利用者からみれば、条件を変えたときの加工結果を予測をしたいという動機があって、予測線は直線からグネグネまで色々あるという全体を俯瞰して（点推定）、では予測線の上下にどれだけ「ばらつき」が乗ってくるのか（区間推定）、という順序で予測区間を考えると思います。

「区間推定」であれば、平均値の区間推定などで学んでいるので、すんなり入っていけますよね。

今後、仲間にご説明されるときは、是非、現場視点の順序でお話しして下さい。

kamiyasiro · Answer

#10です。

＞この掛け算は回帰線のゆらゆらする量が距離に比例するということなんですが、本当に丁度良い根拠ある大きさになるのだろうか・・・

もやもや感分かりますよ。こんな絵に描いた餅のように、常になるわけは無いです。

冗長ですが整理しておきましょう。
予測区間の式全体は分散の加法性を使って、次の「予測式ｙ＝ａｘ＋ｂ＋ε　の３つの項の誤差」の二乗和を計算していることは、お分かり頂けたと思います。ここで、σres＝√Ve です。

(1)データのばらつきεは、各実測値が回帰線からどれだけｙ（＝予測値）方向に離れているかの代表値σresを使います。

(2)切片項のばらつきΔbは、これは回帰線がｘ重心ｙ重心を通るという性質からその点でのｙ（＝予測値）方向のブレを考えればよいです。その点というのはまさしくｙ平均ですので、平均値のばらつきσres／√ｎを使います。

(3)回帰項のばらつきΔaxは、重心でのばらつきは０です。傾きａの直線が、回帰線のばらつきｗによって傾き(ａ＋ｗ)に変化すると、ｙ（＝予測値）方向の誤差の大きさは、
Δｙ＝ｙ’ーｙ＝｛(ａ＋ｗ)ｘ＋ｂ｝－｛ａｘ＋ｂ｝＝ｗｘ
です。よって回帰線のばらつきｗに重心からの偏差ｘを掛けたものを使います。
掛け算のイメージは「比例」です。ばらつきはｘに比例して増えていきます。

これが本当に妥当かどうかは、次の「誤差の仮定」によります。

「等分散仮定」これは各データのばらつきが、回帰線の横軸のどこにあっても等しい程度でばらつく、という仮定です。この仮定のもとで上記の式は妥当です。

「ポアソン仮定」これは各データのばらつきが「平均がλのときは分散もλ」というポアソン分布のようにばらつく、という仮定です。データの予測区間は原点を起点として「放物線」のように広がります。なぜなら横軸がｘのときは、ばらつきは√ｘに比例して増えていますからね。

「変動係数一定仮定（ガンマ仮定）」これは各データのばらつきが、平均値の何％という一定の比率で増えるようにばらつく、という仮定です。データの予測区間は原点を起点として「三角形」のように広がります。

後の二者では、上で求めた予測区間の式は丁度良い根拠のある値にはなりません。

「回帰係数がばらつきを持つとき、予測ばらつきの回帰係数依存分はｘに比例して増える」というのは回帰線が直線つまり「Δａｘ＝(ａ＋ｗ)ｘ－ａｘ＝ｗｘ」で、かつ「σres（これは回帰係数ばらつきｗの式に使用される）が単純な平均（＝√(Se/n)）で求めることが出来る」からこそ言えることです。

言い換えれば、
・予測式中の回帰係数ａの依存項が１つでそれはｘの１次式。
・回帰係数ａのばらつきΔａを表す式に出てくる残差σresがｘに依存しない。
という場合にのみ成立します。

実は、このように厳しい条件が課せられたときにしか、丁度良い値とは言えないのです。

一般の教科書は、まずこの予測区間の式を持ち出して「こうだ！」って言っておきながら、学習が進むとそれを全否定します。
私が担当する企業内教育では、最初からあらゆる予測方法を俯瞰して、その特殊ケースとして予測区間の式の説明をしています。

kamiyasiro · Answer

#9です。

コメント、ありがとうございます。内容、読みました。間違っていません。
敢えて訂正するなら（私も間違えたので大汗なんですが・・・）、

＞傾きの分散Ve／Sxxに、xbarからの距離が掛け算されているということですね。
↓
＞傾きの分散Ve／Sxxの「平方根」に、xbarからの距離が掛け算されて「回帰係数ばらつきに依存する推定結果のばらつき」を表現している。それを２乗したものを回帰変動と言っている。
２乗するのは、モデルを下の式（３項）だとすると、「データの偶然ばらつきε」「切片項ｂのばらつき」「回帰係数ａ依存のばらつき」の３項のばらつきを合算するのに分散の加法性を利用したいため。

ｙ＝ａｘ＋ｂ＋ε

この先、項が増えれば増えただけ、ばらつきを合算する項も増えます。また推定しているパラメータはａｂ２つありますので、全体の自由度はφ＝ｎー２ですが、推定するパラメータが増えれば自由度も小さくなります。

是非、高度な統計解析を手の内化し業務に役立てて頂ければと思います。

kamiyasiro · Answer

すみません。１か所間違えました。

［誤］回帰変動V(xβ)はこれに(ｘ－xbar）を掛けたものです。

↓

［正］回帰変動V(xβ)はこれに(ｘ－xbar)^2 を掛けたものです。

βの上下にゆらゆらする量は、傾きの標準偏差に(ｘ－xbar）を掛けたもので、その分散はその２乗ですね。ここがよく間違えるんですよね。

すみません。

kamiyasiro · Answer

補足です。

スモールsは、standard deviation=標準偏差です。
スモールeは、error＝誤差です。
seは誤差の標準偏差です。

ラージSeは、誤差の平方和です。誤差はもともと偏差ですから偏差平方和とは言いません。
ラージVは、Variance。Veは誤差分散、Se/n。
その平方根がseあるいはσe。

しかし回帰の場合は、σeと書くと、ｙ平均からの偏差の代表値と混同されてしまいます。Syyから求められる値と混同されるのです。

回帰の場合は回帰線からの偏差を考えますので、それを回帰残差と呼び、その代表値をσresと書きます。

このあたりが、文献やサイトによってまちまちなので戸惑われるでしょう。

単回帰の回帰係数は、β＝Sxy／Sxx
単回帰係数の分散（あるいは変動）は、V(β)＝σres^2／Sxx＝Ve／Sxx
回帰変動V(xβ)はこれに(ｘ－xbar）を掛けたものです。

なぜ、βxでなくてxβなのかは、行列の掛け算のルールだからです。

回帰変動V(xβ)がご質問の最後の項になるのですが、これが絵的には説明できない部分です。
回帰線は、ｘ重心、ｙ重心を通ってシーソーのように傾きβの上下にゆらゆらしているのです、としか言いようがありません。

信頼区間、予測区間の式は、ｘの関数になっているということです。横軸の値によって、その大きさが変わるということです。そういう意味もありますので、ご注意下さい。

kamiyasiro · Answer

統計分野の言い回しや、用語に慣れていらっしゃらないようですね。

＞回帰残差＝σres＝標準偏差と来ましたが、厳密にはこれも違って、予測値と実測値の差をすべて足した、期待値ゼロとなるものというものということでしょうか。

厳密に残差というと、yi－yi_hat　ですよね。残差はそれぞれの観測値について算出されますからｎ個あります。誤差を評価するときは足してはいけません。足すと合計は０になります。２乗してから足してｎで割ります。それが分散とか変動と言われるものです。
ところで、残差に依存して信頼区間が変わるのですが、そのときの残差は、１個1個の残差ではなく、２乗してから足してｎで割ってルートで開いたものを代表値として使います。それがσresです。
私が回答中で使っている「残差依存分」の残差は、厳密な意味の残差ではなく、残差の代表値σresを便宜上残差と呼んでいるのです。

＞最後のσのオーダーとおっしゃられたのは、○○オーダーという言い方がどういう意味かよくわからず、理解できませんでした。

〇〇のオーダーという言い回しは理科系の人が良く使う言葉で、ディメンジョン（次数・単位）のことです。
「２乗のオーダー」とか「Kgのオーダー」のように使います。
σのオーダーというのは、１乗の単位という意味です。
SSEは２乗の単位です。
「残差はSSEではないのですね」と聞かれましたから、「いいえ、単位が違います」という答えを述べたのです。