人生のプチ美学を教えてください!!

大学数学の質問です。数理統計学です。


回帰直線は説明変数をxとして、
y=α+βx+ε(εは誤差項)
と表されますが、誤差項εについて不明な点があります。

εは例えば平均0、分散σ^2の正規分布に従うとします。

この時のεは何か特定の値を表しているのでしょうか?

でもそう仮定すると、εは連続型の確率分布に従うので、特定の値を取る確率は0となるので意味が分かりません。

εは一体何者でしょうか?

A 回答 (4件)

No.3 です。

「お礼」に書かれたことについて。

>すみません。大きな誤解をしておりました。こちらは解決しました。ただ、質問文のもう一つの方であります

はい、それはようござんした。

>個別誤差ε_iはある値を表していると思いますが、「n 個の ε_i 」が N(0,σ^2) の分布をしているということは、N(0,σ^2)は連続型の確率分布なので、ある特定の値が出る確率は0になると思います。

数学的な意味での「確率密度関数」のことを指していますか? それは単なる「数式表現」ですからそうなるだけのことです。
それは「回帰直線」も同じですが、「現実に存在する有限のデータに対して、理想的・理論的な数学的表現を当てはめた」ということです。
統計的にいえば、「有限のサンプルから、母集団の特性を推定した」ということです。

言ってみれば「具体的実体」がまずあって、それを「抽象化」して「理論式」をフィッティングしたということでです。その「抽象化」したものの中に「具体的な実体が見いだせない!」というのは無意味なことです。

正規分布することは、このような過程で導き出されます。「まず確率密度関数ありき」ではありません。

http://neoclassic.solutions/2014/08/18/%E6%AD%A3 …
https://bellcurve.jp/statistics/course/8543.html
    • good
    • 1
この回答へのお礼

初心者の私に詳しく教えてくれましてありがとうございました。
紹介してくれました2つのURLも見て、勉強したいと思います。

お礼日時:2019/10/08 00:37

No.2 です。

「お礼」に書かれたことについて。

>Y_i=(θ_0)+(θ_1)(x_i)+ε_i(i=1,2,…,n)
と式が立てられており、ε_i(i=1,2,…,n)は独立にN(0,σ^2)に従っているとあります。

ですから、「ε_i(i=1,2,…,n)」とは、「n個のデータ(観測値)の個別誤差 ε_i」の集合です。この「n 個の ε_i 」が N(0,σ^2) の分布をしているということですよね?

>ひとつひとつのεがそれぞれ分布を持つように見えますが、これはまた違う話なのでしょうか?

ひとつひとつのデータがそれぞれ分布を持つ、とはどういう状態のことを指しますか?
    • good
    • 0
この回答へのお礼

ご返信ありがとうございます。
>ひとつひとつのデータがそれぞれ分布を持つ、とはどういう状態のことを指しますか?
すみません。大きな誤解をしておりました。こちらは解決しました。ただ、質問文のもう一つの方であります

>εは連続型の確率分布に従うので、特定の値を取る確率は0となるので意味が分かりません。
個別誤差ε_iはある値を表していると思いますが、「n 個の ε_i 」が N(0,σ^2) の分布をしているということは、N(0,σ^2)は連続型の確率分布なので、ある特定の値が出る確率は0になると思います。

これが離散型の確率分布に従うのであれば、例えば
P(ε)={1/2(ε=1),1/2(ε=-1)}
に従うのであれば、説明変数xを代入した際に、
1/2の確率でy=(θ_0)+(θ_1)x+1、1/2の確率でy=(θ_0)+(θ_1)x-1
となると分かります。

でも連続型確率分布の場合ですと、誤差項がある値を取る確率が全て0なので、納得がいきません。それとも、そういうものだと割り切るしかないのでしょうか?

お礼日時:2019/10/07 21:56

>εは一体何者でしょうか?



「個別」のデータ(観測値など)の誤差(回帰直線からの偏差)ですよ。
「例えば平均0、分散σ^2の正規分布」というのは、その「ひとつひとつのε」をたくさん集めてきたときの「分布」です。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

>「例えば平均0、分散σ^2の正規分布」というのは、その「ひとつひとつのε」をたくさん集めてきたときの「分布」です。
とありますが

http://ocw.nagoya-u.jp/files/247/04_regression.pdf

の名古屋大学のocwの資料の4ページの「4.線形回帰モデルに対する仮説検定」を見てみますと、
Y_i=(θ_0)+(θ_1)(x_i)+ε_i(i=1,2,…,n)
と式が立てられており、ε_i(i=1,2,…,n)は独立にN(0,σ^2)に従っているとあります。

この式を見る限り
>「ひとつひとつのε」をたくさん集めてきたときの「分布」です。
というよりは、ひとつひとつのεがそれぞれ分布を持つように見えますが、これはまた違う話なのでしょうか?

お礼日時:2019/10/07 20:14

εは、元データーと回帰直線との乖離を表す指標です。

    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!