秘密基地、どこに作った?

現在、「統計学実践ワークブック」という参考書を用いて統計学の勉強を行っているのですが、どうしてもt統計量とF統計量の関係性が理解できません。具体的な不明点としては、t統計量の2乗はF統計量に等しくなるという関係の数理的な理解です。
具体的な問題としては、単回帰モデル:
Yi = a + b Xi + εi, i = 1,…,n
において、βとσ^2(β)をそれぞれβの最小二乗推定量とその分散とする。このとき、
①帰無仮説: b = 0 を検定する F 検定統計量がF=β^2/σ^2(β)と表せることを示しなさい。
②問題2のF検定統計量は(Se(B)-Se(A))/(Se(A)/(n-2))と表せることを示しなさい。ただし、Se(A)は制約のない残差平方和、Se(B)は帰無仮説の下での残差平方和とする。
以上の問題を数式として導出できれば、納得がいくのですが、なかなかうまくいきません。ご教授よろしくお願いします。

質問者からの補足コメント

  • 先に示した問題の元のリンクを提示させていただきます。該当の問題は下記リンクの最後のページの演習問題になっています。よろしくお願いします。
    「回帰分析(F検定)」長倉大輔
    http://user.keio.ac.jp/~nagakura/zemi/F_test.pdf

      補足日時:2023/01/05 15:40

A 回答 (9件)

ところで、最初の疑問であった、t値とF値の関係は解決できましたか?



t統計量の2乗はF統計量に等しくなるというのは、『2つの平均値の差のt検定と、一元配置の分散分析(F検定)とは、同じ結果を与える』という検定の初歩の段階で教えている内容ですが、その理由は↓をご参照下さい。

https://bellcurve.jp/statistics/blog/14147.html


あと、①②それぞれの統計量の算出ですが、解説してある参考書は、

①については、
永田、棟近(2001)『多変量解析法入門』,サイエンス社,p50
t値、F値とも出ています。2乗すれば良い、なんてやっつけの説明ではないです。

②については、
蓑谷(2017)『回帰診断』,朝倉書店,p22
残念ながら導出は出ていませんが、(全変動)ー(誤差変動)から回帰の有意性を求める方法は「重回帰分析」で使うので、ネットで重回帰分析の解説を探せば出てくると思います。
ただし、②の検定は個々の回帰係数の有意性ではなく、「回帰そのもの」の有意性を調べる方法ですので、この問題のように①に関連付けて出題するのはマズいと思います。
②は定数項もコミコミで検定していますから。

Se(A)は(線形)制約のない残差平方和→普通は全変動と言います。
Se(B)は帰無仮説(回帰式たる線形制約が掛った状態)の下での残差平方和→普通は誤差変動と言います。

②の帰無仮説はβ=0ではありませんので要注意です。問題文、おかしいです。
    • good
    • 0

No.6へのコメントについて。



> リンクのほうは講義資料ですから、詳細は省いたのかもしれません。

 いやそれは資料作成者の言い訳にはならんと思いますよ。むしろ「一体何を仮定しているか」(ご質問の場合には、データの生成モデルと、fittingするモデルとの区別)に無自覚になるように誘導している、かのように見えちゃいます。

 手法に振り回されて変なことやる人がいっぱいいますが、それは大抵「一体何を仮定しているか」を忘れている(あるいは、そもそも知ってもいないで格好だけ真似している)からです。
 せっかく丁寧に学んでいらっしゃるんですから、手法の計算の細々したこと(は機械がやってくれるんで、それ)よりも、キホンとなる考え方にこそ重きを置くのがよろしかろうと思います。
    • good
    • 0

>実務で、最初に「ざっくりこんな感じ?」というんで簡単なモデルをfittingしたとして、さて残差に変なクセがないかしらん、と観察することもせずに検定とかやりますかねえ?



おっしゃる通りです。

社内では、必ず残差プロットを見るように教育していますし、普通の統計パッケージソフトであれば、残差プロットは簡単に見えますから、習慣になっていると思います。(検定結果(p値)も回帰結果と一緒に自動的に表示されますが、多くの技術者は見ていません。残差プロットを見ます。)

そのうえで、残差には「もう何も説明するものは残っていない」ことを確認しています。でないと、2乗の関係があっても見落としてしまいますから・・・。
    • good
    • 0

No.5へのコメントについて。



③いずれでもない

が近いかな、ってところですね。

 データの生成メカニズムが厳密に分かっていてパラメータの推定だけが課題だ、という場合もあれば、メカニズムは全く不明でデータだけが頼りだという場合もあり、その中間もある。
 ご質問の問題では、その辺の設定が書いてないんで「データだけが頼り」として扱うしかありません。(リンクのテキストでは、fittingしたモデルは書いてあるけれど、それはデータの生成メカニズムのことではありません。混同しちゃダメです。)だから「パラメータ」と言っているのは、あくまでも分析者が勝手に選んだモデルのパラメータのことであって、データの生成メカニズムが持つ(かもしれない何らかの)パラメータとは別物です。
 結果の用途によって、モデルのパラメータの信頼区間はせいぜいこんなもんというのをザックリ示せば足りる場合もあるし、誤差なんか気にしたってしょうがない場合すらもある。検定をやるのが適切な場合ってのは、データの生成メカニズム(i.e., 正しいモデル)が分かっている時ぐらいじゃないかなあ。

No.4< (質問に対してちょっとレベル高すぎる気がしますが、それはさておき)実務において残差に関する仮定を暗黙裡に使うという話と、初学者に基本をきちんと教えないテキストばっかり多くてアカンという話は別件だろうと思います。
 実務で、最初に「ざっくりこんな感じ?」というんで簡単なモデルをfittingしたとして、さて残差に変なクセがないかしらん、と観察することもせずに検定とかやりますかねえ?
    • good
    • 0
この回答へのお礼

ありがとうございます。実務上、データの生成メカニズムや残差に対する分析が重要であって、場合によっては検定が必要ない状況がままあるということはなんとなく理解しました。現在私が使っている参考書には、残差の仮定や真のモデルに関する仮定もなされており、私の記入漏れです。申し訳ありません。リンクのほうは講義資料ですから、詳細は省いたのかもしれません。
現在の私の目的としましては、とりあえず実務上の諸問題はさておいて、検定の手法や考え方を理解しておきたいと考え、今回の質問をさせていただきました。いろいろ拙い点が多く、申し訳ありません。

お礼日時:2023/01/06 19:48

No.3へのコメントについて。



頑張るおつもりなら、もうちょっと:

 まず、N, Xi (i=1~N)はそれぞれ既知の定数。これは単に事実であって、帰無仮説には含まれない。そして、

H:「Yi (i=1~N)はそれぞれ独立で、どれも平均A, 分散s^2の正規分布に従う。(ただしA, sは未知の定数)」

というのが、ご質問の統計量で検定する帰無仮説Hです。さて、Hが棄却されたら、その否定¬Hを主張する。その主張が実際どうなるかを書いてみれば、「帰無仮説はb=0」だなんてイーカゲンだなと思えてくるんじゃないかしらん。
    • good
    • 1
この回答へのお礼

ありがとうございます。こちらの勉強不足で理解が追いついていないので再度お聞きしたいです。
①F統計量で個々の説明変数の有意性を検定することが不適切
②そもそも個々の説明変数の有意性を検定することが不適切
③いずれでもない
以上の3つのうちどれが回答者様の回答内容として正しいのでしょうか。よろしくおねがいします。

お礼日時:2023/01/06 18:02

横からすみません。



誤差に関する下記の4つの条件は「ガウス・マルコフの定理」として知られ、回帰分析を行うときの暗黙の了解なので、一概に端折ったテキストだとは言えません。他も似たようなものです。

①②の条件は強い条件なので、#2さんも①②は大前提として考えておられ、「最小二乗法」が成立するために③④が必要だとおっしゃっているのだと思います。言い換えれば、③④が無くても「最尤法」で解けば良いからです。

誤差の(残差)の満たすべき条件は、
①不偏性 :E(εi)=0(誤差の期待値は0)
②外生性 :Cov(Xi,εi)=E(εi|Xi)=0(誤差は説明変数とは無相関であり不偏)
③等分散性:Var(εi)=σ^2(誤差分散はどこでもσ^2)
④独立性 :Cov(εi,εj)=0(誤差どおしは無相関)

①②で解が不偏推定量に
③④で解がBLUE(最良線形不偏推定量)になる。というものです。

BLUEとは、簡単に言えば、最小2乗法で求めた解(OLS)が最尤法で求めた解と一致するということです。

残差が正規分布するとの条件は、③等分散性に含まれます。最小二乗法の残差(平方損失の最小化)がσになるのは正規分布だからです。

なお、①~④が回帰分析つまり一般線形モデルの条件ですが、この条件を逸脱すると、一般線形モデル→一般化線形モデル→一般化加法モデルへと拡張されていきます。
    • good
    • 1
この回答へのお礼

ありがとうございます。残差の仮定については質問する側として、もう少し丁寧に表記しておくべきであったと反省しております。
BLUEについては自分も最近学習したばかりですが、回答者様の説明が非常にわかりやすくまとまっていて、より理解が深まりました。ありがとうございます。

お礼日時:2023/01/06 17:31

No.2へのコメントについて。



そですね。
    • good
    • 1
この回答へのお礼

なるほど…。ありがとうございます。もう少し自分でも試行錯誤してみます。

お礼日時:2023/01/06 10:57

リンクを拝見したところ、残差の分布および独立性についての仮定が入っているんでなくては話が繋がらないはずなのに、帰無仮説中に明示されていない。

やはり何だかイーカゲンなテキストっぽいなと思います。
    • good
    • 1
この回答へのお礼

ありがとうございます。つまり、仮に残差の分布に正規性と独立性を仮定した場合、計算可能であるという理解でよろしいのでしょうか。

お礼日時:2023/01/06 08:45

分布の話と、その応用としての検定の話とは、切り離してお考えになった方が良さそうに思います。



> t統計量の2乗はF統計量に等しくなるという関係の数理的な理解

「tが自由度nのt分布に従うなら、その2乗sは自由度(1,n)のF分布に従う」って話ですね。tの確率密度関数をf(t)とします。sの分布g(s)は、s<0ならg(s)=0である。t>0とt≦0にわけて考えると、どっちについても
  g(s) = f(t) (dt/ds)
である。だから
  g(s) = 2 f(√s) / (2√s)
で、これが自由度(1,n)のF分布になることは、f(t)を定義通りに展開してからF分布の確率密度関数と比べてみればわかります。

 母集団が平均m、分散σ^2の正規分布のとき、サンプルN個から得られる母集団の分散の不偏推定量をS^2、母集団の平均の不偏推定量をXとすると、
  (√N)(X-m)/S
は自由度N-1のt分布に、また
  (N(X-m)^2)/S^2
は自由度(1,N-1)のF分布に従う。これはS^2が自由度N-1のχ2乗分布に従うことと、F分布の定義とから、簡単に示せるでしょう。

 なおお示しの問題は、帰無仮説①がもし棄却されたって、b=0が否定される訳じゃないです。なぜなら、帰無仮説中には明示されていないけれども、残差の分布および独立性についての仮定が入っているからで、何だかイーカゲンなテキストっぽいなと思います。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます。F分布の定義とt分布の定義を考えることで、F統計量とt統計量の関係が理解できました。
 一方で、この事実を実際に重回帰分析の検定に利用するとなると、まだ理解ができていません。そこで先に示した問題がその理解の役に立つかなと思ったのですが、既存の問題を自分が書き換えたものなので、抜けがあるかもしれません。元のリンクを提示させていただきます。該当の問題は下記リンクの最後のページの演習問題になっています。お忙しいなか申し訳ありません。
「回帰分析(F検定)」長倉大輔
http://user.keio.ac.jp/~nagakura/zemi/F_test.pdf

お礼日時:2023/01/05 15:39

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報