【コナン30周年】嘘でしょ!?と思った○○周年を教えて【ハルヒ20周年】

統計学の外挿が合っているか教えてほしいです。
添付データは、エクセルデータです。
数値はNo.100までありますがNo.1からNo.90の数値データをエクセルの重回帰分析を使って、次の回帰式を得ました。
家賃=ー814.26×駅からの距離+2971.77×面積ー1025.89×築年数+1449.13×階数ー1610.88×南向きー3294.77×バストイレ別+2383.76×駐車場+35656.70 (小数第3位を四捨五入して第2位まで求めた。)
この時、自由度修正済み決定係数は、0.903になった。
駅からの距離、面積、築年数、階数、南向き、バストイレ別、駐車場のうちでP値が0.05よりも大きいのは、南向き0.4181、バストイレ別0.197、駐車場0.306であり、この3つの項目は除外すべきだと思われる。
これらの3つの項目を除外した後のエクセルによる重回帰分析における自由度修正済み決定係数は、0.902であり、
それら3つの項目を除外した後の重回帰分析における回帰式は、
家賃=ー907.69×駅からの距離+2952.11×面積ー1047.20×築年数+1408.36×階数+34482.75 となり、この回帰式を用いて、No.100の家の予測値を求めると90037.72 となる。
No.100の家賃は、92000円で予測値は、90037.72円で92000円の範囲内だから、 外挿に問題なしということで宜しいでしょうか?

「統計学の外挿を教えてほしいです。」の質問画像

質問者からの補足コメント

  • うーん・・・

    お言葉を返すようで大変申し訳ありませんが
     実測値92000円は、予測値90037.72円の上下5%、
    すなわち上は105%の94,538.85円、下は、85,535.15円の範囲内に入っているので外挿に問題なし
    という言い方で宜しいでしょうか?
    宜しくお願いします。

    No.1の回答に寄せられた補足コメントです。 補足日時:2024/09/04 08:27
  • うーん・・・

    大変詳細な回答を戴き、本当に有り難う御座います。

    戴いたご教授内容から察しますと、
    外挿は、保証されておらず、外挿が問題ないか判断するには、複雑な予測区間の計算を行う必要があるということでしょうか。
    宜しくお願いします。

    No.2の回答に寄せられた補足コメントです。 補足日時:2024/09/05 09:03

A 回答 (4件)

> 外挿は、保証されておらず・・・、



外挿は保証されていませんが、内挿はOKです。

> 外挿が問題ないか判断するには、複雑な予測区間の計算を行う必要があるということでしょうか。

回帰線を引くことが出来る範囲(内挿範囲)と、予測区間の計算とは関係ありません。

そうなる理由は、
回帰線を引くことが出来る範囲はx(説明変数)に依存し、信頼区間・予測区間はy(目的変数)に依存するというか、y軸方向の残差に依存するからです。
    • good
    • 0

(残差変動+切片変動+回帰変動)のうち、回帰変動のみが説明変数に依存します。



予測区間の式に、予測に使った説明変数の値を代入すると、その時その時の予測区間の幅が計算されます。

予測区間は、座標(x重心,y重心)の時に最も小さく、両側に行く程、広がっていく傾向があります。

よって、今回のような判断を行うには、No.100のデータに関して、
予測値±●●
の値を計算する必要があります。

~~~~~~~~~~~~~~~~~~~~~~~

ちょっと脱線ですが・・・、

「南向き」と「バス・トイレ別」って「〇・×」の質的変数ですよね(駐車場は駐車台数だと考えれば量的変数かも)。このような問題は「数量化Ⅰ類」で解くべきだと思います。

予測値は変わりませんが、因子の寄与度が変わってきます。
もしかすると、変数選択が変わってくるかもしれませんよ。
    • good
    • 1

その言い方は誤りです。



「実測値は、予測値の上下○○の範囲にある」という言い方ならOKですが、ご質問文はその逆の表現でしたね。ここは良いとして・・・、

その範囲の計算方法は補足コメントに書かれたものとは全く違います。値も±5%ではなく、分布の95%範囲です。

予測区間は、(残差変動+切片変動+回帰変動)の平方根に、自由度(nー使用した変数の数ー1)のt値(外側±2.5%)を掛けたものです。
とても手計算でできるような値ではありません。

https://qiita.com/sakaikosuke/items/75ba95337ccd …

私が前の回答で示した「逆」とは・・・、
ご質問文のように「実測値の上下幅の中に予測値が含まれる」と考えると、元々ばらついている各実測値の上下に各々エラーバーを付けるようなものであり、全体としてはトンデモない許容幅を持ってしまうからです。
この回答への補足あり
    • good
    • 1

> No.100の家賃は92000円で、予測値は90037.72円で、92000円の範囲内だから・・・、



逆ですね。予測値90037.72円の上下に予測区間が付きます。
その95%予測区間内に実測値があれば、予測は上手くいったと考えます。

ちなみに、回帰線の上下には「信頼区間」と「予測区間」という2つの誤差範囲が設けられます。
信頼区間は回帰線の存在範囲、予測区間はデータの存在範囲です。

> 外挿に問題なしということで宜しいでしょうか?

一般に回帰分析では外挿は保証されていません。
そもそも、説明変数・目的変数の分布から逸脱するようなデータがあれば、外れ値として除外しなければなりません。その状態はテコ比という値で示されると思います。

理由は、外れた点があると、見かけ上のフィッティングが良くなってしまうからです。
傾きも無いようなダンゴ状のデータ空間に、離れた点を1点加えるだけで、その点を通るような回帰線が出来てしまうのです。

説明変数の分布の範囲内の値を代入するのであれば構いません。

> 自由度修正済み決定係数(自由度修正済み寄与率)

これは、変数選択の基準であり、フィッティングの指標ではありません。
また、2重調整済みのものを使うべきです。

フィッティングの指標は、調整されていない「重相関係数」やその2乗値である「重決定係数(寄与率)」を使います。
この回答への補足あり
    • good
    • 2

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています


このQ&Aを見た人がよく見るQ&A