重回帰分析におけるＰ値とデータ数の関係について

Question

レポートで重回帰分析を用いた実証分析を行っているのですが、重回帰分析に関しての質問があります。

内容としては、企業のコスト構造に一定の費用関数を推定し、コストを被説明変数、その他の説明変数を複数推定して、そのパラメーター（２～３つ）を重回帰分析で求めるもの内容となっています。

財務データを年代順に収集し、上記の分析方法で計測したところ、分析結果（推定式）のＲ２はデータ量が増加しても良好に推移しています。
ところが、複数ある説明変数の一部のＰ値が、1%⇒5%⇒10%・・・と、どんどん大きくなってしまい、説明変数として有意でなくなってしまいました。

【質問1】
データ量の増加とともにＰ値が大きくなるのは、データ量の増加に伴い推定式における当該説明変数の説明力が減少した（有力な説明変数でなくなっている）、という理解でよいのでしょうか？
【質問2】
Ｐ値の説明力を維持する（Ｐ値が大きくならないようにする）方法はあるのでしょうか？

以上です。
知識のある方には愚問かも知れませんが、何卒よろしくご回答をお願い致します。

kgu-2 · Accepted Answer

事情は分りました。

【質問1】統計学では、データ数が増えるほど有意差は出やすい、というのが原則です。単相関だと、p<0.05の水準で、データ数が10だと相関係数は0.57以上ですが、100もあると0.19。相関係数が0.19の散布図を見れば、てんでバラバラ。関係あるとは思えないような図です。重回帰は、単回帰の延長なので、原則は同じのハズ。
　この原則に反するのは、多重共線性の問題が考えられます。説明変数どうしの相関が、0.5程度でも引っかかるようです。どれくらいだとクリアできるのかは、知りません。
【質問2】データがあれば、正しい方法はひとつしかないので、それに則って計算する限り、ありません。データを捏造するなどなら可。

p値を重視されていますが、No1にも書きましたように、これから言えるのは、「有意差がある」→　それをつかっても、間違いである確率は、５％以下、ということのみ。
　回帰式の目的は、どれくらい予想(推定値である従属変数)を的中させるか、でしょう。この場合は、両者の関係の強さを説明するrを1に近づけるのが適切。ただ、rは、データ数が増えると小さくなります。
　一番は、多重共線性に配慮しながら、説明変数を増やすこと。そうすれば、rの値は、1に近づきます。それは、曖昧さ(回帰式との距離)が少なくなるからです。教科書的には、説明変数を増やして、その変数についてF検定をして、p<0.05なら採用、そうでなければ排除、と書いてあります。が、私は、rの値が少しでも1に近づくので、排除しません。

s_nak · Answer

【質問1】
推定期間や費用関数の関数形に依存する話なので一概に判断できません。
固定的な費用関数で、データ数(年次や四半期)を増やしても、推定期間が長くなりすぎれば、当てはまりが悪くなる事も考えられます。
実際に経済の実証分析において何らかの関数の推計を行う際に、
関数、関数形によって、適当な推計期間というのがあります。
理系の実験データなどと違い、経済の時系列データの場合は特に、単純に数を増やせば、推計の精度があがるとは限らない。

【質問2】
1.説明変数自体が長期間にわたっても適当か考える。
景気要因を除去するための稼働率などのデータを使用しているか否かなど。
労働投入は、労働者数でも短かい期間ならそれほど問題なく推計できるかも知れませんが、マクロの費用関数などでは労働者数ｘ労働時間が説明変数になります。
2.費用関数の推計に用いている関数形をよく検討する。
ミクロの双対性理論を使えるほどデータが適当なら価格を加味するなど。
3.現在考慮されていないダミー変数などを検討する。
もし年次でバブル以前以後に渡る期間であるとかなら、バブルダミーなど。

kgu-2 · Answer

>レポートで
 何かの課題なら、それに回答することは、規約で禁じられています。ゼミなどの発表も、同様でしょう。指導者にがいるのなら、横から口出しするのは、マナーに反します。誰、もしくは何のためのレポートなのか、補足してください。

　単回帰分析のご経験は。これにより因果関係の有無についての判断のトレーニングなしでは、説明変数の適否の判断に疑問をもちます。
　また、重回帰分析については、多重共線性の問題をご理解しておられますか。さもないと、平均寿命を延ばすには、医師は増やすが看護婦は減らした方が良い、という重回帰式を導くことができます。

>データ量
 データ数は耳にしますが。説明変数の数でしょうか。
それとも、同一の説明変数におけるデータ数でしょうか。同一の説明変数のデータ数の場合、相関係数rは小さくなって相関があるのかと不安になりますが、p値はむしろ小さく(回帰式は妥当であると判断される)なると想いますが。p値が0.05より大きくなり、有意差無しになるのであれば、その説明変数は不適当であり、削除すべきです。

>Ｐ値の説明力を維持する（Ｐ値が大きくならないようにする）方法はあるのでしょうか？
 p値は、有意差の有無の判断に利用できるだけです。pの値が0.05でも、0.01でも、0.00001でも、統計学的な価値は、いずれも「有意差あり」と表現できるだけです。
　説明力は、rの方が妥当です。rの絶対値が1.00なら説明変数がすべて、1より小さいと、他の要素が入り込んでいる、ということです。

重回帰分析におけるＰ値とデータ数の関係について

事情は分りました。

【質問1】

>レポートで

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング