dポイントプレゼントキャンペーン実施中!

回帰分析について、その精度を検証するため、エクセルのSTEYX関数によって、その標準誤差を求めようと思っています。
ただ、一般には標準誤差は標準偏差/√標本数で表され、このため標本数を増やせば増やすほど、標準誤差は小さくなるはずですが、上記のSTEYX関数の計算結果では、計算対象とするデータ数を多くしてもSTEYX関数の結果は小さくなりません。
あるいは、標本内のデータ数は10個でも10000個でも一切関係なく、「標本数」とは全体のデータから何回サンプルを引き出したということなのでしょうか?
求めたいのは、Y=AX+Bで求められた直線に対して、散布図に描かれたデータが、どのくらいばらついているかを知りたいのですが、このような場合にSTEYX関数は適切ではないのでしょうか?

A 回答 (4件)

No.3です。

即物的な回答で、大事なことを書くのを忘れていました。

 「統計」以前の「推論」の論理的道筋の話です。
 「やりたいこと、推論・確認したいこと」が何で、そのための「前提条件、使えるデータ、そのデータをどのように用いて論理的に推論するか」ということが、「どういう統計処理をするか」以前になければいけない、ということです。

 No.2の「お礼」に書かれたような事例の中身の専門的なことは全く分かりませんが、「勝浦から館山の年平均気温を予測する」と書かれている「論理的プロセス」からして、そもそもの「年平均気温」は「毎時気温(N=8760)の均一な平均」でよいのですか?
 季節変動や昼夜による日内変動は問題にならないのですか?
 また、単に「過去の気温の実績から推定する」だけでよいのですか? たとえば「冷夏」「猛暑」「暖冬」「長雨」といった「どんな気象傾向の年だったか」というような「パターン化」とか「バイアス」などは考慮しないのですか?

 さらに、やりたいことが、もし「勝浦の『現在の』気温から館山の『現在の』気温を推定する」ということだとすると、たとえば
(1)推定に使う「気温差」は「年平均」でよいのか。少なくとも、「季節」あるいは「月別」の平均にしないといけないのではないか。
(2)気温差を決定する要因の影響を考慮しないのか。たとえば、季節による変動、天気や風向による変動、2地点の天気の差(一方が晴れで日照があり、他方は曇など)。
(3)上記の「要因」を取り込んだ気温の「予測式」のようなものはできないのか。
といったことも、事前に検討が必要かと思います。

 「データと統計処理があれば何らかの結果が出る」というものではなく、「やりたいことがあって、その論理展開の中で、必要に応じてデータ処理のツールとして統計を使う」ということですから。
    • good
    • 0
この回答へのお礼

yhr2さま
引き続き、上記の御疑問についても回答申し上げます。

>そもそもの「年平均気温」は「毎時気温(N=8760)の均一な平均」でよいのですか?
>推定に使う「気温差」は「年平均」でよいのか。少なくとも、「季節」あるいは「月別」の平均にしないといけないのではないか。

⇒それでよいという認識です。月別、季節となると他の要因(天気、季節変化等)も考慮する必要が出てきますので。

>季節変動や昼夜による日内変動は問題にならないのですか?
>気温差を決定する要因の影響を考慮しないのか。たとえば、季節による変動、天気や風向による変動、2地点の天気の差(一方が晴れで日照があり、他方は曇など)。
>上記の「要因」を取り込んだ気温の「予測式」のようなものはできないのか。

⇒別途ご説明させていただきましたとおり、小生の関心はあくまでも年ベースのトレンドで、それより位相の短い変動については考慮の外にしたく思います。
また単純化のため気温だけの単回帰で推定し、「季節」「天候」「天気の差」など他因子については、相関の「ばらつき=STEYX」で考慮したく思います。

>また、単に「過去の気温の実績から推定する」だけでよいのですか? たとえば「冷夏」「猛暑」「暖冬」「長
雨」といった「どんな気象傾向の年だったか」というような「パターン化」とか「バイアス」などは考慮しないのですか?

これは重要なご指摘で、確かに2015年から30年以上の長期のデータ予測する場合、「温暖化」のような長期のトレンド、あるいはご指摘のような「冷夏」「猛暑」などの影響もあります。
しかし、それらは近接した地域では、どの観測点にも平等に影響を与えているものと見做せますので、とりあえずは考慮の外にしようと思います。
ただ大都市のようなヒートアイランドの影響の大きいデータは使えませんが。

以上ですが、小生の誤りや疑問点などお気づきになられましたら、ご指摘いただければ幸いです。

お礼日時:2016/09/05 14:19

No.1&2 です。



>たとえば今回試みとして、2015年1年間の勝浦と館山の毎時気温(N=8760)について前者をX、後者をYとして、回帰分析を行ったところSTEYXは1.63となり、これを√8760で割ると0.017という値になりました。これが勝浦から館山の年平均気温を予測する際の標準誤差と言うことですが、これは直感的にも小さすぎるように思えます。

 処理内容までは聞いていませんでしたが、「2015年1年間の勝浦と館山の毎時気温(N=8760)について前者をX、後者をYとして、回帰分析を行ったところ」というのは、「勝浦から館山の気温の相関」ということですね?

 もし「勝浦と館山の気温差の年間平均」という統計量が、「勝浦と館山の毎時気温(N=8760)の差の平均値」ということであれば、全データ(N=8760)を処理して求めた「気温差の年間平均」は「そのものズバリ」のデータですから、それを回帰分析から求めて標準誤差を計算すれば、「ほとんどゼロ」になるのは当たり前なのではないですか?
 そもそもの「真の勝浦と館山の気温差の年間平均」は「勝浦と館山の毎時気温(N=8760)の差」から求める計算値(統計量)であり、それを回帰分析の結果から求めても、ほぼ同じ値になることは当然といえば当然ですから。
(神のみぞ知る「真の勝浦と館山の気温差の年間平均」があるとして、それを神様も「勝浦と館山の毎時気温(N=8760)から計算する」のだとすれば、標準誤差が 0.017 という小さい値になったというのは、当然ですよね?)

 つまり、「N=8760 のデータから直接『平均値』を求めても、回帰分析から『最も確からしい推定値』を求めても、ほぼ同じ値になる」ということだと思います。
 「この平均値にはどれだけのバラツキがあるのか」は、このデータからは分からない、ということなのだと思います。「N=8760 のデータから直接求めた平均値」は、たった1つしかないので。
 「毎日のデータが、平均値からどれだけばらついているか」は、もともとの「標準偏差」です。(エクセルのSTEYX関数では「標準誤差」と呼ばれているもの)

>このため短期(1年程度)のデータから予測をしたいのですが、このような外挿的な方法で、ばらつきも予測するというのは、やはり無理なのでしょうか?

 2015年のデータを、他の年の「気温差の年間平均」にも使ってよいのかどうかは、毎年、統計的に同等とみなせる、と仮定してよいかどうかという問題であり、統計の問題ではなく、「気象に関する推論」の前提条件の問題かと思います。

 前半に書いたように、2015年のデータに関しては、「統計データから推定できる値」(この場合は「勝浦と館山の気温差の年間平均」)はかなり正確に得られますが、他の年はどの程度ばらつくのかについては、まったくデータがないので「統計」としては何も判断できないということです。
(他の年のデータがあれば、「気温差の年間平均」が「同一」とみなせるかどうかの「検定」ができると思いますが)

 なお、もしこの目的で使うのであれば、「年平均値」(N=8760 のデータから直接求めても、回帰分析から『最も確からしい推定値』を求めてよい)に対して、「毎日のデータが、平均値からどれだけばらついているか」(もともとの「標準偏差」)を使うべきだと思います。
 √標本数 で割った「標準誤差」は、あくまで「標本平均値」自身のバラツキであって、測定データのバラツキではありませんので。
    • good
    • 0
この回答へのお礼

yhr2さま
長文のご回答有難うございました。

何か混乱させてしまったようで申し訳ありません。少し整理しようと思います
小生の直面している課題は以下の通りです。

・両データの長期の年平均気温の相関から回帰式を推定する。
・その際、従属変数を十分に説明できない「ばらつき」も併せて算出する。
・しかし、相関に用いるデータは短期(1年のみ)とする。
               ↓
◎今回のご相談テーマ:短期の時別値の「ばらつき」から、長期の年平均値の「ばらつき」を推定したい

その場合、ご指摘の通り、2015年のデータを他の年にも使ってよいか、という点が問題になりますが、小生の推論としては、観測所の移転や観測条件の変更等がなければ、(長期のトレンドは無視するとして)推定できるのではないかと期待しています。
「お礼」には添付ファイルを張り付けられないようなので言葉での説明になってしまいますが、2015年の館山年平均気温の推定値は、2015年の時別データから出しても、30年間の年平均データから出してもほぼ同じになります。おそらく他の年も、両観測点に大きい変更がなければ同程度と思われます。

しかし、その「ばらつき」を比較すると、時間値から計算した場合の方が、年平均値から計算した場合より明らかに大きくなっています。これは時スケールでは天気や地形などのローカルな影響で細かい凹凸が生じますが、年スケールですと一様に均されるためです。(もちろん日本海側と太平洋側のような遠距離では年スケールでも大きな違いが出てきますが)

小生の関心は年間平均値であるため、細かい凹凸を捨象した年スケールでの30年間での「ばらつき」が重要になります。そこで何とか1年の時別データから作成された「ばらつき」で、長期間の年間の「ばらつき」が推定できないかと考えたのが、ご相談いたしました理由となります。

また、そうした「ばらつき」の計算には、もともとの「標準偏差」を使うとのご指摘ですが、2015年時別値から計算すると1.63となり、実際の30年の年平均値から作成された「標準偏差」の0.13に比べ大きすぎます。
仮に、他の年も2015年も統計的にまったく同一にみなせるとした場合、年平均値の「ばらつき」の算出は可能なのでしょうか?

ご都合のよいときにでもご回答いただければ幸甚です。

お礼日時:2016/09/05 14:03

No.1です。



>STEYXは実質的に標準偏差とすれば、これを1年間の時間数8760の平方根で割った、STEYX/√8760を年平均値のばらつきと見做してよいものでしょうか?

 はい、それでよいと思います。
 No.1に書いたように、本来の「標準誤差」は「正規分布する母集団からのサンプルデータの統計量のバラツキ」ということです。サンプルデータから計算した「年平均値」も「サンプルデータの統計量」の一つですので、それを「√サンプル数」で割ったものが、「年平均値(サンプル値)のバラツキ」(本来の標準誤差)に相当すると思います。
 「年平均値(サンプル値)のバラツキ」は、サンプル数を増やせば増やすほど「小さく」することができるはずです。
    • good
    • 1
この回答へのお礼

yhr2さま
重ねてのご回答有難うございます。
ただ、√8760は93.6であり、この場合、年変動の標準偏差は、時変動のそれの1/93.6になり、ほぼケタが2つ分も小さくなってしまうように思います。

たとえば今回試みとして、2015年1年間の勝浦と館山の毎時気温(N=8760)について前者をX、後者をYとして、回帰分析を行ったところSTEYXは1.63となり、これを√8760で割ると0.017という値になりました。これが勝浦から館山の年平均気温を予測する際の標準誤差と言うことですが、これは直感的にも小さすぎるように思えます。
確認のため、別途両者の任意の期間、たとえば30年間の毎年の年平均気温を調べ、これで回帰分析を行うと、STEYXは0.13(念のため自由度をn-1としても同じ値)となり、1ケタ違う結果になりました。
もちろん2015年1年間から長期間の年平均気温の標準誤差を求めようとするため、合わないのは当たり前ですが、それにしても違いが大きすぎるように感じます。
この計算はどこかおかしいのでしょうか?

求めたいのは回帰分析によって予測された年平均値とそのばらつきなのですが、観測地によっては長期間の均質なデータが得られない場合があります。このため短期(1年程度)のデータから予測をしたいのですが、このような外挿的な方法で、ばらつきも予測するというのは、やはり無理なのでしょうか?

たびたびの質問で誠に恐縮ですが、宜しかったらご回答いただければ幸いです。

お礼日時:2016/09/02 18:33

>回帰分析について、その精度を検証するため、エクセルのSTEYX関数によって、その標準誤差を求めようと思っています。



多分、それでよろしいと思います。

>一般には標準誤差は標準偏差/√標本数で表され、このため標本数を増やせば増やすほど、標準誤差は小さくなるはずです

統計は、似たような用語や概念が多いので、何か誤解されていませんか?
STEYX関数で計算される「標準偏差」は、下記リンク先にあるように、実測値の Y と、回帰式で得られる推定値 Y' とのバラツキを表わす「標準偏差」相当の値です。(自由度をデータ数より少なくしたいわゆる「不偏標準偏差」のようなもの)
データ数を増やせば増やしただけ「二乗偏差」も大きくなりますので、データ数を増やせば小さくなるものではありません。
http://www.geisya.or.jp/~mwm48961/statistics/cor …

質問者さんのおっしゃる「標準誤差」は、「正規分布する母集団からのサンプルデータのバラツキ」のことを言っていませんか?
https://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96 …
    • good
    • 0
この回答へのお礼

yhr2さん、さっそくご回答有難うございました。
STEYX関数は実質的には自由度を少なくした標準偏差とのこと納得しました。Nは十分に大きい場合、ほぼ標準偏差と似たような結果になるので、多分そのようなことだと思っていました。(STEYXが何故紛らわしい標準誤差という名称なのか理解には苦しみますが)

さて件のデータは1時間値の気象データなのですが、実際には両観測地点の年平均値のばらつきを見たいので、1時間値の標準偏差では過大になります。STEYXは実質的に標準偏差とすれば、これを1年間の時間数8760の平方根で割った、STEYX/√8760を年平均値のばらつきと見做してよいものでしょうか?

重ね重ねの質問で恐縮ですが、よろしくお願い申し上げます。

お礼日時:2016/09/01 16:39

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!