![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?5a7ff87)
回帰分析について、その精度を検証するため、エクセルのSTEYX関数によって、その標準誤差を求めようと思っています。
ただ、一般には標準誤差は標準偏差/√標本数で表され、このため標本数を増やせば増やすほど、標準誤差は小さくなるはずですが、上記のSTEYX関数の計算結果では、計算対象とするデータ数を多くしてもSTEYX関数の結果は小さくなりません。
あるいは、標本内のデータ数は10個でも10000個でも一切関係なく、「標本数」とは全体のデータから何回サンプルを引き出したということなのでしょうか?
求めたいのは、Y=AX+Bで求められた直線に対して、散布図に描かれたデータが、どのくらいばらついているかを知りたいのですが、このような場合にSTEYX関数は適切ではないのでしょうか?
A 回答 (4件)
- 最新から表示
- 回答順に表示
No.4
- 回答日時:
No.3です。
即物的な回答で、大事なことを書くのを忘れていました。「統計」以前の「推論」の論理的道筋の話です。
「やりたいこと、推論・確認したいこと」が何で、そのための「前提条件、使えるデータ、そのデータをどのように用いて論理的に推論するか」ということが、「どういう統計処理をするか」以前になければいけない、ということです。
No.2の「お礼」に書かれたような事例の中身の専門的なことは全く分かりませんが、「勝浦から館山の年平均気温を予測する」と書かれている「論理的プロセス」からして、そもそもの「年平均気温」は「毎時気温(N=8760)の均一な平均」でよいのですか?
季節変動や昼夜による日内変動は問題にならないのですか?
また、単に「過去の気温の実績から推定する」だけでよいのですか? たとえば「冷夏」「猛暑」「暖冬」「長雨」といった「どんな気象傾向の年だったか」というような「パターン化」とか「バイアス」などは考慮しないのですか?
さらに、やりたいことが、もし「勝浦の『現在の』気温から館山の『現在の』気温を推定する」ということだとすると、たとえば
(1)推定に使う「気温差」は「年平均」でよいのか。少なくとも、「季節」あるいは「月別」の平均にしないといけないのではないか。
(2)気温差を決定する要因の影響を考慮しないのか。たとえば、季節による変動、天気や風向による変動、2地点の天気の差(一方が晴れで日照があり、他方は曇など)。
(3)上記の「要因」を取り込んだ気温の「予測式」のようなものはできないのか。
といったことも、事前に検討が必要かと思います。
「データと統計処理があれば何らかの結果が出る」というものではなく、「やりたいことがあって、その論理展開の中で、必要に応じてデータ処理のツールとして統計を使う」ということですから。
yhr2さま
引き続き、上記の御疑問についても回答申し上げます。
>そもそもの「年平均気温」は「毎時気温(N=8760)の均一な平均」でよいのですか?
>推定に使う「気温差」は「年平均」でよいのか。少なくとも、「季節」あるいは「月別」の平均にしないといけないのではないか。
⇒それでよいという認識です。月別、季節となると他の要因(天気、季節変化等)も考慮する必要が出てきますので。
>季節変動や昼夜による日内変動は問題にならないのですか?
>気温差を決定する要因の影響を考慮しないのか。たとえば、季節による変動、天気や風向による変動、2地点の天気の差(一方が晴れで日照があり、他方は曇など)。
>上記の「要因」を取り込んだ気温の「予測式」のようなものはできないのか。
⇒別途ご説明させていただきましたとおり、小生の関心はあくまでも年ベースのトレンドで、それより位相の短い変動については考慮の外にしたく思います。
また単純化のため気温だけの単回帰で推定し、「季節」「天候」「天気の差」など他因子については、相関の「ばらつき=STEYX」で考慮したく思います。
>また、単に「過去の気温の実績から推定する」だけでよいのですか? たとえば「冷夏」「猛暑」「暖冬」「長
雨」といった「どんな気象傾向の年だったか」というような「パターン化」とか「バイアス」などは考慮しないのですか?
これは重要なご指摘で、確かに2015年から30年以上の長期のデータ予測する場合、「温暖化」のような長期のトレンド、あるいはご指摘のような「冷夏」「猛暑」などの影響もあります。
しかし、それらは近接した地域では、どの観測点にも平等に影響を与えているものと見做せますので、とりあえずは考慮の外にしようと思います。
ただ大都市のようなヒートアイランドの影響の大きいデータは使えませんが。
以上ですが、小生の誤りや疑問点などお気づきになられましたら、ご指摘いただければ幸いです。
No.3
- 回答日時:
No.1&2 です。
>たとえば今回試みとして、2015年1年間の勝浦と館山の毎時気温(N=8760)について前者をX、後者をYとして、回帰分析を行ったところSTEYXは1.63となり、これを√8760で割ると0.017という値になりました。これが勝浦から館山の年平均気温を予測する際の標準誤差と言うことですが、これは直感的にも小さすぎるように思えます。
処理内容までは聞いていませんでしたが、「2015年1年間の勝浦と館山の毎時気温(N=8760)について前者をX、後者をYとして、回帰分析を行ったところ」というのは、「勝浦から館山の気温の相関」ということですね?
もし「勝浦と館山の気温差の年間平均」という統計量が、「勝浦と館山の毎時気温(N=8760)の差の平均値」ということであれば、全データ(N=8760)を処理して求めた「気温差の年間平均」は「そのものズバリ」のデータですから、それを回帰分析から求めて標準誤差を計算すれば、「ほとんどゼロ」になるのは当たり前なのではないですか?
そもそもの「真の勝浦と館山の気温差の年間平均」は「勝浦と館山の毎時気温(N=8760)の差」から求める計算値(統計量)であり、それを回帰分析の結果から求めても、ほぼ同じ値になることは当然といえば当然ですから。
(神のみぞ知る「真の勝浦と館山の気温差の年間平均」があるとして、それを神様も「勝浦と館山の毎時気温(N=8760)から計算する」のだとすれば、標準誤差が 0.017 という小さい値になったというのは、当然ですよね?)
つまり、「N=8760 のデータから直接『平均値』を求めても、回帰分析から『最も確からしい推定値』を求めても、ほぼ同じ値になる」ということだと思います。
「この平均値にはどれだけのバラツキがあるのか」は、このデータからは分からない、ということなのだと思います。「N=8760 のデータから直接求めた平均値」は、たった1つしかないので。
「毎日のデータが、平均値からどれだけばらついているか」は、もともとの「標準偏差」です。(エクセルのSTEYX関数では「標準誤差」と呼ばれているもの)
>このため短期(1年程度)のデータから予測をしたいのですが、このような外挿的な方法で、ばらつきも予測するというのは、やはり無理なのでしょうか?
2015年のデータを、他の年の「気温差の年間平均」にも使ってよいのかどうかは、毎年、統計的に同等とみなせる、と仮定してよいかどうかという問題であり、統計の問題ではなく、「気象に関する推論」の前提条件の問題かと思います。
前半に書いたように、2015年のデータに関しては、「統計データから推定できる値」(この場合は「勝浦と館山の気温差の年間平均」)はかなり正確に得られますが、他の年はどの程度ばらつくのかについては、まったくデータがないので「統計」としては何も判断できないということです。
(他の年のデータがあれば、「気温差の年間平均」が「同一」とみなせるかどうかの「検定」ができると思いますが)
なお、もしこの目的で使うのであれば、「年平均値」(N=8760 のデータから直接求めても、回帰分析から『最も確からしい推定値』を求めてよい)に対して、「毎日のデータが、平均値からどれだけばらついているか」(もともとの「標準偏差」)を使うべきだと思います。
√標本数 で割った「標準誤差」は、あくまで「標本平均値」自身のバラツキであって、測定データのバラツキではありませんので。
yhr2さま
長文のご回答有難うございました。
何か混乱させてしまったようで申し訳ありません。少し整理しようと思います
小生の直面している課題は以下の通りです。
・両データの長期の年平均気温の相関から回帰式を推定する。
・その際、従属変数を十分に説明できない「ばらつき」も併せて算出する。
・しかし、相関に用いるデータは短期(1年のみ)とする。
↓
◎今回のご相談テーマ:短期の時別値の「ばらつき」から、長期の年平均値の「ばらつき」を推定したい
その場合、ご指摘の通り、2015年のデータを他の年にも使ってよいか、という点が問題になりますが、小生の推論としては、観測所の移転や観測条件の変更等がなければ、(長期のトレンドは無視するとして)推定できるのではないかと期待しています。
「お礼」には添付ファイルを張り付けられないようなので言葉での説明になってしまいますが、2015年の館山年平均気温の推定値は、2015年の時別データから出しても、30年間の年平均データから出してもほぼ同じになります。おそらく他の年も、両観測点に大きい変更がなければ同程度と思われます。
しかし、その「ばらつき」を比較すると、時間値から計算した場合の方が、年平均値から計算した場合より明らかに大きくなっています。これは時スケールでは天気や地形などのローカルな影響で細かい凹凸が生じますが、年スケールですと一様に均されるためです。(もちろん日本海側と太平洋側のような遠距離では年スケールでも大きな違いが出てきますが)
小生の関心は年間平均値であるため、細かい凹凸を捨象した年スケールでの30年間での「ばらつき」が重要になります。そこで何とか1年の時別データから作成された「ばらつき」で、長期間の年間の「ばらつき」が推定できないかと考えたのが、ご相談いたしました理由となります。
また、そうした「ばらつき」の計算には、もともとの「標準偏差」を使うとのご指摘ですが、2015年時別値から計算すると1.63となり、実際の30年の年平均値から作成された「標準偏差」の0.13に比べ大きすぎます。
仮に、他の年も2015年も統計的にまったく同一にみなせるとした場合、年平均値の「ばらつき」の算出は可能なのでしょうか?
ご都合のよいときにでもご回答いただければ幸甚です。
No.2
- 回答日時:
No.1です。
>STEYXは実質的に標準偏差とすれば、これを1年間の時間数8760の平方根で割った、STEYX/√8760を年平均値のばらつきと見做してよいものでしょうか?
はい、それでよいと思います。
No.1に書いたように、本来の「標準誤差」は「正規分布する母集団からのサンプルデータの統計量のバラツキ」ということです。サンプルデータから計算した「年平均値」も「サンプルデータの統計量」の一つですので、それを「√サンプル数」で割ったものが、「年平均値(サンプル値)のバラツキ」(本来の標準誤差)に相当すると思います。
「年平均値(サンプル値)のバラツキ」は、サンプル数を増やせば増やすほど「小さく」することができるはずです。
yhr2さま
重ねてのご回答有難うございます。
ただ、√8760は93.6であり、この場合、年変動の標準偏差は、時変動のそれの1/93.6になり、ほぼケタが2つ分も小さくなってしまうように思います。
たとえば今回試みとして、2015年1年間の勝浦と館山の毎時気温(N=8760)について前者をX、後者をYとして、回帰分析を行ったところSTEYXは1.63となり、これを√8760で割ると0.017という値になりました。これが勝浦から館山の年平均気温を予測する際の標準誤差と言うことですが、これは直感的にも小さすぎるように思えます。
確認のため、別途両者の任意の期間、たとえば30年間の毎年の年平均気温を調べ、これで回帰分析を行うと、STEYXは0.13(念のため自由度をn-1としても同じ値)となり、1ケタ違う結果になりました。
もちろん2015年1年間から長期間の年平均気温の標準誤差を求めようとするため、合わないのは当たり前ですが、それにしても違いが大きすぎるように感じます。
この計算はどこかおかしいのでしょうか?
求めたいのは回帰分析によって予測された年平均値とそのばらつきなのですが、観測地によっては長期間の均質なデータが得られない場合があります。このため短期(1年程度)のデータから予測をしたいのですが、このような外挿的な方法で、ばらつきも予測するというのは、やはり無理なのでしょうか?
たびたびの質問で誠に恐縮ですが、宜しかったらご回答いただければ幸いです。
No.1
- 回答日時:
>回帰分析について、その精度を検証するため、エクセルのSTEYX関数によって、その標準誤差を求めようと思っています。
多分、それでよろしいと思います。
>一般には標準誤差は標準偏差/√標本数で表され、このため標本数を増やせば増やすほど、標準誤差は小さくなるはずです
統計は、似たような用語や概念が多いので、何か誤解されていませんか?
STEYX関数で計算される「標準偏差」は、下記リンク先にあるように、実測値の Y と、回帰式で得られる推定値 Y' とのバラツキを表わす「標準偏差」相当の値です。(自由度をデータ数より少なくしたいわゆる「不偏標準偏差」のようなもの)
データ数を増やせば増やしただけ「二乗偏差」も大きくなりますので、データ数を増やせば小さくなるものではありません。
http://www.geisya.or.jp/~mwm48961/statistics/cor …
質問者さんのおっしゃる「標準誤差」は、「正規分布する母集団からのサンプルデータのバラツキ」のことを言っていませんか?
https://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96 …
yhr2さん、さっそくご回答有難うございました。
STEYX関数は実質的には自由度を少なくした標準偏差とのこと納得しました。Nは十分に大きい場合、ほぼ標準偏差と似たような結果になるので、多分そのようなことだと思っていました。(STEYXが何故紛らわしい標準誤差という名称なのか理解には苦しみますが)
さて件のデータは1時間値の気象データなのですが、実際には両観測地点の年平均値のばらつきを見たいので、1時間値の標準偏差では過大になります。STEYXは実質的に標準偏差とすれば、これを1年間の時間数8760の平方根で割った、STEYX/√8760を年平均値のばらつきと見做してよいものでしょうか?
重ね重ねの質問で恐縮ですが、よろしくお願い申し上げます。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 確率統計でExcelの使い方を教えてください。 3 2022/07/27 19:21
- 統計学 直線の傾き(回帰係数)から相関係数を計算できるのでしょうか? 2 2022/09/16 19:28
- 統計学 不偏分散を計算するときに標準偏差和をn-1で割りますが、なぜ-1なのでしょうか? 「なぜnでなくn- 5 2022/07/04 14:54
- 統計学 生物統計学の質問 7 2022/05/17 13:59
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 統計学 統計学の問題です。よろしくお願いします。 ある部品の重量は正規分布に従うとされており,過去の経験から 1 2023/01/19 03:36
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 確率統計です。 1 2022/07/27 23:14
このQ&Aを見た人はこんなQ&Aも見ています
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計学の問題なんですが・・・
-
加重平均(重み付き平均)の標...
-
標準偏差の平均値の求め方
-
バラツキを考慮して平均を補正...
-
平均値と標準偏差からテストデ...
-
標準偏差の「数値」による判断...
-
サンプルの平均値と上限値と下...
-
標準偏差について
-
人口70億人超えの世界で行われ...
-
平均-3σの考え方を教えてくださ...
-
エクセルのSTEYX関数について
-
Excel2003で度数分布表をもとに...
-
平均値と最小自乗平均値
-
【大至急!】平均の計算
-
20代男性で160cm前半の割合はど...
-
統計学の二乗平均がわからない
-
5教科のテストそれぞれの得点か...
-
ニューラルネットの標準化について
-
エクセルでの統計計算について
-
標準偏差と平均偏差の違い
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計学の問題なんですが・・・
-
加重平均(重み付き平均)の標...
-
標準偏差の平均値の求め方
-
標準偏差について詳しい方お願...
-
標準偏差の「数値」による判断...
-
統計学の二乗平均がわからない
-
バラツキを考慮して平均を補正...
-
平均-3σの考え方を教えてくださ...
-
EXCELで0をカウントしないで平...
-
データの加重平均について
-
縦計算と横計算で平均が合わない。
-
比率(%) の平均値を算出する場...
-
S管理図の管理限界線の求め方に...
-
【数学・標準偏差σ】標準偏差の...
-
計数秤での員数不足対策について
-
クラスの人数と平均点のみから...
-
標準偏差の計算方法
-
平均値と標準偏差からテストデ...
-
標準偏差について
-
標準偏差と平均偏差の違い
おすすめ情報