![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?e8efa67)
毎年の最高気温のデータが50年ぐらいあるとします(単に50個のデータ)。これを使って100年に1度の年最高気温の推定値を考えるときに確率・統計の手法ではどうなるでしょうか。
通常の確率・統計のテキストでは分布型は決まっている(二項分布などは有無を言わさず理論的に決まるわけです)けれどもパラメータ(母数?)が不明であり、それを推定していくという考え方はあると思います。しかし、分布型のタイプが未定(気象現象のように決定論的にものを言うことができない場合)という場合、どこから手を付けていいか分かりません。
専門書を見ると以下のようなことが書いてあります。
1.50年のデータを大きい順に並べる。
2.ある確率分布に従うと仮定し、それに応じて50データのうちの第1位に対応した超過確率を求める(順序統計?)。
3.第2位から50位まで同様の計算をし、グラフ(y=気温,x=超過確率)にして回帰計算等を行い、関数形を決める。
4.関数に100年のうちの1位に対応した超過確率(1%)に対する気温を読み取る。これが100年のうちの最高気温の推定値である。
5.あまりうまくいかない場合、2で仮定した確率分布を変更する。
という手順になるようです。年最大降水量などもこのように決めるのではないでしょうか。
このような説明は作業手順としてはわかりやすいですが、なるほどこれでいい、と納得しにくいと思います。特に確率分布を仮定したことによって計算できる順位(第1位~50位)に応じた超過確率の計算方法の根拠はどのようなものなのでしょうか。
5.あまりうまくいかないとはどのように判断するのでしょうか。
専門的で込み入っておりますが、よろしくお願いします。
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
ANo.2へのコメントについてです。
> カタストロフィックな現象がないと仮定した場合、すなわち定常的な確率過程であると考えた場合、その範囲内で100年に一度の最大高温を知るという場合
現象の変動を説明するモデル(理論)が在るとき、そこから観測値(がこうなるはずという)分布を演繹するのが確率論という数学です。もちろん、モデルが現実と合致しているかどうかは、数学の側では一切面倒見てくれません。
で、その想定した「確率過程」が一体どういうメカニズムで生じるのかが説明できていないうちは、それはまともなモデルになってない。気温に関して言うなら、熱の収支だけを考慮したごく簡単な気象モデルでもカオスや熱暴走が発生するので、「定常的な確率過程」と考えるのはかなり無理でありましょう。
> 読み落としの責任の追及
「人知の及ぶところではなく、予言なんかできません」と逃げるのが一番正直だと思います。敢えてチャレンジするなら「悲観的な結論が出る確率分布」に基づいて予測することになりますが、「観測と矛盾しない分布」というだけでは充分に限定できない。気温の数値情報だけじゃ足りない訳ですから、古文書でも伝説でも神話でも遺跡の炭素同位体比でも、傍証になりそうなものを出来る限り集めた上でベイズ推定をやる、という手かな。
No.2
- 回答日時:
> 根拠はどのようなものなのでしょうか。
根拠がないんです。統計ってのは要するに、過去の経験にだけ基づいて「今後も同じようにものごとが生じるだろう」という期待を数値的に扱っているに過ぎません。すなわち、せいぜい「未経験の値だけど、経験したものとさして違わない程度の範囲ではある」というものについてなら、ま、何も予測ができないよりは良いよね、ということなんです。
たとえば、極端な気温が、普段は生じないような特殊な原因、たとえば小惑星の落下とか、巨大火山の大噴火とか、そういう原因で生じる場合を考えれば、「普段の気温のデータが正規分布になっているかどうか」を検討したところで予測の役に立たないのは明らかでしょう。
同様に、経済学の株価の変動も、普段は正規分布っぽく変動していますが、大暴騰・大暴落は正規分布から予想されるよりも遥かに大きな頻度で発生することが、データから知られています。(正規分布だと仮定して組み立てた理論(ブラック・ショールズの理論)を信頼していたところ、大破綻しちゃってまあ大変、ってのがリーマンショックだとも言えます。)
> あまりうまくいかないとはどのように判断するのでしょうか。
手持ちの50例のうちの極端なものの発生頻度が、そのモデルでうまく予想できているかどうか、という自己整合性(consistency)のチェックをするしかないですね。それだけしかデータがないのだから。
回答ありがとうございます。ご指摘のように確率・統計は経験の学問であり、演繹(根拠の明示)できるものではなく、データから帰納的にアプローチしていくものですね(ただ、道具として使う数学は演繹的なもので例えば2項分布は演繹的だと思いますが)。 もし、カタストロフィックな現象がないと仮定した場合、すなわち定常的な確率過程であると考えた場合、その範囲内で100年に一度の最大高温を知るという場合にはどうなるでしょうか。これは過去50年のデータには気温上昇のトレンドは含まれており、それが抽出できるか、あるいは確率分布のタイプは変化しないけれども母数(平均・分散などのパラメータ)はジワリジワリと変わっているかどうかを判断するというような立場です。カタストロフィだともう責任の追及もないと思いますが、確率過程の変化の中にそのシグナルが含まれていたら読み落としの責任の追及はありうるかなと思うのですが。
No.1
- 回答日時:
毎年の最高気温は、「地球温暖化」などの共通事象がないと仮定すれば独立事象と考えられますので(その年の最高気温は、前の年など他の年の最高気温には影響されない)、ある「平均値」の周りにランダムな誤差でばらついている、と考えればよいのではないかと思います。
そういったランダム事象は「正規分布」に従います。
従って、まず統計データから「平均値」を求め、各データの平均値からのばらつきを表わす「標準偏差:σ」を求めれば、おおむねのデータの予測ができます。
http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F% …
http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96% …
つまり、正規分布では、±1σの範囲内に68.27%、±2σの範囲内に95.45%、±3σの範囲内に99.73%が入りますから、「100年に1度(発生率1%)」だと、2σと3σの間という推定ができます。(正確には2.58σであることが「標準正規分布表」から簡単に読み取れます)
http://www.stat.go.jp/koukou/howto/process/p4_3_ …
http://www.geisya.or.jp/~mwm48961/statistics/std …
これを使えば、100年に一度の最高気温だけでなく、100年に一度の冷夏、大雨、干ばつなどの程度も予測できます。さらに、逆の読み方をすれば、ある最高気温の出現率は何年に一度か、ある年間降雨量を超える/下回る異常気象の発生確率がどの程度かも求まります。
回答ありがとうございます。正規分布の他にワイブル分布、レイリー分布、ポアソン分布など様々な分布が提案されているようです。現象のタイプから演繹的に選んだりすることができるようなのです。例えば海岸の高波について年最大の波の高さの分布などです。
最高気温のばらつきを正規分布と考えた場合、手持ちデータから正規分布のパラメータを推定し、1%に対応した気温を読むという方法はあるかなと思います。度数分布から確率密度関数を求めてカーブフィッティングで正規分布のパラメータを決めるというプロセスなのでしょうか。一方で程度の激しい現象に対する統計を極値統計解析ということで何やら特別な方法を使って処理するらしいのですが。その中に順序統計という話が出てきてますます理解が難しくなるのですが。
よろしくお願いします。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計学 正規分布
-
範囲から標準偏差を推定する方法
-
比率の平均値と、平均値の比率...
-
標準偏差バーをグラフに入れた...
-
競馬の人気順と回収率を集計する
-
中学 1年 数学 この資料の平均...
-
偏差値60の人と偏差値50の人が...
-
統計でいう「n」は、何の略な...
-
平均値と中庸値の違い
-
統計学でいうRSD%とは何ですか。
-
標準偏差
-
偏差平方和なぜ2乗
-
偏差値から順位を求めるには
-
(1)で分散を求める時、解答では...
-
Flory分布について詳しく...
-
評価者により採点に差が出るこ...
-
高校偏差値67ってどのくらい字...
-
安全在庫=安全係数×√(リードタ...
-
社会人の偏差値の調べ方
-
標準偏差の比較
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
標準偏差バーをグラフに入れた...
-
比率の平均値と、平均値の比率...
-
統計学 標準偏差 マイナス範...
-
95%信頼区間でσ / √nのσが1.9...
-
統計の問題 信頼区間と信頼係...
-
スケール尺度にてアンケートを...
-
範囲から標準偏差を推定する方法
-
平均72標準偏差が9の試験の時ク...
-
平均値±3σについて
-
3シグマについて教えて
-
確率統計、正規分布?の問題です
-
工程能力指数Cpについて
-
平均値±標準偏差は?
-
母比率の区間推定に必要なサン...
-
許容差
-
工程能力指数と不良率の計算
-
分散分析の平均値と実際の平均...
-
大学数学 行列
-
正規分布によるもの
-
棄却検定できないかけ離れた値...
おすすめ情報
今回の質問の中で特に気になるところは”順序統計”というものです。確率・統計の一般的なテキストには出てきません。ある程度踏み込んだ専門書に唐突に出てくるもののようです。すなわち、基礎的な知識の延長線上にあるものでなく、何を背景にしているのか分からないものとして手法として登場してきます。しかも、極値統計の中心部に居座っているのです。ただ順位が分かるというだけでいきなり確率が与えられてしまうからです。50のデータの第1位は上位2%というのは当たり前ですが、○○分布に従うと1.423%とかいきなり具体的な数値が出てきます。極値なので桁の下位の具体的な値が精度に影響してきます。これが何だろうというのが質問の動機でもあります。