「これはヤバかったな」という遅刻エピソード

毎年の最高気温のデータが50年ぐらいあるとします(単に50個のデータ)。これを使って100年に1度の年最高気温の推定値を考えるときに確率・統計の手法ではどうなるでしょうか。
 通常の確率・統計のテキストでは分布型は決まっている(二項分布などは有無を言わさず理論的に決まるわけです)けれどもパラメータ(母数?)が不明であり、それを推定していくという考え方はあると思います。しかし、分布型のタイプが未定(気象現象のように決定論的にものを言うことができない場合)という場合、どこから手を付けていいか分かりません。

専門書を見ると以下のようなことが書いてあります。

1.50年のデータを大きい順に並べる。
2.ある確率分布に従うと仮定し、それに応じて50データのうちの第1位に対応した超過確率を求める(順序統計?)。
3.第2位から50位まで同様の計算をし、グラフ(y=気温,x=超過確率)にして回帰計算等を行い、関数形を決める。
4.関数に100年のうちの1位に対応した超過確率(1%)に対する気温を読み取る。これが100年のうちの最高気温の推定値である。
5.あまりうまくいかない場合、2で仮定した確率分布を変更する。

という手順になるようです。年最大降水量などもこのように決めるのではないでしょうか。

このような説明は作業手順としてはわかりやすいですが、なるほどこれでいい、と納得しにくいと思います。特に確率分布を仮定したことによって計算できる順位(第1位~50位)に応じた超過確率の計算方法の根拠はどのようなものなのでしょうか。
5.あまりうまくいかないとはどのように判断するのでしょうか。

専門的で込み入っておりますが、よろしくお願いします。

質問者からの補足コメント

  • 今回の質問の中で特に気になるところは”順序統計”というものです。確率・統計の一般的なテキストには出てきません。ある程度踏み込んだ専門書に唐突に出てくるもののようです。すなわち、基礎的な知識の延長線上にあるものでなく、何を背景にしているのか分からないものとして手法として登場してきます。しかも、極値統計の中心部に居座っているのです。ただ順位が分かるというだけでいきなり確率が与えられてしまうからです。50のデータの第1位は上位2%というのは当たり前ですが、○○分布に従うと1.423%とかいきなり具体的な数値が出てきます。極値なので桁の下位の具体的な値が精度に影響してきます。これが何だろうというのが質問の動機でもあります。

      補足日時:2015/05/01 06:23

A 回答 (3件)

ANo.2へのコメントについてです。



> カタストロフィックな現象がないと仮定した場合、すなわち定常的な確率過程であると考えた場合、その範囲内で100年に一度の最大高温を知るという場合

 現象の変動を説明するモデル(理論)が在るとき、そこから観測値(がこうなるはずという)分布を演繹するのが確率論という数学です。もちろん、モデルが現実と合致しているかどうかは、数学の側では一切面倒見てくれません。
 で、その想定した「確率過程」が一体どういうメカニズムで生じるのかが説明できていないうちは、それはまともなモデルになってない。気温に関して言うなら、熱の収支だけを考慮したごく簡単な気象モデルでもカオスや熱暴走が発生するので、「定常的な確率過程」と考えるのはかなり無理でありましょう。

> 読み落としの責任の追及

 「人知の及ぶところではなく、予言なんかできません」と逃げるのが一番正直だと思います。敢えてチャレンジするなら「悲観的な結論が出る確率分布」に基づいて予測することになりますが、「観測と矛盾しない分布」というだけでは充分に限定できない。気温の数値情報だけじゃ足りない訳ですから、古文書でも伝説でも神話でも遺跡の炭素同位体比でも、傍証になりそうなものを出来る限り集めた上でベイズ推定をやる、という手かな。
    • good
    • 0

> 根拠はどのようなものなのでしょうか。



 根拠がないんです。統計ってのは要するに、過去の経験にだけ基づいて「今後も同じようにものごとが生じるだろう」という期待を数値的に扱っているに過ぎません。すなわち、せいぜい「未経験の値だけど、経験したものとさして違わない程度の範囲ではある」というものについてなら、ま、何も予測ができないよりは良いよね、ということなんです。
 たとえば、極端な気温が、普段は生じないような特殊な原因、たとえば小惑星の落下とか、巨大火山の大噴火とか、そういう原因で生じる場合を考えれば、「普段の気温のデータが正規分布になっているかどうか」を検討したところで予測の役に立たないのは明らかでしょう。
 同様に、経済学の株価の変動も、普段は正規分布っぽく変動していますが、大暴騰・大暴落は正規分布から予想されるよりも遥かに大きな頻度で発生することが、データから知られています。(正規分布だと仮定して組み立てた理論(ブラック・ショールズの理論)を信頼していたところ、大破綻しちゃってまあ大変、ってのがリーマンショックだとも言えます。)

> あまりうまくいかないとはどのように判断するのでしょうか。

 手持ちの50例のうちの極端なものの発生頻度が、そのモデルでうまく予想できているかどうか、という自己整合性(consistency)のチェックをするしかないですね。それだけしかデータがないのだから。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。ご指摘のように確率・統計は経験の学問であり、演繹(根拠の明示)できるものではなく、データから帰納的にアプローチしていくものですね(ただ、道具として使う数学は演繹的なもので例えば2項分布は演繹的だと思いますが)。 もし、カタストロフィックな現象がないと仮定した場合、すなわち定常的な確率過程であると考えた場合、その範囲内で100年に一度の最大高温を知るという場合にはどうなるでしょうか。これは過去50年のデータには気温上昇のトレンドは含まれており、それが抽出できるか、あるいは確率分布のタイプは変化しないけれども母数(平均・分散などのパラメータ)はジワリジワリと変わっているかどうかを判断するというような立場です。カタストロフィだともう責任の追及もないと思いますが、確率過程の変化の中にそのシグナルが含まれていたら読み落としの責任の追及はありうるかなと思うのですが。

お礼日時:2015/05/01 06:09

毎年の最高気温は、「地球温暖化」などの共通事象がないと仮定すれば独立事象と考えられますので(その年の最高気温は、前の年など他の年の最高気温には影響されない)、ある「平均値」の周りにランダムな誤差でばらついている、と考えればよいのではないかと思います。



 そういったランダム事象は「正規分布」に従います。
 従って、まず統計データから「平均値」を求め、各データの平均値からのばらつきを表わす「標準偏差:σ」を求めれば、おおむねのデータの予測ができます。
http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F% …
http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96% …

 つまり、正規分布では、±1σの範囲内に68.27%、±2σの範囲内に95.45%、±3σの範囲内に99.73%が入りますから、「100年に1度(発生率1%)」だと、2σと3σの間という推定ができます。(正確には2.58σであることが「標準正規分布表」から簡単に読み取れます)
http://www.stat.go.jp/koukou/howto/process/p4_3_ …
http://www.geisya.or.jp/~mwm48961/statistics/std …

 これを使えば、100年に一度の最高気温だけでなく、100年に一度の冷夏、大雨、干ばつなどの程度も予測できます。さらに、逆の読み方をすれば、ある最高気温の出現率は何年に一度か、ある年間降雨量を超える/下回る異常気象の発生確率がどの程度かも求まります。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。正規分布の他にワイブル分布、レイリー分布、ポアソン分布など様々な分布が提案されているようです。現象のタイプから演繹的に選んだりすることができるようなのです。例えば海岸の高波について年最大の波の高さの分布などです。
 最高気温のばらつきを正規分布と考えた場合、手持ちデータから正規分布のパラメータを推定し、1%に対応した気温を読むという方法はあるかなと思います。度数分布から確率密度関数を求めてカーブフィッティングで正規分布のパラメータを決めるというプロセスなのでしょうか。一方で程度の激しい現象に対する統計を極値統計解析ということで何やら特別な方法を使って処理するらしいのですが。その中に順序統計という話が出てきてますます理解が難しくなるのですが。
よろしくお願いします。

お礼日時:2015/05/01 05:41

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!