プロが教えるわが家の防犯対策術!

ある実験データがあり、正規分布に近い形をしています。しかし近いとはいえ、少々ズレているため分散と平均値を求め正規分布の曲線を実験データに重ねて描くと、、、なぜか大幅にずれてます。原因は、平均から大きく離れたところにデータが少ないとはいえポツポツとあり、分散が大きくなるからです(平均値はほぼ正しい値と思われます)。

分散を求める際に正規分布おかまいなく求めるため過大になるのかと思い、正規分布にfittingしようと考えました。つまり最小二乗法により実験データに近い正規分布を求め、分散を求めるのです。

この方法は意味ありますか?おそらく太古の昔から用いられてるような誰でも思い付く方法と思いますが。。。また、実際に計算する場合、エクセル等で関数は用意されてますか?それともlogを取り2次関数に展開しfittingする必要がありますか?

A 回答 (6件)

> 正規分布にフィッティング


 
 「(データを)正規分布にフィッティングする」という表現は意味をなしていません。強いて解釈するなら「正規分布に従うようなウソのデータを作為的にでっち上げる」というほどの意味になるでしょうか。

 さて、ご質問が、「データの散布図に正規分布をフィッティングする」という話なのだとすると、その操作は統計学的・確率論的に解釈しようがなく、まるでナンセンスです。

 しかし「データの分布に正規分布をフィッティングする」ということ、あるいは、「データの散布図にガウス曲線をフィッティングする」ということなら意味があります。両者は全く別の話であって、前者は、データの(散布図ではなく)度数分布図を描いておいて、これにガウス曲線をフィッティングすることによって、データの分布を正規分布で近似する、という意味です。また、後者は確率分布とは何の関係もなくて、単に散布図をある曲線で近似する。その曲線がたまたまガウス曲線である、ということです。

 なので、ご質問はおそらくこのどちらかではないかと思います。

●前者の場合、具体的にやることはただデータの平均と分散を計算するだけ。結果として得られた正規分布が度数分布図の形とまるで似ていないのなら、そのフィッティングは無理である。つまり、「データは正規分布とは異なる分布に従っている」ということを意味しています。

●また、後者、すなわち、ある実験データ(x[i], y[i]) (i=1,2,...., N)があり、その散布図が正規分布の曲線(ガウス曲線)近い形をしている。そこで、データにガウス曲線
f(x, a, b, c, d) = a exp(-((x-b)/c)^2)
をフィッティングしたい、すなわち、fの定数a, b, cを適当に調節して、
  f(x[i], a, b, c,) ≒ y[i]
となるようにしたい、というお尋ねであるなら、たとえば「非線形最小二乗法」というやりかたで数値計算を行えば「ある意味で最適な」a, b, cを算出することができます。この場合、曲線fが散布図上の点(x[i],[y[i])の近くを通るようにするのであって、曲線fは確率とは関係ないのだから、当然、分散だの平均だのも全く関係ありません。
    • good
    • 1
この回答へのお礼

ありがとうございます。
前者の方法でうまくいきませんでした。
前者の目的で後者の操作をしても無意味なのは何故なのでしょうか?

お礼日時:2012/02/16 08:02

fitting(適合)の可否は、常に常識的なものです。

あるパラメータが幾つ以上であれば「可」という指標は一般的には存在しません。
    • good
    • 0
この回答へのお礼

ありがとうございます。
それはそうです。ただ、自分の仕事分野において常識的な範囲というのは存在します。

お礼日時:2012/02/09 06:33

なんか、やたら標準化すればいいような話なってますが、違うと思います。



問題は何をしらべたいか? 

そのために、どういう仮定を置くかということで、正規分布なんて、理想的なものに、世の中がそうなってるわけがない。

大事なのは、何をいいたいか? どういう主張をするかです。それによっては、正規性を必要としない議論もあるわけです。

逆になんでも標準化は感心しません。これはデータ自身の情報を損ねます。

まず、なにを言いたいのか? なにを法則として主張するのか? それが大事です。
    • good
    • 0
この回答へのお礼

ありがとうございます。
使用者の意志が大きく介在するのですね。

お礼日時:2012/02/09 06:32

実験データを標準化し、それが標準正規分布に従っているか、どうかを見た方がいいんじゃないでしょうか?


「分散が大きくなるからです」とおっしゃっているということは標準化されていませんよね?
標準化するとは、実験データを平均μ=ゼロ、標準偏差σ=1の枠にあてはめることです。
それには各実験データを、(実験データ -μ)÷σという式に入れます。
これはExcelならSTANDARDIZE関数で計算できます。
それによって得られる値の分布が、標準正規分布(μ=ゼロ,σ=1)にどれくらい似ているか検証すればいいのだと思います。
    • good
    • 0
この回答へのお礼

ありがとうございます。
標準化してません。そのまま比較するのと比べて何か違いがあるのでしょうか?

お礼日時:2012/02/07 22:39

外れ値が存在することによりうまく推定できないのであれば、ロバスト(頑健)な方法、例えば、平均値と分散ではなく中央値と四分位範囲/

1.34898を使ってみては如何でしょうか?
    • good
    • 0
この回答へのお礼

ありがとうございます。
自分の中で使うならいいのですが、結果は他人に見せるので違う方法はあまり使いにくいです。

お礼日時:2012/02/09 06:35

論理的にある正規分布になるべきだとされているものを証明するための実験であれば、あまり意味は見出せないね。

 逆に、偏差が小さくなる正規分布にfitする論理的理由を見つけ出すために行うのであれば、行っても良いのかもしれないね。 除外してしまいたいデータがあるんだろうけど、除外する正当な理由を見つけ出すことができないってことだとすると、無理にfitする必要はないかもしれないね。

何のための実験で、どのような結論を期待しているかによるということだね。
    • good
    • 0
この回答へのお礼

ありがとうございます。
正規分布の証明ではなく、正規分布であることが前提です。しかし描かせるとズレが大きい、分散が誤ってるのではないか?分散が大きい理由が、分散の計算方法が正規分布を前提にしてないためではないか?と思ったのです。

無理にfitする必要がないのはどうしてでしょうか。

お礼日時:2012/02/07 20:42

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!