プロが教える店舗&オフィスのセキュリティ対策術

あるデータをプロットしたところ、綺麗な曲線ではなく、ある箇所が台形みたいに出っ張り、歪んだ曲線になりました。

この歪みが、偶然ではなく、データの持つある傾向によって生じたことを証明したいです。

どうすればよいでしょうか?(調べると、χ二乗検定を使う?っぽいですが、よくわかりません)

簡単な手順や概要を教えていただけると幸いです。
抽象的な質問で申し訳ありません。よろしくお願い致します。

A 回答 (2件)

単純には、データ群から「最もありそうな曲線」(直線とか、二次曲線とか、対数曲線とか)が引けたら、その曲線からの各データの「偏差」を計算し、そのデータ群の「標準偏差」を求めて、「ひずんだ箇所」がその「標準偏差」とどのような関係かを調べればよいと思います。

(標準偏差を計算するときに、その「ゆがんだデータ」も含めるか、除外するかなどは、慎重に考える必要がありそうですが)
 つまり、「最もありそうな曲線」f(x) に対して、標準偏差をσとして
   f(x) ± σ とか f(x) ± 2σ  f(x) ± 3σ 
という「判定基準」を作り、「ひずんだ箇所」がこの範囲内に入るかどうかを見るということです。

 このとき、「偏差」を、単純な「最もありそうな曲線」との差(絶対値)とするのか、変数に依存した「重み」を付けるか(たとえば、そのときの変数の値で割って「%偏差」にするとか)といった、パラメータの特性を考慮した「工夫」も必要でしょう。
 いずれにせよ、その変数値をとる度数は、「最もありそうな曲線」を中心として正規分布する、という仮定での評価です。

 通常、「検定」では、分布曲線の両端の5%(一番上から2.5%、一番下から2.5%)の範囲に入ったら「明らかに異常」(統計的にそんな値は極めてまれである、有意な相違理由がある)とみなし、これはほぼ「標準偏差の2倍以上離れている」ということに相当します(検定で「有意水準95%」とすると1.96倍。「有意水準」が上の「明らかに異常」を何%にするかに相当)。
 これは「正規分布」の「平均値」と「標準偏差」の関係を用いて判断するということで、「検定」というのもこれと同じようなことしています。
 ↓正規分布
http://www.stat.go.jp/koukou/howto/process/p4_3_ …

 簡単には上のような判断ができますが、きちんとやるとすれば、データ群から「最もありそうな曲線」を求める「相関分析」と、その中での「外れ値」の検討をすることになるのだと思います。
 「エクセル」を使っても、いろいろなことができます。
http://www.ipc.shimane-u.ac.jp/food/kobayasi/bio …
http://software.ssri.co.jp/statweb2/column/colum …
    • good
    • 0

分散分析が定番です。


分散分析は本があります。
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!