アプリ版:「スタンプのみでお礼する」機能のリリースについて

基本的に統計は差があることを調べるためのものが多いと思いますが,一貫性がある,同じであることを証明したい場合は,どうされていますか?
具体的には,ある現象のトリガーが何であるかをいくつかの候補の中から見つけたい場合(検証実験が行えない場合),たとえばトリガーからその現象までの時間や日数を複数個体で比較して,一貫性があるものかどうかを調べる,といった場合です.
以下のトピックに書かれているような,2標本コルモゴロフ=スミルノフ検定が良いでしょうか.
http://www.kenkyuu2.net/cgi-biotech2012/biotechf …
他にも同様のことを議論できる可能性がある統計手法があれば,教えていただきたいです.

A 回答 (4件)

No.3です。

「お礼」に書かれたことについて。

>たとえば標準偏差や変動係数が事象Aで7,事象Bで8,という値になったとき,Aのほうが小さいですが事象Aがトリガーだと推定するには弱いと思いまして.

はい。統計でできるのはそこまでですので。その「大きい」「小さい」が何を意味しているかを考え、どう判断するのかは人間ですから。
    • good
    • 0

No.1 です。

「お礼」に書かれたことについて。

>事象Aからの日数が個体1では○にち,個体2では▽日,事象Bからの日数が個体1では■にち,個体2では▲日,→「事象Aでは○▽の日数が同等,Bでは■▲の日数が全然ばらばら」,→事象Aがトリガーになり得るのではないか,という推定です.
>この,「」の部分で何らかの検定ができればと思っています.

 No.1にも書きましたが、「推定」と「検定」は違います。
 「」の部分であれば、「検定」などではなく、単に「平均値」や「分散」を求めたり、トリガーと事象との「相関」を求めることで目的を達成できると思います。

「一貫性がある」「日数が同等」→平均値近くに集中して分布している=分散・標準偏差が小さい。
「日数が全然ばらばら」→広く、まとまりなく分布している=分散・標準偏差が大きい。

 目的とする現象を基準に、事象A、事象Bの発生日からの日数のデータをできるだけ多く集め、「平均値」と「標準偏差」を計算してみればよいのです。「統計」の「入り口」で行う作業です。
https://blog.apar.jp/data-analysis/3390/
http://homepage1.nifty.com/QCC/sqc2/sqc-2.html

 変数が「日数」だけなら簡単なのですが、「日数」以外にも要因らしきものがあるのであれば、「日数」とその「他の要因」のデータを集め、二次元グラフ上に「プロット」(点として表示)してみる方法があります。「相関図」というものです。こういったものを使って、「何がトリガーか?」「それ以外に関係しているものはないか?」などが調べられます。
 おそらく「分析手法」というよりも、「データの集め方」が大きく影響します。(「日数」データしか集めていないなら、その他の要因や複合要因を調べようがない)

↓ 相関分析、相関図
http://www.geisya.or.jp/~mwm48961/statistics/cor …
http://mcn-www.jwu.ac.jp/~kuto/kogo_lab/psi-home …
    • good
    • 0
この回答へのお礼

再度のお返事をありがとうございます.
平均と標準偏差を計算する,ということで理解できるのですが,たとえば標準偏差や変動係数が事象Aで7,事象Bで8,という値になったとき,Aのほうが小さいですが事象Aがトリガーだと推定するには弱いと思いまして.
そもそも「推定」なのでSDの大小だけで仕方ないのかもしれませんが...

お礼日時:2016/07/01 11:49

No.1です。

リンク先が上手くつながらないようなので、再掲します。
最初の「正規分布」の特性に関するリンク先です。

http://www.stat.go.jp/koukou/howto/process/p4_3_ …
    • good
    • 0

リンク先も見ましたが、統計や検定をあまり知らない人が議論しているような・・・。



 検定とは、せんじ詰めれば「正規分布の平均値と標準偏差を利用して、統計的に起こりやすいか、起こりにくいかを調べる」ということです。
 ご承知は思いますが、「正規分布」とは、平均値をピークに、左右にダラ下がりの分布です。標準偏差を「σ」として、
  平均値± σ の範囲に、全体のデータの 68.3% が入る
  平均値±2σ の範囲に、全体のデータの 95.4% が入る
  平均値±3σ の範囲に、全体のデータの 99.7% が入る
という特性があります。
http://www.stat.go.jp/koukou/howto/process/p4_3_
 
 これを利用して、得られたサンプルデータが、全体のデータや母集団のデータに対して、どれだけ平均値から外れているかによって、「違いがある」と言えるかを調べるのが「検定」です。全体のデータや母集団の「統計的特性」が仮定できていて、初めて「検定」ができます。
 質問者さんの「トリガーからその現象までの時間や日数を複数個体で比較して,一貫性があるものかどうかを調べる」ということに関しては、そのデータに共通する何らかの「統計的特性」(仮説)を仮定するのが先決でしょう。
 単純な「トリガーからの日数はランダムである」というのも一つの仮説。そうすれば「正規分布する」と堂々と言えます。それ以外に、「個体の大きさ(直径、辺の長さなど)とトリガーからの日数に相関関係がある」とか、「個体の大きさの3乗(つまり体積なり重量)とトリガーからの日数に相関関係がある」とか、事象のメカニズムから推定できる「法則性」があれば、それで仮説が作れるはずです。
 そういった「統計的特性」を何か仮定しないと「検定」はできません。

 質問文にある「コルモゴロフ–スミルノフ検定」なども、そういった検定の一手法で(私は使ったことがありませんが)、「2つの母集団が、同じ確率分布を持つかどうかの検定」のようですから、やはり「どういった確率分布なのか(これも一つの統計的特性)」を仮定しないと使えません。(このような「正規分布を仮定できない場合の特殊な手法」はいろいろと提案されているようです)
https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%AB …

 ご質問から類推する限り、やりたいのは「検定」ではなく、むしろ得られているサンプルデータからそのデータ群(あるいはまだ起こっていない無数の未来の現象=母集団)に内在する統計的特性(法則)を「推定する」ということではありませんか?
 統計とはそれほど万能ではないので、「法則」そのものは導き出せません。「法則」は人間の力で作り出す必要があります。「仮説」を立てて、実在するデータで「検証する」ことで。その際に、ツールとして「統計」が使えます。(あくまで「ツール」であって、魔法の杖ではありません。無から有は生じません)

 母集団が単純に正規分布すると仮定できれば、母集団の「平均値」や「バラツキ(分散、標準偏差)」を推定する手法はいろいろあります。
 たとえば、「母集団の平均値の推定」などの考え方は、下記サイトなどを見てください。
https://blog.apar.jp/data-analysis/4632/
http://www.tamagaki.com/math/Statistics502.html

 なお、検定の考え方については、最近こんな質問に回答しましたので、ちょっと参考にしてください。
https://oshiete.goo.ne.jp/qa/9325958.html
    • good
    • 0
この回答へのお礼

お返事を,ありがとうございました.
トリガーからの日数はランダム,と仮説を立てることはできると思います.
でもやりたいのは,サンプルデータに内在する統計的特性を推定する,ということではなく,事象Aからの日数が個体1では○にち,個体2では▽日,事象Bからの日数が個体1では■にち,個体2では▲日,→「事象Aでは○▽の日数が同等,Bでは■▲の日数が全然ばらばら」,→事象Aがトリガーになり得るのではないか,という推定です.
この,「」の部分で何らかの検定ができればと思っています.
説明不足ですみません.再度アドバイスいただければと思います.

お礼日時:2016/07/01 08:30

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!