
統計について質問です。詳しくはクラスカル・ウォリス検定の多変量拡張について質問です。
クラスカル・ウォリス検定はノンパラメトリックな3群以上の多標本で中央値の差を検定する方法だと思うのですが、1つの変量でのみ使えることは分かっています。
例えば、学校に3クラスあったとして3クラスごとにそれぞれ30人の体重を計測したとして、3クラス間に有意に差があるかどうかは検定できますよね。
しかし、3クラスそれぞれ30人ごとの身長と体重を計測したとして、3クラス間に有意に差があるかどうかというのは検定できるのでしょうか。つまり、クラスカルウォリス検定を多変量に拡張することは可能でしょうか。
もしそれが可能であれば、その方法についても具体的に教えていただけるとありがたいです。ネットで調べましたが載っていませんでしたので...
統計学について詳しく学んだことがなく、初心者ですが、よろしくお願いします。
No.1ベストアンサー
- 回答日時:
ノンパラメトリック法の基本原理は、Fisherの並べ替え法です。
帰無仮説「どのクラスも同じ母集団からのサンプルだ」を考えます。言い換えれば「クラス分類は無意味。90個のデータを、ランダムに、30個ずつA,B,Cの3つのクラスに分けただけに過ぎない」ってことです。そこで、90個のデータを30個ずつA,B,Cの3つのクラスに分けるあらゆる組み合わせについて、何か適当な統計量(なんでもいいんですが、例えばAクラス,Bクラスそれぞれの平均値の差とか)を計算する。そうして得た統計量の分布の中で、実際のデータにおけるその統計量がどこに来るか。もし極端に端っこに来れば(つまりp値が小さければ)、帰無仮説が棄却でき、つまり「どのクラスも同じ母集団からのサンプルだ、ということはない」と結論が出せる。また、もし帰無仮説が棄却できなければ、帰無仮説はその名の通り、無に帰す。すなわち、「この統計量を調べても、何も言えなかった」ということになる。以上が基本原理です。しかし現実に「あらゆる組み合わせ」を生成しようとすると、余りにも膨大で到底実行不可能である。なので、手計算でなんとかなる程度の計算で済む代替法をいろいろ考えたのがノンパラメトリック法の様々な手法。所詮は代替なので、基本原理に比べれば、性能は劣るし、余計な仮定が必要になったりすることもあるわけです。で、そのような代替手法の一つがご質問の方法です。
でも、今ではコンピュータがあるんから、そんなカビの生えたやり方は必要ない。計算統計学的な手法が使えます。すなわち、30サンプル×3クラス分、90個のデータから、ランダムに30個をAクラス、30個をBクラス、残りをCクラスと分けて統計量を計算する、という処理を100万回ぐらい繰り返して、統計量の分布を作りますと、これは「基本原理の通りに全部の組み合わせで調べた統計量の分布」を良く近似しているんで、p値の良い推定値が直接計算できる。
で、ご質問の場合には、2成分のベクトルから「何か適当な統計量」を(好きなように)こしらえればいいんです。もちろん、それがどんなものなのかによっては帰無仮説が棄却できないかもしれない。(例えば、「Aクラスのサンプル数とBクラスのサンプル数の差」という統計量を計算すると、これは必ず0なので、当然、帰無仮説が棄却されることはない。)その場合は「この統計量を調べても、何も言えなかった」が結論です。けれども、別の「適当な統計量」ならば棄却できるかもしれない。どんな「適当な統計量」であれ、帰無仮説が棄却されれば、つまり「違いがある」と言えるわけです。
ご回答ありがとうございます。ノンパラメトリック法の基本原理が分かりました。多変量については自分で決めた統計量を用いる他なさそうですね。ありがとうございました。
No.2
- 回答日時:
多次元の場合は、各軸の順位値を、マンハッタン距離を使ってスカラー化すれば良いと思います。
それで同順位が出ても、そのまま解析すれば良いと思うのですが、いかがでしょうか。
順位に変換する前の計量値のまま、ユークリッド距離を使ってスカラー化し、その後順位に直すことも考えたのですが、それは身長・体重だから良しとなるけれど、そもそも、この検定を使う目的は、服飾に関する好みの順位や、ホームページの分かりやすさの順位みたいな、そもそも計量化できないケースにおいて、その順位を利用する検定ですからね。
あと、あまりに多次元の場合は、キャンベラ距離の方が良いかもしれません。ただ、計算は面倒です。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
エクセルのグラフから半値幅を...
-
【統計】有意に「高い」?「低...
-
XRDその他のグラフ作成について
-
下の対数表示のグラフから低域...
-
最小二乗法を反比例の式を元に...
-
パイロットサンプルって何ですか?
-
死傷者数と死者数の違いって何...
-
結果をグラフに表す。 のあらわ...
-
グラフの"eye guide"について
-
t検定を繰り返してはいけない理...
-
生存率の比較をしたいのですが。
-
物理学実験のグラフの描き方に...
-
正規分布でないときピアソンの...
-
この問題を教えてください 1000...
-
数3の問題です y=x+cosx 0≦x≦2π...
-
正規分布でない対象にウェルチ...
-
データ点を線で結ぶ場合と結ば...
-
標本が大きくなると帰無仮説は...
-
電子の比電荷
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
エクセルのグラフから半値幅を...
-
検量線の決定係数について
-
下の対数表示のグラフから低域...
-
最小二乗法を反比例の式を元に...
-
線形なグラフとはひとくちに言...
-
死傷者数と死者数の違いって何...
-
ノンパラメトリック検定の多重...
-
【統計】有意に「高い」?「低...
-
統計について
-
パイロットサンプルって何ですか?
-
エクセルの統計でχ二乗検定の結...
-
検定公差を教えてください!
-
検定統計量の値がマイナス
-
データ点を線で結ぶ場合と結ば...
-
アンケートの集計分析の基礎(...
-
曲面z=log(x^2+y^2)のグラフの...
-
心理機能診断をしたのですが、...
-
理科のグラフで、直線と曲線の...
おすすめ情報