アプリ版:「スタンプのみでお礼する」機能のリリースについて

サンプルサイズが異なる場合、クラスカルウォリス検定(Kruskal-Wallis test)を利用することはできませんか?

もしサンプルサイズが異なっていても利用できる場合、どのように調整すれば利用できるでしょうか?

順位を利用した統計手法であるため、サンプルサイズが異なる場合の対処法が思い浮かばないので、教えてくださると助かります。

A 回答 (1件)

対処法なんていらない。

ふつーにやるだけ。

Kruscal-Wallis検定ってのは

群G[1],G[2],...,G[M]を全部を合わせたものを
  G=G[1]∪G[2]∪...∪G[M]
とし、Gの中央値をC、G[i]群のサンプル数を|G[i]|、Gのサンプル数を|G|、サンプルxのG中での順位をO(x)とするとき、
  K = (12/(|G|(|G|+1))) (
     Σ{i=1〜M} (Σ{x∈G[i]}O(x)) - (C^2)|G[i]|)
    )
を計算する。で、帰無仮説
H: 「どの群も同じ母集団からランダムに選ばれたものである。(だから群の区別には全く意味がない)」
が成り立つとき、Kは自由度(M-1)のχ²分布に従う、という話ですから、サンプル数|G[i]|がそれぞれ違うということも織り込み済みです。

==================

 それはさておき、しかしstomachmanはそんなもん使わないでp値を計算しています。というのは:

ノンパラメトリック検定の基本原理はFisherの並べ替え法(Fisherの正確確率検定法)。すなわち:

Gをランダムに|G[i]|(i=1〜M)個ずつに分けるあらゆる組み合わせについて、何らかの統計量(どんなのでも良い)の分布Φを作る。実際のデータで計算した統計量s0がこの分布Φのどこに来るか。うんと端っこなら、Hは棄却できる。

という考え方です。(統計量sとしては、群の違いがはっきり反映されそうな指標を選ぶと良い。例えば「各群ごとの平均値のうち、最大のものと最小のものの差」なんてのでもOKです。)
 でも一つ欠点がある。それは「あらゆる組み合わせ」なんて到底やってらんない、ってことです。(例えば2群で全サンプル数が100個、A群が30個、という条件でも、組み合わせは100C30 ≒ 3×10^25 通りもありますから。)

 そこで計算統計学の手法でこれを近似する。すなわち、「あらゆる組み合わせ」をやる代わりに、「あらゆる組み合わせの中からランダムに選んだ10万(ないし1000万)通り」でΦを作るんです。わざわざΦのグラフを描かなくたって
  1. 実際の群分けされたデータでs0を計算する。
  2. 全てのデータを一緒くたにする。
  3. 以下J回繰り返す:
    3.1ランダムな群わけをやって、統計量sを計算する。
    3.2. s>s0となった回数mを数える。
とやれば、(Jが10万とかなら)端っこに来たかどうかがわかります。m/Jとか(J-m)/Jがp値ですね。このp値の誤差の分散はp(1-p)/J です。だから、p≒1%ぐらいを考えているなら、J〜10万で十分です。

 Kruscal-Wallis検定ってのは、コンピュータがなくてこういう計算が不可能だった時代にひねり出された工夫にすぎません。データの順位以外の情報を捨ててしまうんで、感度が下がります。だから今更使わない。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!