人に聞けない痔の悩み、これでスッキリ >>

統計手法に関する質問です。
シャピローウィルク検定を扱う場合、サンプルサイズの上限は50ということですが、
下限はありますか?あるとすれば、いくつですか?

A 回答 (1件)

>サンプルサイズの上限は50ということですが、



正規性の検定なので、上限はないでしょう?
逆に、あまりに少ないと正規性もへったくれもないので、下限はあると思います。
手法として使えない、ということではなく、「正しい判定ができない」ということかと思います。
    • good
    • 1
この回答へのお礼

ご回答いただいてもう一度調べたところ、参考になる文献が見つかりました。
上限が50ということに関して、シャピロ-ウィルク検定が紹介されたShapiro & Wilkの1965年の論文で「サンプルサイズが50より少ない場合」という制限があったようで、今は別な見解も多数あるようですね。
ご回答くださり、ありがとうございました。

お礼日時:2017/10/31 11:05

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aと関連する良く見られている質問

Qサンプル数の異なる2群間におけるT検定について

サンプル数の異なる(50,15)2群間の身長の比較を行うのに、T検定をするよう指示を受けました。これは、長男と次男での出産時の身長に差があるかを調べるためですが、長男50人分と次男15人分(母親は異なる)のデータのため、サンプル数が違います。またT検定は私の理解では平均の比較(2群の場合)を行うものであるため、平均ではないこれらにどうしてT検定が良いのか、また統計ソフト(STATISTICAかエクセル)を使う場合にどのようにデータを入力すれば良いのかわかりません。
どなたかご存知の方がいらっしゃればアドバイスをいただけたらうれしいです。
よろしくお願いします。

Aベストアンサー

>平均ではないこれらにどうしてT検定が良いのか
 t検定は、2つの集団の平均値の差について検定する、すなわち、有意差があるかどうかを判定します。平均ではないように見えても、検定の計算式の中に、2群の平均値を用いています。
 ただ、前提時要件があって、2群が正規分布していることが必要です。サンプルを選んだときに、無作為抽出していたり、サンプル数が1000ほどあれば、正規分布を想定できます。

 検定法は、どの方法を選ぶかは、研究者の自由です。わたしがt検定を多用するのは、正規分布を想定でき、計算式が分かりやすく、サンプル数が2群で異なっても良い、その数も少なくて良い(大差があるので、1群3例でも有意差をだしています)、そして有意差が出やすいからです。

 この場合は、正規分布しているという条件を満たしているとはいえないだろうと判断します。その場合は、F検定をしてください。これは、2群の平均値ではなく、バラツキによって検定する方法です。正規分布している必要は無いとされています。
 F検定で有意差があれば、問題ありません。t検定では有、F検定ではなし、になると方針が定まりませんが(現在このデータで悩んでいます)。

>どのようにデータを入力すれば良いのか
 t検定を指示した人は、身近にいないのでしょうか。その人に訊くのが一番です。身近にいないのなら、いないと返答があれば、書き込みますが。 というのも、大学などの研究テーマだと、指導教員をさしおいて、はマズイノデ。もしも、このテーマに興味を持てば、私が実施して先に発表します。こんな研究内容がハッキリ分かる書き込みを4年生がやったら、研究室は追放ですね。
 長男、次男だけではなく、三男、四男となると多重比較という方法になります。この場合、H検定(エクセルだけでは無理でしょう)を使います。

>平均ではないこれらにどうしてT検定が良いのか
 t検定は、2つの集団の平均値の差について検定する、すなわち、有意差があるかどうかを判定します。平均ではないように見えても、検定の計算式の中に、2群の平均値を用いています。
 ただ、前提時要件があって、2群が正規分布していることが必要です。サンプルを選んだときに、無作為抽出していたり、サンプル数が1000ほどあれば、正規分布を想定できます。

 検定法は、どの方法を選ぶかは、研究者の自由です。わたしがt検定を多用するのは、正規分布を想...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む


人気Q&Aランキング