新規無料会員登録で1000名様に電子コミック1000円分が当たる!!

身長は正規分布に近いですが
体重は重いほうに裾野が広がっています
体重は何分布なんでしょう?
数学的に何か合う様なものはあるのでしょうか?

このQ&Aに関連する最新のQ&A

A 回答 (2件)

多くの論文では層化した上で体重に対数正規分布をあてはめています。

たとえば
http://www.epa.gov/ncea/efh/pdfs/efh-chapter08.pdf

身長も負の値を取らないし、対数正規より正規の方が当てはまりが良いと考える先験的な理由はありません。実際、
http://stat.ethz.ch/~stahel/lognormal/bioscience …
にはどっちも同じくらいよくあてはまる、という話が載ってます。

非負の値をとり右裾の長い連続分布を標本にあてはめるとき、まっさきに試してみるのは対数正規です。その理由はたくさんあり、たとえば
http://www.petervijn.org/2013/04/the-victory-of- …
にまとめられています。

そのとき重要なのは、層化
http://ja.wikipedia.org/wiki/層化抽出法
をきっちりやることです。

生命維持にとって重要な化学物質の血中濃度のようなものは、大概、これでうまく行きます。その分布から大きく外れると死んでしまうから。生命維持に重要でない物質だと、いわばどうでも良いものなので、多峰性とか、変な分布になったりします。

対数正規は平均と標準偏差しか母数がないので、ちゃんと層化すれば個人差は標準偏差だけで表わされます。このことは増山元三郎先生
http://ja.wikipedia.org/wiki/増山元三郎
が提唱した almost-one parameter hypothesis (ほぼ単一母数仮説)の重要な部分です。
    • good
    • 0
この回答へのお礼

英語は大変でした
アメリカの体重分布は参考になりました

お礼日時:2013/12/05 14:22

 取り扱う標本によるのではないでしょうか。

下記の総務省統計局の「なるほど統計学園高等部 正規分布」を参照してください。
http://www.stat.go.jp/koukou/howto/process/p4_3_ …
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

Q統計で、有意水準を、0.01あるいは、0.05に決める意味は?

統計で、有意水準を、0.01あるいは、0.05に決める意味が
わかりません。分析する人によって決められると思うのですが、何を基準に
きめればよいのでしょうか?

あと、t検定とは、どんな検定の仕方なのでしょうか?よろしくお願いします。

Aベストアンサー

◇0.05と0.01の使い分けについて

 一般的には 0.05 (危険率5%)を使います。

 理由は、工業製品の場合、多数の集合体から少数をサンプリングして
 カタマリが合格するか?または違いがあるか短時間に判断を
 下す(スクリーニングする)ことが要求されます。 
  また、正確な結果を求めるには、それ相応のデータ数を採る必要
 ありますが、それには時間と労力が掛かります。
 従いまして、費用対効果を念頭におき、危険率を決めます。
 
 大抵の場合、危険率5%の有意差検定にて済みます。
 但し、要求が厳しい場合とか、測定結果の差が大きい場合には
 1%でも検定して結果を記載します。

◇t分布表にて判断する適用範囲;下記条件の場合 t分布を使います。

<< 適用条件 >>
 ロットが異なる2つのサンプル群の標準偏差が未知な場合。
<< 適用範囲 >> 
 1.サンプリングして得られた平均値の差に違いがあるか?判断する場合。
 2.平均値の範囲を推定する(区間推定)場合。

例)ある製品を条件を変えて製造した場合、2つの集合体(カタマリ)
   ができる。そこから各30ケづつサンプリングして平均値を求める。
   この平均値に違いがあるか判断する場合に t分布を使います。

 一般的な工業製品は、全数検査しないうえ、これから作るモノの品質を
 予測しながら保証しければなりません。この場合にはt分布を使うわけです。
 
 一方、サンプル全数を測定して標準偏差が分かっている場合は、
 正規分布表にて有意差検定します。
 つまり、母集団の標準偏差が既知(キチ)の場合、正規分布表を使います。

◇その他
 ご参考まで、既にご存知であろうと思いますが・・・
・0.05 とは危険率 5%という意味で, 確率 5%の割合で間違った
 判断を下す事があるという事です。 
・検定結”判果にて ”有意差が無い”ということは ”同じである"という事
 ではありません。 このデータだけからでは断が下せない”と
 いうだけです。
                       以 上
                  

◇0.05と0.01の使い分けについて

 一般的には 0.05 (危険率5%)を使います。

 理由は、工業製品の場合、多数の集合体から少数をサンプリングして
 カタマリが合格するか?または違いがあるか短時間に判断を
 下す(スクリーニングする)ことが要求されます。 
  また、正確な結果を求めるには、それ相応のデータ数を採る必要
 ありますが、それには時間と労力が掛かります。
 従いまして、費用対効果を念頭におき、危険率を決めます。
 
 大抵の場合、危険率5%の有意差検定にて済みま...続きを読む

Q対数変換する意味?

私は数学が苦手な文系大学生です。最近「地域分析」という本を読んでいるのですが、たびたび数式を「対数変換すると・・・」と言う風に話が進みます。対数変換をすることの意味がわからないので内容が理解できません。

まず、対数変換とは何なのか?対数変換を行なうと何がどのように変わるのでしょうか?
また、一般的に対数変換とはどのような目的で行なわれるのでしょうか?

ということを文系の学生にわかりやすく教えていただけないでしょうか。
対数変換の内容を理解していないため、質問が的を得ていないかもしれませんが、よろしくお願いします。(また、ここで説明できるような内容でなければ、その旨をお伝えください。)

Aベストアンサー

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

このように表現すると、正の数値で1以下の小数から
万や億などの非常に大きい値に散らばる数値サンプルを
整理したり表現するのに非常に便利です。

また、対数にしてグラフを作ると、上記のように非常に
大きな数(または0.00000・・・・のように非常に小さい数)
を限られた紙面上でプロットする事ができます。
もしそのプロットした結果が直線になった場合、
その直線の傾きでサンプルの近似式を導き出すこともできます。

具体的例を挙げると、身近なものではpH値。
これはある液体の単位量あたりどのくらい水素イオンが
含まれるかを対数表現したものです。
(厳密には、モル濃度で表した水素イオン濃度の逆数の常用対数)

まとめると、対数は小数から数万・億などの広範囲に散らばる
数値を整理するために使われる道具とお考えになられたら
良いと思います。

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

この...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qサンプル数の異なる2群間におけるT検定について

サンプル数の異なる(50,15)2群間の身長の比較を行うのに、T検定をするよう指示を受けました。これは、長男と次男での出産時の身長に差があるかを調べるためですが、長男50人分と次男15人分(母親は異なる)のデータのため、サンプル数が違います。またT検定は私の理解では平均の比較(2群の場合)を行うものであるため、平均ではないこれらにどうしてT検定が良いのか、また統計ソフト(STATISTICAかエクセル)を使う場合にどのようにデータを入力すれば良いのかわかりません。
どなたかご存知の方がいらっしゃればアドバイスをいただけたらうれしいです。
よろしくお願いします。

Aベストアンサー

>平均ではないこれらにどうしてT検定が良いのか
 t検定は、2つの集団の平均値の差について検定する、すなわち、有意差があるかどうかを判定します。平均ではないように見えても、検定の計算式の中に、2群の平均値を用いています。
 ただ、前提時要件があって、2群が正規分布していることが必要です。サンプルを選んだときに、無作為抽出していたり、サンプル数が1000ほどあれば、正規分布を想定できます。

 検定法は、どの方法を選ぶかは、研究者の自由です。わたしがt検定を多用するのは、正規分布を想定でき、計算式が分かりやすく、サンプル数が2群で異なっても良い、その数も少なくて良い(大差があるので、1群3例でも有意差をだしています)、そして有意差が出やすいからです。

 この場合は、正規分布しているという条件を満たしているとはいえないだろうと判断します。その場合は、F検定をしてください。これは、2群の平均値ではなく、バラツキによって検定する方法です。正規分布している必要は無いとされています。
 F検定で有意差があれば、問題ありません。t検定では有、F検定ではなし、になると方針が定まりませんが(現在このデータで悩んでいます)。

>どのようにデータを入力すれば良いのか
 t検定を指示した人は、身近にいないのでしょうか。その人に訊くのが一番です。身近にいないのなら、いないと返答があれば、書き込みますが。 というのも、大学などの研究テーマだと、指導教員をさしおいて、はマズイノデ。もしも、このテーマに興味を持てば、私が実施して先に発表します。こんな研究内容がハッキリ分かる書き込みを4年生がやったら、研究室は追放ですね。
 長男、次男だけではなく、三男、四男となると多重比較という方法になります。この場合、H検定(エクセルだけでは無理でしょう)を使います。

>平均ではないこれらにどうしてT検定が良いのか
 t検定は、2つの集団の平均値の差について検定する、すなわち、有意差があるかどうかを判定します。平均ではないように見えても、検定の計算式の中に、2群の平均値を用いています。
 ただ、前提時要件があって、2群が正規分布していることが必要です。サンプルを選んだときに、無作為抽出していたり、サンプル数が1000ほどあれば、正規分布を想定できます。

 検定法は、どの方法を選ぶかは、研究者の自由です。わたしがt検定を多用するのは、正規分布を想...続きを読む

Q同等性の検定について

現在、無作為の抽出した物の同等性の統計をどうしたらよいか困っています。

比較したいグループが5グループ有り、それぞれにかなり多くのデータを持っています。
そこで、そこの中から、1000個ずつ無作為に選択しました。

これらのグループはそれぞれが同じである事を証明したいと考えています。
差がある検定なら、色々あるのですが、差が無い(どのグループも同じ)と言うにはどうしたらよいでしょうか?

統計学の初心者ですので、分かりやすくお教えいただければ幸いです。

かなり漠然とした質問になっているかもしれません。
ご意見・ご指摘を頂戴しましたら、その都度お答えさせていただきますので、宜しくお願いいたします。

Aベストアンサー

かなり長い回答になってしまいました。
(計算間違いをしてなければいいのですが…)
わからないところがあれば補足してください。

> 教えていただいたURLを拝見させていただいたのですが、この検定の内容は分かったのですが、計算式については素人なので、何が何だか良く分かりませんでした。

複雑な数式がいきなり出されても、わからなくとも当然のことと思います。


> しかし、一般的な統計ソフトに搭載されているとお聞きしたので、安心し飛ばしたのかもしれません。

もし統計ソフトを現在持っていないのなら、Rを使ってみてはいかがでしょうか?
GUIではないので少しとっつきにくいかもしれませんが、フリーソフトです。
統計ソフトRのサイト    http://www.r-project.org/
日本語の使い方のサイト  http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html

Rでは、次のようにコルモゴロフ-スミルノフ検定ができます。
Rをダウンロードして、実際にやってみるといいでしょう。
頭に#がついているものは、コメントです。


### ここから下のコマンドを1行ずつ実行してみましょう。 ###

# 標準正規分布に従う乱数を10個発生させ、xに保存する。
x <- rnorm(10)
# 平均が1、標準偏差が2の正規分布に従う乱数を10個発生させ、yに保存する。
y <- rnorm(10, mean = 1, sd = 2)

# x, yの中を見てみる。
x
y

# 私の環境ではx, yはこういうデータになりました。
# > x
# [1] -0.8269207 0.7099844 -0.7690119 -0.6518651 -0.4547607 0.3805563 1.2568745 -0.5716070 -0.8341094 -0.1228892
# > y
# [1] 7.9536764 0.3226898 -2.3892380 3.0687527 1.5419668 -0.6778318 0.5084741 1.5935735 1.6216679 2.7330914

# コルモゴロフ-スミルノフ検定
ks.test(x, y)

# 上のデータでは以下の結果が出力されます。
# Two-sample Kolmogorov-Smirnov test
#
# data: x and y
# D = 0.6, p-value = 0.05245
# alternative hypothesis: two-sided
# 有意水準5%では棄却されませんでした。

### 実行はここまで ###



> この検出力、今まであまり聴いたことが無く、少し調べてみると、異常を判断する力とかかれており、いまいちピンときません。
> 申し訳ないのですが、検出力に関して噛み砕いてご説明いただけないでしょうか?

さて次に検出力についてですが、検定には第一種の過誤(Type I error)、第二種の過誤(Type II error)の2種類の誤りがあるのは理解されているでしょうか?
第一種の過誤は、帰無仮説が正しい場合に誤って棄却されてしまうことで、第二種の過誤は、対立仮説が正しい場合に正しく棄却されないことです。
検出力(power)は、1-(第二種の過誤)で定義されます。つまり、検出力とは対立仮説を正しく棄却する確率のことです。


> そして、検出力がわかった所で、何が分かるのでしょうか?

例えば、表の出る確率が0.55であるコインがあったとしましょう。
通常、この表の出る確率は未知ですので、このコインの表の出る確率が1/2かどうかを知りたいとします。
コインを投げる回数はとりあえず10回としておきましょう。

帰無仮説は「コインの表が出る確率は1/2である。」で、対立仮説は「コインの表が出る確率は1/2ではない。」となります。
コインの表の出た回数が1以下か9以上なら帰無仮説は棄却されます
しかし、表の出る確率は0.55なので、コインの表が1以下か9以上になる確率は0.02775935で、これが検出力になります。
つまり、0.55-0.5=0.05という差はコインを10回投げた程度では検出できないということです。

さて何度もいわれているように、統計は違いを見つけるには便利なのですが、通常の検定では同じであることがいえません。
それでは不便ですので、どうにかして同じであることを示したいことがあります。
コイン投げでもサイコロでも何でもいいのですが、表がでる確率が1/2のコインやそれぞれの目がでる確率がどれも等しく1/6であるサイコロは現実には存在しておりません。
しかし、それを理由にコイン投げをやめたり、サイコロを使わなかったりすることがあるでしょうか?
おそらく誰もがある程度の差は許容しているはずです。

同等性の検定は、検定を実施する前に許容できる差(それ以下なら同じとみなす差)とその差をどの程度の検出力で検出したいかを設定し検定を行い、その結果、棄却されなかったら同等であるとみなし、棄却されたら違うと結論付けます。

また、先ほどのコイン投げの例で説明します。
そして、このコインの表のでる確率が1/2であるかを有意水準5%、0.5から±0.01以上の差を検出力90%で検出できる検定することを考えます。

コインをn回投げたと仮定すると、帰無仮説ではnが正規分布近似ができる位大きいとすれば95%の確率で0.5-1.96/2/sqrt(n)から0.5+1.96/2/sqrt(n)の範囲で表が出ます。
表がでる確率が0.49の場合に0.5-1.96/2/sqrt(n)から0.5+1.96/2/sqrt(n)の範囲外になる確率が90%になるようなnを求めます。
表がでる確率が0.51の場合に0.5-1.96/2/sqrt(n)から0.5+1.96/2/sqrt(n)の範囲外になる確率が90%になるようなnも求める必要があるのですが、分布が0.5を中心に対称なので計算の0.49の場合だけを求めるだけでよい。
また、0.49の場合に求めたnなら0.5±0.01の範囲外のどの値でも、検出力90%を確保できていることに注意してください。
こうして求めたn回以上(上の例では26228回以上)、コインを投げれば、このコインの表がでる確率が0.5であるか否かをはっきりと結論付けることが可能となります。
(勿論有意水準5%、0.01以上の差を検出力90%でという条件がありますが)


> また、この検出力ですが、今回教えていただいたコルモブロフースミルノフ検定に用いるのでしょうか?
> それとも、No.1~3で教えていただいていたウェルチの検定に用いるのでしょうか?

上の説明からもわかるかと思いますが、どんな検定でも検出力を考えることができます。
コルモゴロフ-スミルノフ検定でもいいし、ウェルチの検定でも原理的には使うことはできます。
ただ、検出力の計算が結構難しいのです。
カイ二乗検定、F検定やt検定ならテキストを知っているのですが、コルモゴロフ-スミルノフ検定ですと私の手には負えそうにありません。

テキスト  永田 靖, サンプルサイズの決め方, 朝倉書店(2003)


> 例えば、両方に用いた場合(同じように用いれるのかどうか分かりませんが、)違いが生じるかもしれませんが、その違いはどのように考えたらよいのでしょうか?

これは比較しているものが異なるので、違いが出てもおかしくは無いでしょう。
(コルモゴロフ-スミルノフ検定は分布の位置と形の差を見るものですし、ウェルチの検定は平均の差を見ていますので)

かなり長い回答になってしまいました。
(計算間違いをしてなければいいのですが…)
わからないところがあれば補足してください。

> 教えていただいたURLを拝見させていただいたのですが、この検定の内容は分かったのですが、計算式については素人なので、何が何だか良く分かりませんでした。

複雑な数式がいきなり出されても、わからなくとも当然のことと思います。


> しかし、一般的な統計ソフトに搭載されているとお聞きしたので、安心し飛ばしたのかもしれません。

もし統計ソフトを現在持っ...続きを読む


人気Q&Aランキング