プロが教えるわが家の防犯対策術!

教えて下さい
A病院における透析患者の免疫グロブリンの一つIgG値(mg/100ml)を調べたところ、次のようなデータが得られた。透析患者のIgG値は正規分布することが知られているとする。透析患者のIgG値の母平均μの95%信頼区間を求めよ。
1326 1418 1820 1516 1635 1720 1580 1452 1600

(1)母平均μの95%信頼区間を求めるのに使った式を記し、式の中で使った記号の意味も記すこと。(ギリシャ文字を使う必要はない)



(2)(1)の式を計算するためのRのコマンドを記すこと。





(3)(2)のコマンドをRで実行し、コマンドと結果をRコンソールからコピーしてレポートに貼りつけよ





(4)母平均μの95%信頼区間の上限値と下限値を記すこと。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

あなたのご質問を文字通りに読むと、どの教科書にでも書いてある基本公式を聞いているようにも解釈できるのですが、もちろんそんなことを質問したいのではないですよね(失礼なことを言ってごめんなさい)。

でもそうでないとすると質問の意図の解釈が難しいのですが、Rの青木先生が作った関数が
http://aoki2.si.gunma-u.ac.jp/R/boheikin.html
にあります
    • good
    • 1

正規分布なら


http://aoki2.si.gunma-u.ac.jp/lecture/Average/Me …
http://aoki2.si.gunma-u.ac.jp/lecture/Average/Me …
ですが、健常人のIgGは
http://ci.nii.ac.jp/naid/110002409079
にあるように対数正規分布をするので

x <- c(1326, 1418, 1820, 1516, 1635, 1720, 1580, 1452, 1600)
> y<-log(x)
> mean(y)
[1] 7.350051
> t.test(y, mu=7.35, conf=0.95)

One Sample t-test

data: y
t = 0.0016, df = 8, p-value = 0.9988
alternative hypothesis: true mean is not equal to 7.35
95 percent confidence interval:
7.274278 7.425824
sample estimates:
mean of x
7.350051

> exp(7.274278)
[1] 1442.709
> exp(7.425824)
[1] 1678.782

としてみました。しかし考えてみれば健常人ではなく透析患者で分布が分からないのでこの問題を解くことは不可能という結論に至りました
    • good
    • 0

透析患者のIgG値が正規分布するわけはないでしょう。

ガウスによれば互いに独立で微小な変動が多数集積して分布ができているときに正規分布になる。透析患者には様々な健康状態の人が含まれており、IgGが健康状態で変動してしまいます。健常人のIgGでも正規分布するとは思えません。正規分布する確率変数は負の値もとりえるが、IgG値は負にはなりません。医学のデータは対数正規分布をするものが多いことが知られています。もし透析患者のIgG値が(近似的に)正規分布することを示している文献があるのならば教えてもらえませんか。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q信頼区間 正規分布しない場合

信頼区間を求める方法として、「標準正規分布では値が1.96以上の曲線下の面積と、-1.96以下の面積を合計すると0.05である。そこで平均から標準誤差SEに1.96の値をかけ算した値を引いた値と足した値の範囲に真の値が含まれるはずと言うことになる。これを95%信頼区間という」と本に記載されていました。母集団が少なく、正規分布していないであろうと思われるサンプルであっても、この方法に従い信頼区間を算出することは適切でしょうか?
具体的には以下の2群のそれぞれについて95%信頼区間を知りたいのです。
統計については素人なので的はずれな質問かも知れません。
X
209.1
280
91
124
80.57884211
67
152.2
88.584
138.0215385
112.43
115.71
97
128
144

Y
145.035
113.2352941
143.5
117.25
62
78
58
79.5
68.49975
73.85728571
81.61222222
190.5
58
179.25
84
76.6665
168.92
76.76

信頼区間を求める方法として、「標準正規分布では値が1.96以上の曲線下の面積と、-1.96以下の面積を合計すると0.05である。そこで平均から標準誤差SEに1.96の値をかけ算した値を引いた値と足した値の範囲に真の値が含まれるはずと言うことになる。これを95%信頼区間という」と本に記載されていました。母集団が少なく、正規分布していないであろうと思われるサンプルであっても、この方法に従い信頼区間を算出することは適切でしょうか?
具体的には以下の2群のそれぞれについて95%信頼区間を知りたいので...続きを読む

Aベストアンサー

通常用いられる区間推定法は、標本が正規分布に従うことを仮定していますので、#1さんの仰られている様に、標本が正規分布に従っていると見なせる場合しか使えません。
データのヒストグラムや統計的性質、そもそもの観測対象の性質を勘案して最適な標本分布のモデルを作り、両側5%点を計算することになるのでしょうか。

と言っても処方箋がないと困るでしょうから、私がこのデータをもらって信頼区間を推定せよ、と言われたらどうするか、という視点で以下私見を述べさせていただきます。

まずはヒストグラムを描いて、正規分布が当てはまりそうか目で確認します。統計的にきちんとやるなら、正規性の検定(#1の方の参考URLにある1標本Kolmogorov-Smilnov検定など)を行うのでしょうが、ここは簡便にいきます。
実際にヒストグラムを描くと(Excelで簡単に描けます)、ピークの右に裾を引いた非対称な分布になっており、正規分布は当てはまりそうにありません。
右裾の厚い非対称な分布の候補としては、対数正規分布やΓ-分布が代表的なので、これらを検討することになると思います。
特に、対数正規分布を仮定すれば、通常の区間推定法を使える(標本の対数を取って、それが正規分布に従うとすれば良い)ので、真先に検討することになるでしょう。
また一定値(50?)以下は取らないような標本にも思えますが、もしそうなら、その閾値を引いた値に対して、上記の分布を当てはめることになるでしょう。

以上です。
もっとも、これはあくまで与えられたデータだけに基づく考察であり、観測対象の理解とモデル化から始めるのが本来であろうと思います。観測対象の詳細が分かれば、より妥当なモデル化の方法があるかもしれません。

通常用いられる区間推定法は、標本が正規分布に従うことを仮定していますので、#1さんの仰られている様に、標本が正規分布に従っていると見なせる場合しか使えません。
データのヒストグラムや統計的性質、そもそもの観測対象の性質を勘案して最適な標本分布のモデルを作り、両側5%点を計算することになるのでしょうか。

と言っても処方箋がないと困るでしょうから、私がこのデータをもらって信頼区間を推定せよ、と言われたらどうするか、という視点で以下私見を述べさせていただきます。

まずはヒストグ...続きを読む

Q信頼区間の1.96や1.65ってどこから?

統計の問題で信頼区間を求める際に、
信頼率90%なら1.65、95%なら1.96を標本標準誤差にかけますが、
この数字はどうやって求めるのでしょう?
信頼率が他の値になった場合に解けなくて困っています。

正規分布の表から判ると習いましたが、
最大でも0.5までしか見当たらず悩んでいます。

Aベストアンサー

正規分布の表を見てみようか.

1.65 のとき, 値はいくつになっていますか? そして, その値はいかなる確率を表しているのですか?

Q対数変換する意味?

私は数学が苦手な文系大学生です。最近「地域分析」という本を読んでいるのですが、たびたび数式を「対数変換すると・・・」と言う風に話が進みます。対数変換をすることの意味がわからないので内容が理解できません。

まず、対数変換とは何なのか?対数変換を行なうと何がどのように変わるのでしょうか?
また、一般的に対数変換とはどのような目的で行なわれるのでしょうか?

ということを文系の学生にわかりやすく教えていただけないでしょうか。
対数変換の内容を理解していないため、質問が的を得ていないかもしれませんが、よろしくお願いします。(また、ここで説明できるような内容でなければ、その旨をお伝えください。)

Aベストアンサー

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

このように表現すると、正の数値で1以下の小数から
万や億などの非常に大きい値に散らばる数値サンプルを
整理したり表現するのに非常に便利です。

また、対数にしてグラフを作ると、上記のように非常に
大きな数(または0.00000・・・・のように非常に小さい数)
を限られた紙面上でプロットする事ができます。
もしそのプロットした結果が直線になった場合、
その直線の傾きでサンプルの近似式を導き出すこともできます。

具体的例を挙げると、身近なものではpH値。
これはある液体の単位量あたりどのくらい水素イオンが
含まれるかを対数表現したものです。
(厳密には、モル濃度で表した水素イオン濃度の逆数の常用対数)

まとめると、対数は小数から数万・億などの広範囲に散らばる
数値を整理するために使われる道具とお考えになられたら
良いと思います。

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

この...続きを読む

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

Qサンプル数の異なる2群間におけるT検定について

サンプル数の異なる(50,15)2群間の身長の比較を行うのに、T検定をするよう指示を受けました。これは、長男と次男での出産時の身長に差があるかを調べるためですが、長男50人分と次男15人分(母親は異なる)のデータのため、サンプル数が違います。またT検定は私の理解では平均の比較(2群の場合)を行うものであるため、平均ではないこれらにどうしてT検定が良いのか、また統計ソフト(STATISTICAかエクセル)を使う場合にどのようにデータを入力すれば良いのかわかりません。
どなたかご存知の方がいらっしゃればアドバイスをいただけたらうれしいです。
よろしくお願いします。

Aベストアンサー

>平均ではないこれらにどうしてT検定が良いのか
 t検定は、2つの集団の平均値の差について検定する、すなわち、有意差があるかどうかを判定します。平均ではないように見えても、検定の計算式の中に、2群の平均値を用いています。
 ただ、前提時要件があって、2群が正規分布していることが必要です。サンプルを選んだときに、無作為抽出していたり、サンプル数が1000ほどあれば、正規分布を想定できます。

 検定法は、どの方法を選ぶかは、研究者の自由です。わたしがt検定を多用するのは、正規分布を想定でき、計算式が分かりやすく、サンプル数が2群で異なっても良い、その数も少なくて良い(大差があるので、1群3例でも有意差をだしています)、そして有意差が出やすいからです。

 この場合は、正規分布しているという条件を満たしているとはいえないだろうと判断します。その場合は、F検定をしてください。これは、2群の平均値ではなく、バラツキによって検定する方法です。正規分布している必要は無いとされています。
 F検定で有意差があれば、問題ありません。t検定では有、F検定ではなし、になると方針が定まりませんが(現在このデータで悩んでいます)。

>どのようにデータを入力すれば良いのか
 t検定を指示した人は、身近にいないのでしょうか。その人に訊くのが一番です。身近にいないのなら、いないと返答があれば、書き込みますが。 というのも、大学などの研究テーマだと、指導教員をさしおいて、はマズイノデ。もしも、このテーマに興味を持てば、私が実施して先に発表します。こんな研究内容がハッキリ分かる書き込みを4年生がやったら、研究室は追放ですね。
 長男、次男だけではなく、三男、四男となると多重比較という方法になります。この場合、H検定(エクセルだけでは無理でしょう)を使います。

>平均ではないこれらにどうしてT検定が良いのか
 t検定は、2つの集団の平均値の差について検定する、すなわち、有意差があるかどうかを判定します。平均ではないように見えても、検定の計算式の中に、2群の平均値を用いています。
 ただ、前提時要件があって、2群が正規分布していることが必要です。サンプルを選んだときに、無作為抽出していたり、サンプル数が1000ほどあれば、正規分布を想定できます。

 検定法は、どの方法を選ぶかは、研究者の自由です。わたしがt検定を多用するのは、正規分布を想...続きを読む

Q統計解析ソフトRで単回帰分析(繰り返しあり)とその95%信頼限界を求めたい

統計初心者です。
統計解析ソフトRで単回帰分析をしようと思っています。単回帰分析は繰り返しがある場合です。さらに回帰式の95%信頼限界を求めたいと考えています。昨日、書店を回って成書を見たのですが、上記の説明がされているものを見つけることができませんでした。
テキストファイルからデータの読み込みはできましたし、散布図を作成することもできました。
しかし、n=3のデータをそのままlm(従属変数~独立変数)として計算させると、Coefficientsの値(切片、傾き)が全く異なる値となります。
そこで
1.繰り返しがある場合、普通にlmだけでは解析できないのでしょうか。
また、95%信頼限界については、どのように取り組めばいいのか、検討がつきません。
ご教示の程、よろしくお願いします。

2.さらに、95%信頼限界の求め方を教えていただけないでしょうか。
よろしくお願いします。

Aベストアンサー

> 95%信頼限界ですが、predict関数をつぎのように書くことで求めることはできますか?
> 回帰式<-lm(従属変数~独立変数)
> 信頼限界<-predict(回帰式)
> また、入力した独立変数の値を入力して、95%信頼限界の値を求めたいのですが、どのようにすればよいでしょうか?

実際に実行してみればわかりますが、それではうまくいきません。
例を下に挙げますので、実際に実行してみてください。


###### ここから #####

(mydata <- data.frame(x = 1:10, y = c(0.5365829, 1.6717796, 3.5224681, 4.6027141, 3.8602299, 5.2651266, 8.6274736, 7.5756941, 11.0286530, 8.1631078))) # テストデータ

with(mydata, plot(y~x)) # 散布図の表示

mydata.lm <- lm(y~x, data = mydata) # 回帰分析
summary(mydata.lm) # 分散分析表
abline(mydata.lm) # 回帰直線の追加

predict(mydata.lm, interval = "confidence") # mydata$xについての95%信頼区間を求める
predict(mydata.lm, newdata = data.frame(x = c(1:9 + 0.5)), interval = "confidence") # data.frame(x = c(1:9 + 0.5))についての95%信頼区間を求める

###### ここまで #####


一つ目のpredictは、newdataの指定がないため、独立変数xの1,2,...10についての予測値がfitに95%信頼区間がlwr, uprに計算されます。
二つ目のpredictは、newdataの指定があるため、newdataのデータフレームの値、つまり1.5, 2.5,...9.5についての予測値がfitに95%信頼区間がlwr, uprに計算されます。

実際には、predictで信頼区間を計算しているのではなく、predict.lmが下請けをしているので、使い方がわからない場合は、
?predict.lm
を実行してヘルプをご覧ください。

> 95%信頼限界ですが、predict関数をつぎのように書くことで求めることはできますか?
> 回帰式<-lm(従属変数~独立変数)
> 信頼限界<-predict(回帰式)
> また、入力した独立変数の値を入力して、95%信頼限界の値を求めたいのですが、どのようにすればよいでしょうか?

実際に実行してみればわかりますが、それではうまくいきません。
例を下に挙げますので、実際に実行してみてください。


###### ここから #####

(mydata <- data.frame(x = 1:10, y = c(0.5365829, 1.6717796, 3.5224681, 4.602714...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む


人気Q&Aランキング