統計初心者で教えていただきたいのですが、
ある研究で、22検体から得たデータを、ある基準に従って4段階に分類しました。(grade 1~4)各々に分類される検体数は以下の通りです。
grade n
1 0
2 1
3 6
4 15
この場合、gradeと標本数nには正の相関があるといえるのでしょうか?
その場合は、どのような方法で行うのがよいのか、また、有意性も見るにはどのような検定を行えばよいのでしょうか。correl関数を使ってr値を出すのでしょうか?
基本的な質問かもしれませんが、ご教示ください。
No.2ベストアンサー
- 回答日時:
gradeは分類の番号であって数量じゃないでしょう。
「grade 3.2」なんてものがない以上、「相関」という概念を適用すること自体が間違いです。ご質問の実験が、例えば「たまたま手に入った検体22個を調べた」というのじゃ、意味のある実験になっていません。おそらく、何らか、はっきり決まったある基準に従って選んだ検体22個を調べた筈です。(例えば、蛍光反応で陽性と判定されたグリオーマ組織22例、というのでも良いでしょう。)
そこで、「基準に合致する検体」の集合を母集団とし、その中からランダムに1個サンプルを取ったときにそれがgrade4である確率をxとします。そして、xを推定することを考えます。
すると、この母集団の中からランダムにn個の検体を取ったとき、丁度m個がgrade4である確率P(m,n)は、二項分布
P(x,n,m) = (x^m)((1-x)^(n-m))(n!/m!/(n-m)!)
に従う筈です。そして実際、22個のサンプルのうち16個がgrade4だった。こういうことが危険率 p 以上で生じるx、すなわち
P(x,22,16) > p
となるxを計算すると、
p = 2.5% のとき x=0.472~0.851の範囲、
p = 0.5% のとき x=0.399~0.893の範囲、
であることが分かります。ここで、「p = 2.5% のとき x=0.472~0.851の範囲」というのは、「xは0.472~0.851の範囲にある」という命題が誤りである確率が5%ある、ということです。
これが、ご質問のデータから推定できる「基準に合致する検体がgrade4である確率」xです。
この回答への補足
stomachmanさん、ご丁寧な回答ありがとうございます。
確かにgradeはあくまで番号であって、数量ではありません。
「相関」を誤って解釈していました。
しかし、新たな質問ですが、
「gradeが上がるほど、それに対応するnも増える傾向にある」
ということを示したいときは、どのような統計学的手法を用いればよろしいのでしょうか。
重ね重ねの質問になり失礼ではありますが、ご教示いただければと思います。
No.4
- 回答日時:
他の回答者さんの意見をみて気づいたのですが,gradeというのはいわゆる被験者番号みたいなものに過ぎなかったのですね。
だとしたら,gradeとnの相関を私の提示したように出すのは間違いですね。大分ボケてました。。。
backsさん。
こちらのデータの提示の仕方がまずかったです。
今後質問する際は、もっと具体的、わかりやすく書くようにいたします。
ご回答ありがとうございました。
No.3
- 回答日時:
ANo.2のコメントについてです。
「grade 1, 2, 3, 4」の数字はただの記号に過ぎず、代わりに「grade 赤、白、青、黒」と呼ぶ事にしても構わない。こう考えれば、「gradeの数字が大きいほど」という表現は全く意味を失い、ご質問は単に、「『サンプル数の多さは、黒、青、白、赤の順である』と言えるかどうか」というだけのことです。
で、「サンプル数の多さは、黒、青、白、赤の順である」とは、
(1)「母集団中のサンプルがgrade 黒である確率はgrade青である確率より大きい」
(2)「母集団中のサンプルがgrade 黒である確率はgrade白である確率より大きい」
(3)「母集団中のサンプルがgrade 黒である確率はgrade赤である確率より大きい」
(4)「母集団中のサンプルがgrade 青である確率はgrade白である確率より大きい」
(5)「母集団中のサンプルがgrade 青である確率はgrade赤である確率より大きい」
(6)「母集団中のサンプルがgrade 白である確率はgrade赤である確率より大きい」
という一連の命題の連言(ANDで繋いだもの)に他なりません。では、これらを評価するにはどうするか。
「母集団中のサンプルがgrade 黒である確率とgrade青である確率は同じだ」という帰無仮説を(ある危険率で)棄却できれば、(1)が言えます。
帰無仮説に従えば、黒か青のサンプルn個だけを見たとき、そのうち丁度m個がgrade黒である、ということが起こる確率Qは、
Q(n,m) = (n!/m!/(n-m)!) (0.5^n)
と書けますから、Q(21,15)+Q(21,16)+…+Q(21,21)が危険率よりも小さければ、この帰無仮説は棄却できることになります。
この検定をやってみると、(1)~(6)のうち、言えない命題も出て来るかも知れません。例えば、(1)(2)(3)(4)(5)は言えたけれども(6)は言えなかったとすると、「grade 黒は他のgradeより多い。grade青はgrade赤、白より多い。」としか言いようがありません。
ところで、仮にgrade 1, 2, 3, 4という数字が何らかの意味で順番を持っていて(例えば、サンプル中の異常細胞が分化している度合いがこの順である)、しかも「順番が後のものほど、xが大きい」と言えたとしましょう。それが何を意味しているかというと、単に「母集団を作る際の基準がそういう性質のものであった」ということを意味している、それだけです。
例えば「新米の作業者AがサンプルN個の中からgrade 3のものだけを選別して22個のサンプルを得た。」という母集団の作り方をしたのかも知れません。そして「その22個のサンプルをベテラン作業者Bが分類し直した結果、表のような結果になった」ということだったとすると、
(i)「新米はgrade3とgrade4の区別をどのぐらい間違えたか」
(ii)「新米はgrade3とgrade2の区別をどのぐらい間違えたか」
(iii)「新米はgrade3とgrade1の区別をどのぐらい間違えたか」
ということが問われるべきでしょう。数字を赤、白、青、黒に置き換えてみても、話は全く同じです。(そしてこの場合なら、(1)~(6)ではなく(i)~(iii)をこそ検討すべきで、さらにその際に数値Nが不可欠です。)
No.1
- 回答日時:
提示されたデータにおいては高い正の相関がみられるようですよね(r = 0.9415545)。
ただし,相関係数の有意性の検定を行ってみると,有意ではないようです(p = 0.05845 > 0.05)。Excelのcorrel()で相関係数は出せます。有意性の検定はできないです。少なくとも分析ツールにそのようなものはない。
Rという無料の統計ソフトなら簡単にできます。例えば今回の例だと,
grade <- c(1,2,3,4)
n <- c(0,1,6,15)
cor.test(grade, n)
と画面に打ち込むだけですからね。それでも,相関係数と相関係数の有意性の検定については書籍を読んで勉強するべきではあるでしょうね。
ご丁寧な回答ありがとうございます。
やはりExcelでは有意性は検定できないのですね。
統計ソフトまで教えていただきありがとうございます。
もっと勉強したいと思います。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 国家公務員・地方公務員 建築基準適合判定資格者検定の実務経験は退職後も有効でしょうか。 確認検査の実務経験は退職後も有効なの 1 2022/04/10 09:55
- 統計学 直線の傾き(回帰係数)から相関係数を計算できるのでしょうか? 2 2022/09/16 19:28
- 統計学 統計学の質問【帰無仮説】 W大学のP学部において、自宅通学者の比率にについて調べたい。 P学部から1 8 2023/05/25 23:28
- 統計学 みなさま 心理学の統計について質問があります。 相関分析をした際に、 例えば相関係数が0.4くらいで 3 2022/12/14 13:00
- 一戸建て アスベスト物件解体に必要なこと 2 2023/07/12 07:10
- 労働相談 有給休暇使用時の賃金の計算方法について 5 2022/04/04 00:02
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
N数?n数?サンプル数の「エヌ...
-
統計学-母集団が少ない場合の...
-
評価者により採点に差が出るこ...
-
有意差があってもサンプルサイ...
-
モデルのパラメータの定義がい...
-
t検定のt値について
-
信頼区間から標準偏差の求め方
-
ある集団の平均身長を調べたい....
-
多数決 統計学に詳しい方教え...
-
エクセルで「集団から最大値、...
-
適正なサンプル数について
-
大至急お願い致します!統計学...
-
統計 基準値の標準偏差はなぜ1か
-
統計学における無作為抽出に関...
-
時系列データの検定
-
t検定って何ですか
-
【統計学の問題】サイコロの出...
-
一つ一つの重さを計るのと10...
-
アンケート調査に必要なサンプル数
おすすめ情報