この場合の相関係数と有意差について

Question

統計初心者で教えていただきたいのですが、
ある研究で、22検体から得たデータを、ある基準に従って4段階に分類しました。（grade 1～4）各々に分類される検体数は以下の通りです。
grade  　 n    
　1　　　 0
　2　　　 1
　3　　　 6
　4　　　15
この場合、gradeと標本数nには正の相関があるといえるのでしょうか？
その場合は、どのような方法で行うのがよいのか、また、有意性も見るにはどのような検定を行えばよいのでしょうか。correl関数を使ってr値を出すのでしょうか？
基本的な質問かもしれませんが、ご教示ください。

stomachman · Accepted Answer

gradeは分類の番号であって数量じゃないでしょう。「grade 3.2」なんてものがない以上、「相関」という概念を適用すること自体が間違いです。

　ご質問の実験が、例えば「たまたま手に入った検体２２個を調べた」というのじゃ、意味のある実験になっていません。おそらく、何らか、はっきり決まったある基準に従って選んだ検体２２個を調べた筈です。（例えば、蛍光反応で陽性と判定されたグリオーマ組織22例、というのでも良いでしょう。）
　そこで、「基準に合致する検体」の集合を母集団とし、その中からランダムに１個サンプルを取ったときにそれがgrade4である確率をxとします。そして、xを推定することを考えます。
　すると、この母集団の中からランダムにn個の検体を取ったとき、丁度m個がgrade4である確率P(m,n)は、二項分布
P(x,n,m) = (x^m)((1-x)^(n-m))(n!/m!/(n-m)!)
に従う筈です。そして実際、22個のサンプルのうち16個がgrade4だった。こういうことが危険率 p 以上で生じるx、すなわち
P(x,22,16) ＞ p
となるxを計算すると、
p = 2.5% のとき x=0.472～0.851の範囲、
p = 0.5% のとき x=0.399～0.893の範囲、
であることが分かります。ここで、「p = 2.5% のとき x=0.472～0.851の範囲」というのは、「xは0.472～0.851の範囲にある」という命題が誤りである確率が5%ある、ということです。
　これが、ご質問のデータから推定できる「基準に合致する検体がgrade4である確率」xです。

backs · Answer

他の回答者さんの意見をみて気づいたのですが,gradeというのはいわゆる被験者番号みたいなものに過ぎなかったのですね。だとしたら,gradeとnの相関を私の提示したように出すのは間違いですね。

大分ボケてました。。。

stomachman · Answer

ANo.2のコメントについてです。

　「grade 1, 2, 3, 4」の数字はただの記号に過ぎず、代わりに「grade 赤、白、青、黒」と呼ぶ事にしても構わない。こう考えれば、「gradeの数字が大きいほど」という表現は全く意味を失い、ご質問は単に、「『サンプル数の多さは、黒、青、白、赤の順である』と言えるかどうか」というだけのことです。
　で、「サンプル数の多さは、黒、青、白、赤の順である」とは、
(1)「母集団中のサンプルがgrade 黒である確率はgrade青である確率より大きい」
(2)「母集団中のサンプルがgrade 黒である確率はgrade白である確率より大きい」
(3)「母集団中のサンプルがgrade 黒である確率はgrade赤である確率より大きい」
(4)「母集団中のサンプルがgrade 青である確率はgrade白である確率より大きい」
(5)「母集団中のサンプルがgrade 青である確率はgrade赤である確率より大きい」
(6)「母集団中のサンプルがgrade 白である確率はgrade赤である確率より大きい」
という一連の命題の連言（ANDで繋いだもの）に他なりません。では、これらを評価するにはどうするか。

　「母集団中のサンプルがgrade 黒である確率とgrade青である確率は同じだ」という帰無仮説を（ある危険率で）棄却できれば、(1)が言えます。
　帰無仮説に従えば、黒か青のサンプルn個だけを見たとき、そのうち丁度m個がgrade黒である、ということが起こる確率Qは、
Q(n,m) = (n!/m!/(n-m)!) (0.5^n)
と書けますから、Q(21,15)+Q(21,16)+…+Q(21,21)が危険率よりも小さければ、この帰無仮説は棄却できることになります。

　この検定をやってみると、(1)～(6)のうち、言えない命題も出て来るかも知れません。例えば、(1)(2)(3)(4)(5)は言えたけれども(6)は言えなかったとすると、「grade 黒は他のgradeより多い。grade青はgrade赤、白より多い。」としか言いようがありません。

　ところで、仮にgrade 1, 2, 3, 4という数字が何らかの意味で順番を持っていて（例えば、サンプル中の異常細胞が分化している度合いがこの順である）、しかも「順番が後のものほど、xが大きい」と言えたとしましょう。それが何を意味しているかというと、単に「母集団を作る際の基準がそういう性質のものであった」ということを意味している、それだけです。
　例えば「新米の作業者AがサンプルN個の中からgrade 3のものだけを選別して22個のサンプルを得た。」という母集団の作り方をしたのかも知れません。そして「その22個のサンプルをベテラン作業者Bが分類し直した結果、表のような結果になった」ということだったとすると、
(i)「新米はgrade3とgrade4の区別をどのぐらい間違えたか」
(ii)「新米はgrade3とgrade2の区別をどのぐらい間違えたか」
(iii)「新米はgrade3とgrade1の区別をどのぐらい間違えたか」
ということが問われるべきでしょう。数字を赤、白、青、黒に置き換えてみても、話は全く同じです。（そしてこの場合なら、(1)～(6)ではなく(i)～(iii)をこそ検討すべきで、さらにその際に数値Nが不可欠です。）

backs · Answer

提示されたデータにおいては高い正の相関がみられるようですよね（r = 0.9415545）。ただし,相関係数の有意性の検定を行ってみると,有意ではないようです（p = 0.05845　＞　0.05）。

Excelのcorrel()で相関係数は出せます。有意性の検定はできないです。少なくとも分析ツールにそのようなものはない。

Rという無料の統計ソフトなら簡単にできます。例えば今回の例だと,

grade <- c(1,2,3,4)
n <- c(0,1,6,15)
cor.test(grade, n)

と画面に打ち込むだけですからね。それでも,相関係数と相関係数の有意性の検定については書籍を読んで勉強するべきではあるでしょうね。

この場合の相関係数と有意差について

gradeは分類の番号であって数量じゃないでしょう。

この回答への補足

他の回答者さんの意見をみて気づいたのですが,gradeというのはいわゆる被験者番号みたいなものに過ぎなかったのですね。

ANo.2のコメントについてです。

提示されたデータにおいては高い正の相関がみられるようですよね（r = 0.9415545）。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　gradeは分類の番号であって数量じゃないでしょう。