ROC曲線のAUCの分析方法

締切済

質問者：duoshaoqia
質問日時：2014/03/17 09:41
回答数：1件

特定の状態の有無を調べるスクリーニングテストをして、その結果からROC曲線（Receiver Operating Characteristic curve：受信者操作特性曲線）を作図しています（エクセル手計算です）。

ROC曲線下面積のAUC（Area Under the Curve)は、スクリーニングテストの精度を表しているとされており、参考書をみれば０．５－０．７が低精度、０．７－０．９が精度中等度、０．９－１．０が高精度となっています。

AUCについて3点質問があります。

１．AUCの結果からこのスクリーニングテストの精度は妥当である、とする際の計算方法（RやSPSSを使わずに手計算で計算する方法)

２．１．の結果は、t-検定や相関係数の無相関検定のように、有意確率がサンプル数に依存するか

３．２つのスクリーニングテストの精度を比較する方法（２種の相関係数の差の検定のように、２つのAUCの差を検定を手計算でする方法）

ご存知の方、これらについて教えていただけませんか。
よろしくお願いいたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

最新から表示
回答順に表示

No.1

回答者： stomachman
回答日時：2014/03/18 17:37

　ROCのArea Under Curveに関して有意確率、t-検定などの言葉が出て来るところを見ると、もしかして、「スクリーニング検査はランダムな答を出す（判別能力のない）ものである」という帰無仮説の検定について仰っているのだろうか。

それとも、実験で得たAUCの値に含まれる誤差の分布についてお考えなのだろうか。
　後者だとすると、まずは「適当な仮定のもとで、閾値Tに於ける条件付き確率
　p(T) = P( テストがPositive | ホントにPositive)
　q(T) = P( テストがPositive | ホントはNegative)
をデータから推定せよ」という問題から考えるべきかと思います。たとえば、ロジスティック回帰分析でfittingを行えば、p(T), q(T)とそれぞれの誤差範囲が推定できる。これを使ってROCのAUCの誤差の分布も推定できそうに思われます。

　しかし実務上は、その誤差はあんまり問題にならんように思います。というのは：
(1) 最終判定(Positive/Negative)が判明している多数の例に於いてスクリーニング検査の結果が分かっている、というのでなくては、それが実際スクリーニングになっているのかどうか判断しようがない。簡単に実施できるからこそスクリーニング検査なのだから、最終判定ができたものの殆どについてスクリーニング検査を実施するのは容易のはず。もしそのデータが少ないなら、それは、そもそも最終判定が得られた例が少ないということだが、そういう場合、スクリーニング検査に果たして意味があるか？
(2) スクリーニング検査法の候補が複数あって、それらの間には検定に掛けなくては分からない程度の違いしかないのだったら、判別の性能よりも、他のポイントを比較する事が重要だろう。
と思われるからで、つまり、もっとデータを取ってから判断すべきでしょう。

1.について、「０．５－０．７が低精度」云々は、トンチキな著者がイーカゲンなことを抜かしてやがるだけかと。なぜなら、「このスクリーニングテストの精度は妥当」という判断は、そもそも数学の対象ではありえません。スクリーニングのコストと効果、false positive, false negativeの際に発生する問題（false negativeで見逃したためにそりゃもお大変なことになった、false positiveで精査がどっさり発生し、精査結果が出るまで3年待ち、など）の重大性の程度に鑑みて、実務に於ける価値観に従って判断すべきものであり、これによって閾値の設定も決まる訳です。

2. について、サンプル数が多いほどROCが滑らかに描ける、という簡単な話では？　見た目にもカクカクしているようでは、（データのゆらぎを無視しても）ROCを階段関数として積分したときと、台形則で積分した時との違い程度(order)の誤差がAUCに生じうることは明らかでしょう。

3. について、これは上記の(2)の話。AUCが1に近い方（カーブが左上の角に近づく方）がまし、という基準だけで判定するのは、あまり利口とは言えないでしょう。検査の種類によってコストも適用条件も違うし、また、検査にとっての「得手不得手」というものもあります（特に、判別の対象となる事象がそもそも純粋ではなく、複数の要因で生じた似たような現象が混合したものである場合）。複数のスクリーニング検査を旨く組み合わせると性能が上がる、という場合もあるでしょう。

- 1
- 件

通報する

この回答へのお礼

stomachmanさん、ご回答ありがとうございました。

現在、既存のテストをある状態のスクリーニングに応用できないか調べています。
サンプル数は約800で、SPSSの入ったPCを借りてROC曲線の作図と分析をしたところ、
AUC：0.716
標準誤差：0.043
漸近有意確率：0.000
漸近95%CI：0.631-0.801

という結果が出ました。
この結果は、AUCが0.5（スクリーニングの結果が完全にランダム）を帰無仮説としたときに、AUCが0.5だと言えない（スクリーニングの結果がランダムであるとは言えない）という
結果である、と認識しています。
↑この認識は間違っていませんよね?

１．毎回SPSSの入っているPCを借りることはできないので、エクセルで計算（AUCが0.5であるという帰無仮説に対する検定）をできるようになりたい

２．AUCは大きい値である方が良いスクリーニングなので、AUCが大きくなるように条件を変更するのとともに、サンプル数の制限（例えば年齢や性別などでわけて、それぞれの場合分けで分析したら異なる結果になるか）をしたときに、AUCが高くなってもAUC＝0.5の帰無仮説に対する検定結果がサンプル数に影響してしまうのではないのか

３．２に付随して、場合わけしたときにそれぞれのAUCの値が統計的に大きいのか小さいのかを判断して、最も良いパターンを見極めたい

という理由で3つの質問をいたしました。

３つ全ての質問において、私自身がROC曲線の分析方法の正しい知識が不足しているのがそもそもの問題であることは重々承知しています。
知識の足りない部分を補完するために、質問しました。

質問の1について、計算式かもしくはその流れがわかれば、もう少し分析の考え方を理解できると思います。

質問の２について、例えば相関係数が、サンプルが30の時のｒ＝０．３と、サンプルが100の時のｒ＝０．３では意味が違う（サンプル数が有意確率に影響する）と思います。
AUCも同じじゃないのか、と思っています。
質問1の計算式等や考え方がわかれば、この問題も解決できると思います。

質問の３についても同様で、質問１，２が理解できれば自ずから理解できると思います。

もう少し詳しく教えていただけないでしょうか?
よろしくお願いいたします。