No.4ベストアンサー
- 回答日時:
No.2に付けられたコメントに関してです。
> ・true positive(グラフで言うY軸)の最大値が1までいかないのは問題ないのでしょうか。
問題ないです。
$A$2:$A$1000>=A2
とやっているから、与えたデータのうちの少なくとも1個はこの条件に引っかかることになります。これが100%のところにプロットが生じない理由です。
> ・実際のROC曲線から、最も適したカットオフ値を求める手法はあるのでようか。
ROC曲線だけで決める事はできません。「最も適した」という判断の基準になる評価方法が不明だからです。
逆に、評価を計算する評価式を作りさえすれば、「その評価式の値を最大にするようなROC曲線上の点」は計算だけで決定できます。たとえば、
y = (true positiveの確率)
x = (false positiveの確率)
として、
F(x,y) = -A x + B y (A,B>0)
という評価式を作ったとします。そうしたら、
F(x,y)=C
という方程式を考えて、ROC曲線のグラフと同じグラフ上に描くと、右上がりの直線になります。この直線がROC曲線と接するところが、最大のCですから、その接点を診断の基準にすれば良いことになります。
F(x,y)が一次式でない場合には、F(x,y)=Cは曲線になりますが、話は同じ事です。
さて、
F(x,y) = -A x + B y (A,B>0)
という形をとるにしても、A, Bを、検査対象者に占める有病率だとか、false positiveの場合のコストとfalse negativeの場合のコストなどから計算する方法は「どう評価するか」という思想そのものを反映するわけで、当然ながら公式というものはありません。
例えば、この検査は軽い症状を訴える人に使うスクリーニングであって、もしスクリーニングに引っかかったら診断能の高い精密検査(特殊な設備が要る。たとえばMRI検査)を行うものとしましょう。また、スクリーニングで見逃してしまっても、すぐに致命的な結果にはならない疾患が対象だとしましょう。こういう場合には、false positiveが大きいと精密検査を受ける人数が増えてしまって捌ききれませんから、精密検査用設備の稼働率が丁度100%になるように閾値を設定するのが、病院経営上の合理的判断かも知れません。
また、この検査は致命的な疾患を検出するための検査であって、もしこの検査で見逃すと近いうちに死亡したり、治療に莫大なコストが掛かる事態になるようなものである場合、たとえfalse positiveが多くなっても、true positiveを高くすることが重要です。しかし、検査を受けた全員がpositiveになってしまう検査では検査の意味がありません。(だからこの検査はしない、という判断もあり得ます。検査をするなら、)true positiveが(100-α)%であって、なおかつfalse positiveができるだけ少ないような、そういう閾値を選ぶ必要があります。αをどう設定するかが問題です。「検査で見逃したせいで大変なことになった」という事態に掛かるコスト(コストと言ってもお金だけじゃないでしょう)を勘案しなくてはなりません。
No.3
- 回答日時:
Excelでやるお積もりならば、
以下では症例数が999例未満(例えば数十例とか)の場合について書いています。Excelは、数式バーが表示される状態にしておくこと。
(1) Excelのセル A1に「検査値」、B1に「診断」と書き込みます。
(2) セルA2から下に検査値のデータを、B2から下に診断(Positiveなら1, Negativeなら 0)を入力します。たとえば130行目までデータが入ったとしましょう。(つまり症例数129)
(3) セルC1に「総数」と書き込みます。
(4) C2に =COUNT(A2:A1000)と入力すると、A2~A1000の中でデータが入っているセルの数、つまり総数Nが表示されるはず。
(5) セルC3に「有病数」と書き込みます。
(6) C4に =SUM(B2:B1000) と入力すると、B2~B1000の中で、診断が1であるものの個数、つまり有病数Mが表示されるはず。
(7)セルD1に「F P」(false positive)と書き込みます。
(8) D2に
=SUM(IF($A$2:$A$1000>=A2,1,0)*(1-$B$2:$B$1000))/($C$2-$C$4)
と入力しますが、まだEnterキーを押しては駄目。今入力した式が数式バーに表示されていますから、その式の上で一度クリックすると、式のどこかにキャレット(文字を入力する場所を示すカーソル)が表示されます。この状態で、 [CONTROL]キーを押しながら[Enter]キーを押す(Macintoshなら リンゴマークのキーを押しながら[Enter]を押す)。そうすると、自動的に式が"{ "と "}"で囲まれて表示されます。
(9) セルE1に「T P」(true positive)と書き込みます。
(10) E2に
=SUM(IF($A$2:$A$51>A2,1,0)*$B$2:$B$51)/$C$4
と入力しますが、まだEnterキーを押しては駄目。(8)でやったのと同じようにして、自動的に式が"{ "と "}"で囲まれるようにします。
(11) セルD2からE130の範囲をマウスで選択し、メニューから「編集」→「フィル」→「下方向へコピー」を選択します。
これで計算は完了です。
(12) 結果をグラフにします。セルD1からE130の範囲をマウスで選択し、メニューから「挿入」→「グラフ…」を選択。グラフの形式は「散布図」で、点と点を線で結ばない形式を選びます。
以上。
この回答へのお礼
お礼日時:2006/08/31 14:04
返事遅くなり申し訳ありません。ご丁寧にどうも有り難うございました。
追加でお聞きしてもよろしいでしょうか?
・true positive(グラフで言うY軸)の最大値が1までいかないのは問題ないのでしょうか。
・実際のROC曲線から、最も適したカットオフ値を求める手法はあるのでようか。
No.2
- 回答日時:
ROC曲線はExcelでも、ちょっとがんばれば作れますよ。
検査の測定値を x[i], 「正しい」診断を y[i] (yは有病なら1, さもなくば0)とし、総数をN (だからi=1,2,…,N)、有病数をMとします。(有病率=M/N)
閾値をx[i]に設定したときの
タテ軸の値:True Positive (つまり、x[j]≧x[i]かつy[j]=1であもの)の数 ÷ M
と
ヨコ軸の値:False Positive (つまり、x[j]≧[i]かつy[i]=0であもの)の数 ÷ (N-M)
をi=1,2,…,Nについて計算してプロットしたのがROC曲線です。(あ、タテヨコが逆かも知れません)
もちろん、False Positiveを減らす(True Positiveを増やす)ことと、False Negativeを減らす(True Negativeを増やす)事は両立しません。縦軸のTrue Positiveの値を大きくしたければ、横軸の値を大きくしなくてはならない。つまりFalse Positiveが大きくなるような(怪しいものはPositiveとするような)閾値を使うことになる、というのがこのグラフの意味するところです。
だから、ROC曲線は検査の診断能力を測るための曲線です。
もし曲線がグラフの左上隅(0,1)にへばりついたら検査法は完璧であり、
もし(0,0)と(1,1)を結ぶ直線になったら、その検査は全く検査になっていない(さいころを投げて診断するのと同じ診断能しかない)
ということです。
もちろん、現実にはその中間です。
ROC曲線はまた、閾値の「選択肢」を眺めるための曲線でもあります。
True Positiveを高める事を重視するか、あるいはFalse Positiveを減らすことを重視するかは検査の目的や疾患の性格によるわけで、その判断に基づいて曲線上の1点を選択する。
そうすれば、その点に対応する閾値 x[i]が決定します。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 中途・キャリア さて、社会人になってから13年目。 今まで、機械設計、機械製品の品質管理、部門の経営企画をやってきま 4 2023/07/17 08:59
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 統計学 統計検定2級の過去問について 1 2023/01/04 16:40
- 教育・学術・研究 仕事の方向性を変えたい。経営分析→数値解析 1 2023/06/18 16:51
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 一変量分析(度数分布表)は、結果をもとに特に検定せずに断定してもよいですか? 7 2022/11/24 23:20
- 数学 二項定理と乗法定理の問題について 2 2022/04/25 22:05
- 統計学 不偏分散について 3 2022/03/29 15:57
- 財務・会計・経理 この問題の正解をおしえてほしいです。 第1問 損益計算書には営業利益、経常利益等、異なる名前の利益が 1 2023/06/02 05:04
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
逆関数の合成関数について質問...
-
過去質『すべての自然数とすべ...
-
計算手順について
-
三次方程式の解として
-
3つのベクトルで生成される部分...
-
数列の問題の解答で、 a[n+1]-...
-
何が違いますか?
-
整数問題 兎に角 難問です 千葉...
-
命題の真偽の問題で 命題〇〇に...
-
理系数学の良問プラチカの四訂...
-
組み合わせの問題
-
単連結なn次元閉多様体の連続変...
-
a(n)=1/(n+1)! lim[z->π/2](d/d...
-
確率の問題について 「14本のく...
-
[数的処理] Aは毎朝7時20分に...
-
離散フーリエ変換での回転子計...
-
下の画像の中の三角形は正方形...
-
う
-
三角比の問題
-
大学でTOEICを毎年受けるんです...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
整数問題 兎に角 難問です 千葉...
-
えこれわかるひといますか?
-
長方形の分類(幾何学)
-
京都大学理系 過去問 整数問題
-
天孫降臨の神武天皇のY染色体...
-
中学数学の図形の問題です。
-
数学I アホらしい質問なのでそ...
-
正方行列Aについて
-
このルートを外す計算どうすれ...
-
素数についての一考察
-
これて最後どうやりますか??
-
この数学の問題はどうやって解...
-
高校数学の整数問題です。
-
暗闇で2人が出会うには両方動...
-
なんでですか?
-
大学入試の数学で、解答を進め...
-
n^2+n-4032はどうやって解くん...
-
(-1) ^2πってなんで1じゃないん...
-
標準偏差
-
一橋大学過去問 整数 素数 かな...
おすすめ情報