『L・DK』上白石萌音&杉野遥亮インタビュー!

ROC曲線にてカットオフ値を求める場合






ロジスティック回帰分析で抽出 した独立変数に対してカットオフ値を算出する方法は、不適切であると指摘を受けたのですが、どう思いますか?
多くの論文で、抽出した独立変数に対してROC曲線にてカットオフ値を求めるという統計処理を行っていると思うのですが?

A 回答 (4件)

No.3へのコメントについてです。



 もしかして、データから直接ROC曲線を描くことすらもやってないんじゃ? 表計算ソフトがあれば十分だから(qa/2359342)、ともかくその曲線を眺めなくちゃね。で、
(A) あんまりグチャグチャであれば、ロジスティック回帰でお化粧してカットオフを決めたところで、そんなもんに意味ないでしょ。
(B) 綺麗な形をしているのなら、ロジスティック回帰でお化粧しなくたって、カットオフが決められるんじゃないか。
のちょうどハザマに落ちるということなら、それからロジスティック回帰の適用を考えればいいでしょう。
    • good
    • 0

「みんな、この方法行なっているが、本来であれば不適切」をもっとあからさまに言えば、「不適切な解析をやった先例を無反省に真似するやつらが多くて、困ったもんだ。

で、本件もその一例だ。(きちんとやれば良い論文になるのにな)」ということだろうな。

気になるところは:
(1) ロジスティック回帰を使うことが適切であるという理由を説明できるか。データから直接ROC曲線を描くのではどうしていけないのか。
 少なくとも、両方を同じグラフに表示すれば回帰曲線がデータにそこそこ合ってるな、ということは直感的に見えるわけだが、もしそうなら、データのプロットではなく回帰曲線に基づいてカットオフを決める理由は何か? (逆に、両者がはっきり乖離しちゃっているなら、回帰曲線に基づいてカットオフを決める理由などあろうはずもない。)
(2) カットオフをどう決めるかについての考察がきちんとできているか。たとえばFalse PositiveによるロスとFalse Negativeによるロスとが同じ価値(意義)であるという場合なら、「P(False Positive) + P(False Negative)を最小化する」という決め方の妥当性が主張できるだろう。しかし、大抵の応用では両者が同じ価値というわけじゃない。これは応用ごとの事情によるのであり、カットオフを適用して判断を行った後に何をする予定になっているかに依存する場合もあれば、単に価値観の問題だという場合もある。ではどのように重み付けするのが適切か。…というあたりをきちんと議論しているか、それとも無反省か。
(3) データのばらつき(偶然誤差)によって生じるカットオフ値の誤差を推定しているか。
 カットオフ値が論文の「オマケ」程度の位置付けならまだしも、本筋の結論だったりすると、そりゃゴミ論文だ。(特に、データがちょっとしかないのにカットオフ値の有効数字がむやみに多いと、一目で、何も考えてないなと分かる。)

 「方法論」というのは「人がやってるパターン」ということではない。目的に対してその方法が妥当であるという根拠を論証して、初めて方法「論」になるんです。その議論をやってる先行論文があるのなら引用して、「その論文がやっているのは、どんな条件を仮定した上での議論なのか」を要約し、そして「自分の応用においても確かにその議論が成立するから、その方法が使える」ということを論証しておくのが、論文の書き方として正しい。逆にこれをやってないのなら、「みんながやってるから無反省に踏襲した」んだな、と思われてもしょうがない。

…てなことを含めてのレビューじゃないかと思います。
    • good
    • 0
この回答へのお礼

丁寧な回答ありがとうございます。
初歩的な質問で申し訳ないのですが、回帰式からロジット値を算出して回帰式のカットオフ関数を求める方法もよくわからない状況です。何か良い参考書等ありませんでしょうか?
統計ソフトは、高価なソフトはありません。EZRを使用(Rは少し使える程度)してますが、ロジスティック回帰分析の結果からは、回帰式が表示されない?状況です。

お礼日時:2019/04/16 17:56

ANo.1です。



>みんな、この方法行なっているが、本来であれば不適切とのことでしたので、方法論に対しての助言であったと解釈していました。

その指摘内容だと、「統計的手法を使うこと自体が不適切」と読めます。
言い換えると、「統計を使わなくても確実に判別できる方法がある」ということになります。

方法論で説得するより、確実に判別できる方法を模索するほうが良いように思えます。
仮に、確実に判別できる方法がないのであれば、その指摘の根拠を再度質問したほうが良いのではないでしょうか。
(具体的な内容が分からないので、これ以上は正直回答が難しいです)
    • good
    • 0
この回答へのお礼

回帰式からロジット値を算出してから、回帰式のカットオフ値を求めた方が良いとの、回答だったのですが、この方法が一般的な物なのでしょうか?
何度もすみません。

お礼日時:2019/04/13 08:11

方法論としては無論ありです。



おそらく方法論ではなく、別の理由で不適切の指摘をしたと思われます。
可能性として考えられるのは以下です。(他にもあるかと思いますが)

(1) ロジスティック回帰分析で使用する変数がベルヌーイ分布から大きく外れている。
(2) ROC曲線が直線に近く(有効性が低く)、カットオフ値を出すこと自体に意味がない。
    • good
    • 0
この回答へのお礼

方法論としては、ありなんですね!
みんな、この方法行なっているが、本来であれば不適切とのことでしたので、方法論に対しての助言であったと解釈していました。

相手を方法論としては、ありだと納得させるためには、どうすれば良いでしょうか?

お礼日時:2019/04/07 07:56

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q統計学の質問です。 P(Z<=z| Y>y)のような条件付き分布関数は同時密度関数のように、 P (

統計学の質問です。
P(Z<=z| Y>y)のような条件付き分布関数は同時密度関数のように、
P (Z<=z,Y>y)/P( Y>y)とできますか?

Aベストアンサー

はい。

Qhttp://www.phys.u-ryukyu.ac.jp/~maeno/sizensuugaku

http://www.phys.u-ryukyu.ac.jp/~maeno/sizensuugaku2016/lec7.html が元のサイトなのですが、画像に関して質問があります。f(x+dx)=f(x)+f'(x)dxとなるのはわかりますが、なぜg(f(x))の導関数の微小変化もf(x+dx)
と同じf'(x)dxを加えた
g(f(x+dx))=g(f(x))+ f'(x)dxとなるのでしょうか?
また、一番下の式の右辺はどうやってg'(f(x))f'(x)dxと出来たのでしょうか?
過程の計算を書いて頂けないでしょうか?

Aベストアンサー

間違ってますね。無視しましょう。

Q大きさNの有限母集団(θ1、…θn)の中から、非復元抽出で大きさnの標本X1、X2、…Xnを無作為に

大きさNの有限母集団(θ1、…θn)の中から、非復元抽出で大きさnの標本X1、X2、…Xnを無作為に取り出す時のX1の分布の平均の求め方を教えて欲しいです。

Aベストアンサー

X1、X2、…Xn の間で、抽出後に特に並べ替えをしないのであれば、
X1 の平均は、母集団から 1 個無作為抽出したときの平均と同じです。
つまり、母集団平均 (1/N)Σ[k=1..n]θ_k ですよ。

Q統計学の質問です。一様分布の最尤推定量がmax(xi)であるのは、1/θ-max(xi)となり、一番

統計学の質問です。一様分布の最尤推定量がmax(xi)であるのは、1/θ-max(xi)となり、一番分母が小さくなるからでしょうか??

Aベストアンサー

たとえば確率密度関数 φ(x) = if 0<x<θ then 1/θ else 0 のパラメタθが未知で、φ(x)に従うサンプル xi {i=1,2,…,n}が与えられた時、θの最尤推定はどうなるの? という話をしてるのなら、そう書いてもらわんと誰も回答できない。

Qこの問題の(3)についてです。-1/ルート3ってどう言う事ですか?。答えを教えてください。 それの-

この問題の(3)についてです。-1/ルート3ってどう言う事ですか?。答えを教えてください。
それの-1/ルート3は弧度法で表せるものなのでしょうか?

Aベストアンサー

単位円で考えた方がいいかと思います。
つまり、
cosθは
x座標が√3で
y座標が-1
の点との関係になります

cos2θ=2cos²θ-1

より、
cos2θ=2*(-1/√3)²-1
=(2/3)-1
=-1/3


弧度法というのは円弧の長さで角度を表す方法で、

円弧/円周=角度/360°

という関係式になります

Q統計確率の質問です。E(x^4)<∞ならE(x^2)<∞でしょうか??

統計確率の質問です。E(x^4)<∞ならE(x^2)<∞でしょうか??

Aベストアンサー

そうなるはず.

Q統計学の質問です。この1番の問題の解き方が全くわかりません。かいせつよろしくおねがいします。

統計学の質問です。この1番の問題の解き方が全くわかりません。かいせつよろしくおねがいします。

Aベストアンサー

単に「P(y>x)=1-p(x<y)-p(x=y)」としか書けないのだとしたら, わざわざ「P(Y>X) と P(X>Y) はどのような関係にある?」と確認したのはなんでだと思う? あと, 記号はちゃんとしよう.

ところでこの問題を作った人って, P(X=Y) をどうするつもりなんだろ.

Q解答の過程を教えていただきたいです。 よろしくお願いします。

解答の過程を教えていただきたいです。

よろしくお願いします。

Aベストアンサー

cos(x) ≧ -1
なので
  ∫{0~x} cos(t)) dt ≧ ∫{0~x} (-1)dt
  -sin(x) ≧ -x
なので
  -∫{0~x} sin(t) dt ≧ -∫{0~x} t dt
  cos(x) - 1 ≧ -(x^2)/2
  cos(x) ≧ 1 -(x^2)/2
なので
  ∫{0~x}cos(t) dt ≧ ∫{0~x}(1 - (t^2)/2) dt
  sin(x) ≧ x - (x^3/6)
なので
  ∫{0~x}sin(t) dt ≧ ∫{0~x}(t - (t^3/6)) dt
  1 - cos(x) ≧ (x^2)/2 - (x^4)/24
  -cos(x) ≧ -1 + (x^2)/2 - (x^4)/24
なので
  -∫{0~x}cos(t) dt ≧ ∫{0~x}(-1 + (t^2)/2 - (t^4)/24) dt
  -sin(x)≧ -x + (x^3)/6 - (x^5)/120
なのよ。

Q統計学の質問です。この一番の解き方を教えてください。

統計学の質問です。この一番の解き方を教えてください。

Aベストアンサー

ところで, この積分っていったいなにを表しているんだろうか. 被積分関数の |x| が理由もなにもなく虚空からひょっこり現れてるよねぇ.

Q^ ←これはどういう意味ですか?数学で。早めに!!今日の1時までに!お願いします!

^ ←これはどういう意味ですか?数学で。早めに!!今日の1時までに!お願いします!

Aベストアンサー


x^2=x²
x^3=x³
というように、~乗 を意味します


人気Q&Aランキング

価格.com 格安SIM 料金比較