多変量ロジスティック回帰分析と独立変数

解決済

質問者：blue_76
質問日時：2009/12/14 16:01
回答数：1件

ご質問があります。よろしければ、ご回答下さるとうれしいです。多変量ロジスティック回帰分析をしています。

従属変数；生死（あり、なしの２区分変数）
独立変数；年齢（連続変数）
　　　　　性別（男性、女性の2区分変数）
　　　　　高脂血症や糖尿病など（あり、なしの２区分変数）
　　　　　病気の程度（ステージ0から5など　0-2と3-5に2区分）
　　　　　血圧値　→質問はここです。
　　　　　
多変量ロジスティック回帰分析の場合、独立変数は連続変数・２区分変数は問題なく投入できると思います。また、順序変数の場合、ステージ0-2とステージ3-5と２区分変数として独立変数扱いになる場合もあると思います。

質問の内容です。
高血圧変数を(1)あり・なしの2区分変数、(2)血圧値そのもので連続変数、と扱うのではなくて、以下のような設定はどうでしょうか？　正常血圧をmean±SDと設定して、対象者の血圧と比較。

　　　血圧値＜２SD　スコア0
　2SD<血圧値＜3SD　スコア1
　3SD<血圧値＜4SD　スコア2
　4SD<血圧値＜5SD　スコア3
　5SD<血圧値　　　　スコア4

　年齢があがると血圧もやや上がるため、例えば、正常者の血圧と比較するためにこのようなカテゴリー化をすると、このスコア0-4は連続変数でしょうか？　順序変数でしょうか？

連続変数は、１単位あたりの変化がスケール全体にわたって数量的に等しい変数と、定義されているようです。スコア化すると連続/順序変数どちらになるか確認させていただきたいと思います。

よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

ベストアンサー優先
最新から表示
回答順に表示

No.1ベストアンサー

回答者： backs
回答日時：2009/12/15 00:11

これは順序尺度でしょうね。

> 血圧値そのもので連続変数、と扱うのではなくて、以下のような設定はどうでしょうか？

わざわざ尺度水準を落とす理由が私には分からないのですが、、、　連続型として得られているのにカテゴリカル型に変換することに何か特別な意味（考え）があるということでしょうか？

基本的にカテゴリカル型変数の解釈は難しくなるので、なるたけ連続型として使えるものはそれで使う。そもそも、あまりカテゴリカル型変数を1つのモデルに組み込まない。これが原則ですね(^_^;)

この回答への補足

ありがとうございます。
純粋な統計学的見地からしたら、たしかに連続変数が尺度としては最もよいと思うのです。
血圧は年齢が上がるにつれて緩やかな上昇曲線をたどります。
たとえば、血圧150/80mmHgは、30歳男性なら高いですが、85歳男性なら標準分布（mean±SD）内におさまっているかもしれません。年齢に比して、血圧値が基準値内（有意な上昇なし　→　高血圧なし）としてよいか、基準値より上（有意な上昇あり　→　高血圧あり）としてよいか、迷った次第です。
そもそも、高血圧の定義を（１）年齢を問わず、140/80mmHg以上と定義、（２）血圧値＞mean+2SD以上と定義するか、によって変わってくるかもしれませんね。
言いたいことがうまく整理できませんが、定義の問題と独立変数としては連続変数がベターということでしょうか。
ご回答いただき、ありがとうございます。

補足日時：2009/12/15 11:33

通報する