プロが教えるわが家の防犯対策術!

いまRでk近傍法により解析したいデータセットがあるのですが、その変数の中に一つだけ質的な変数があります。
これを量的な変数に変えたいのですが、どうしたらかえられますか。

例えば、温度が熱い、普通、冷たいの三段階で、これに、体積、長さ、重さ、クラスが一緒になっているデータです。(例えばなので架空のデータです。)

どなたかよろしくお願いします。

「質的データを量的データに変換」の質問画像

A 回答 (2件)

企業でSQCを推進する立場の者です。

博士(工学)です。

数量化法について。

熱い:3
普通:2
冷たい:1

質的変数には、この例のような「順序尺度」と「名義尺度」があります。名義尺度は「クラスA」「クラスB」のような変数です。見分け方は、それぞれの項目間の「差」です。熱いと冷たいは普通と比較して差が大きいですので順序尺度となります。名義尺度は、項目が増えても各項間の差は同じです。

順序尺度は、順序どおりに、1,2,3として変換すればいいです。
名義尺度は、「男」「女」のような2値のときは、1,2としますが、
「戸建」「マンション」「賃貸」のように3値以上になったら、その列は消し、
「戸建」0,1
「マンション」0,1
「賃貸」0,1
のように新たな変数(列)を作り、該当しているところに1を立てます。これを数量化法と言います。

古典的な方法では、この状態で線形制約(各列の和が1)が生じて、逆行列が求まらなくなるのでどれか一つの変数を隠しますが、データサイエンスでは、「正則化」の技術を使えば、問題無く解析できますので、変数隠しは行いません。

ところで、最後の列の「クラス」は、分類のタグですよね。これはこのままで結構です。たとえこれが3値以上になってもそのままです。

RのkーNNって、3値以上の分類ってできましたっけ。できなければ、「A-B」「A-C」「A-D」というように、順番にカテゴリのペアを選びながら、それぞれ識別境界を求めていきます。

使用する距離は、質的変数が1つだけなのでユークリッドで良いと思います。これが多くなるとマンハッタンかキャンベラを使います。

あと、追加ですが、#1さんの言っていることは「分類器」ではないですよね。
それから、質的変数の相関は、量的変数の相関とは違いますので、言ってることが変です。質的変数は、ポリコリック相関とか、2値vs2値のときは、テトラコリック相関っていうのを用います。量的質的のときはバイシリアル相関ってやつになります。
    • good
    • 1
この回答へのお礼

助かりました

丁寧な回答ありがとうございます!!
これからにも役立つ説明でとてもわかりやすくて、助かりました!!

お礼日時:2019/01/29 15:52

これだけ項目が多いのですから最も相関の強い項目(群)をまとめてそれらの函数を作り、相関はその値を使います。

    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!