
例えば以下のようなデータがあります。
身長 体重 数学の点数 ......他
(質的なものと量的なものがまざった状態)
集団
A
B
C
.
.
このように、項目別の単位がばらばらのもので多変量解析する時、以前はずっと主成分分析を使っていました。
でも、このように質的なデータが入る場合は、数量化3類の方がいいのかな、と思いました。
ただ、数量化は01データのようなものを扱うときのみ有効なのかな、とも思い、結局どちらを使えばよいか迷っております。
アドバイスを宜しくお願い致します。
No.3ベストアンサー
- 回答日時:
主成分分析にせよ、数量化理論I類~IV類にせよ、線形回帰分析のバリエーションに過ぎませんから、まあ似たようなものではあります。
主成分分析は、線形数学の極値問題として客観的に表せます。つまり、式だけで端的に表現できる。
これに対して、数量化理論I類~IV類は、理論というより手法の名称です。生のデータを無理矢理数値化してから分析する、というのが普通に行われ、その無理矢理数値化する流儀まで含んだ手法である。でも、どう無理矢理数値化するか、についてどうもはっきりした決まりや理論的根拠がある訳ではないようで、まあ、「多少イーカゲンであろうととにかく結論を出すことが重要なんだ」という現場の意思決定の要求に応じたものと言えます。
質問者は先刻ご承知に決まってますが、主成分分析で出てくるのは、データのばらつきを最もうまく説明するようないくつかの軸(説明への寄与率が高い順に)、というものです。ご質問のように使うデータに「定性的な項目」があっても、(数量化理論の精神に倣えば、)定性的な項目が得点として表現できていさえすれば、必ずしも連続値でなくてもかまいません。1か0か、あるいは5段階、なんてのでも大抵使えます。大小関係がはっきりしている得点であれば良い。と、そういう立場を取ることができます。
これに対して、それじゃ確率モデルとしての厳密性がどうたら、という反論もあり得ますが、元々線形と仮定している事自体が危ういのですし、あまりうるさい事を言ってもしょうがないじゃん、でごまかす訳です。
数量化理論III類は、「いくつかの種類に分類してあるが、それらの大小関係については分からない」という種類の「定性的データ」を扱い、2元頻度表からランキングを作り出します。
例えば、ぐー、ちょき、ぱーについて、5人の人a,b,c,d,eがどれをよく出すかを調べた、なんてデータをもとにして、ぐー、ちょき、ぱーはどういう順番にランキングできるか、そしてa,b,c,d,eはどういう順番にランキングできるか、を算出します。ただしランキングが何を表しているかは不明です。2元頻度表をデータだと思って主成分分析をやり、出てくる軸をランキングの軸として利用するのと同じことです。(主成分分析の軸も、その意味は、要するに不明ですからね。)
いやそういうエタイの知れない軸や尺度なんか眺めたいのではなくて、もっと直裁に「実測するのにコストが掛かるようなある項目Tの値を、コストのかからない他の項目A,B,Cの測定値の線形結合で推定したい」という場合には、T,A,B,Cを測定したサンプルを集めて数量化理論I類またはII類が利用できるでしょう。このとき、A,B,Cは必ずしも連続値でなくてもかまいません。Tが連続値の場合には数量化理論I類、離散値の場合には数量化理論II類が該当します。で、得られたモデル(回帰式)を、以後、A,B,Cだけ測定してTを推定するのに利用します。(回帰分析としての、一番真っ当な使い方、という気がします。)
ところで、主成分分析で得られた軸のうち、寄与率(固有値)が上位の1~3つぐらいの軸だけを使って他は無視すると、1~3次元空間中に散布図が描けるから、これを眺めてどうこう感想を言う、というような使い方も、しばしばやります。数量化理論IV類の場合は、共分散行列を作る代わりに、ともかくサンプル相互の「類似度行列」をイーカゲンに数値化する。そして、あとは主成分分析と同じように回転して散布図を作り、これを眺めてどうこう言う。
「定性的データを無理矢理数値化して、それに基づいて計算した共分散行列を使うぐらいなら、共分散行列そのものをイーカゲンに作ったっていいじゃないか」という発想と思えば良さそうです。
No.2
- 回答日時:
この質問の内容だけですと、答えにくいのですが、わかる範囲で簡単に。
。。#1さんも言ってますように、どんなデータで何を調べたいかが分からないと、なんともいえません。
例えばということで、「身長 体重 数学の点数・・・」という項目を挙げていますが、これらはどれも量的データとして扱えます。単位やスケールが異なっていても標準化を行えば比較することも出来ます。
しかし、これは例えとしてあげていると思いますので、実際は質的データもあるのでしょう。
通常は、質的データか量的データのどちらかにしなければなりませんから、どちらかを直せるほうにしなければなりません。そして、そのデータをどの種類の多変量解析で行えばよいかは、実際にデータを持っている人にしかわかりません。(データを公開すれば別ですが。でもやめたほうがいいかな^^;)
次に、データの分析で既に主成分分析(または数量化第3類)を選んでいますから、調べたい目的は、総合的な評価を求めたい、ということですね?重回帰分析(または数量化第1類)、判別分析(または数量化第2類)ではなく。
>このように、項目別の単位がばらばらのもので多変量解析する時、以前はずっと主成分分析を使っていました。
とありますが、最初にも言いましたように単位がばらばらだから主成分分析というわけではありません。
多変量解析で何を知りたいかで決めます。そして、それを質的結果を知りたいのか、量的データが知りたいのか、あるいは、そもそも質的または量的に解析できるデータなのかで決めればよいと思います。
長々とすみません。
有り難うございます。再質問のような形になって申し訳ないのですが、おこたえ頂けませんでしょうか?
私の書き方が悪かったと思いますので、ご不明な点を整理したいと思います。
●データは量的なものとたとえばタバコを毎日10本以上吸うを5にして、一週間に一度吸うを3にして、全く吸わないを1にするなど、こういう項目がいくつかあります。
●そもそもこういう例の場合は質的データとして解析してはいけないのでしょうか?
●調べたい目的は寄与率が高い項目に何か関係があるのか、など、総合的な評価を行いたいです。
●主成分分析は質的なものと量的なものがごちゃごちゃになっている時に使うものだと思っていました。それから、数量化第3類と大きく違う点はどこなのでしょうか?
以上、全部でなくても結構ですので、宜しくお願い致します。
No.1
- 回答日時:
数量化理論のどれを使えばよいか?という観点は、どんな類のデータなのか?に依存しますので、なんとも言えないのでは?
数量化3類で重回帰分析を行った結果と主成分分析の結果との間に類似性があるということは、どこかで読んだことがありますが...
この場合、質的なものが何段階かに数値化されているようですから、エイヤッと主成分分析でいいんじゃないかと思いますが、それもデータの何を調べたいのか?によりますので、一概には言えないです。
はい。その通りだと思いますので、一応例として体重や身長その他という例をあげさせてもらいました。
書き方があいまいすぎましたでしょうか。
つまり、質的なものと量的なものをごちゃごちゃにしたものを解析したいのです。
主成分分析については詳しい本がいくつかあって勉強もしたのですが、数量化第3類について書かれた本が見つからず、よくわからないままなのです。
どなたかご教示頂けないでしょうか?
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 どの統計を使えばいいのか教えてください(EZ-Rを使用) 5 2022/10/11 13:28
- 一戸建て アスベスト物件解体に必要なこと 2 2023/07/12 07:10
- 統計学 一変量分析(度数分布表)は、結果をもとに特に検定せずに断定してもよいですか? 7 2022/11/24 23:20
- 統計学 ダミー変数の因子分析について質問です 1 2022/03/27 14:31
- 宇宙科学・天文学・天気 AIが答えた方程式 1 2023/02/20 00:12
- Excel(エクセル) SUMIFSと日付変換 10 2023/04/16 15:38
- 生物学 【生命科学】ヒトが1日に消費するATP量?(精度を変えて再計算) 3 2022/10/07 18:48
- その他(プログラミング・Web制作) 大学のゼミのレポートがムカつきます。 R言語というデータ分析に特化したプログラム言語を用いた授業の課 1 2023/06/29 00:50
- 物理学 物理工学系学科-調査課題 2 2022/04/26 18:57
- Y!mobile(ワイモバイル) Ymobile!データ増量オプション(550円)1年無料経過後 解約・契約繰り返して使えますか? 5 2023/05/11 09:11
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
この問題、解き方は理解したの...
-
決定性有限オートマトン
-
高3 数学
-
コピーしたい本のページ数
-
【問題】 f(x) = x^2 - 4a x + ...
-
至急 a²b+a-b-1 の因数分解...
-
数学得意な人程宝くじ買わない...
-
1/(s(s^2+2s+5))を部分分数分解...
-
60人で30000個持ってるのと200...
-
https://youtube.com/shorts/Kw...
-
3つの無理数a,b,cでf(x)=x^3+ax...
-
limn→∞、10∧n=0?
-
三角形の面積は、底辺✕高さ÷2 ...
-
xy平面上の点P(x,y)に対し,点Q(...
-
数学者は夜行性か?
-
この両辺の2Rを払う手順を教え...
-
2980円で買った「15個のリンゴ...
-
この180➗204の計算の仕方教えて...
-
写真は多変数関数についての「...
-
加法定理の公式
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
N/Rとは何の略
-
統計のデータ割付について。
-
eKYC(Povo、メルカリ、ヤフオク...
-
J-STATS OPTA(オプタ)のデー...
-
データを漢字に直すと何になる...
-
正規化についてお聞きしたいで...
-
この場合中央値は56になるので...
-
電話帳登録番号からの検索
-
過去からの「放射線量」の推移...
-
データ容量が重いファイルについて
-
SASでカイ二乗値を求めるには
-
FDAのデータの入手方法
-
PDFデータのOCR再付与方法について
-
MDの入るデスクトップPC
-
統計学について
-
主成分分析と数量化第3類、ど...
-
日本人男性(20〜40代)の平均身...
-
標本数が50以上のデータが見...
-
統計解析について
-
若者(18歳から30歳)の多い都市
おすすめ情報