多変量解析の主成分分析と因子分析の違いについて教えてください.どちらもほとんど同じ気がするのですがどのようにちがうのでしょうか?よろしくお願いいたします.

このQ&Aに関連する最新のQ&A

A 回答 (3件)

 ご質問にある通り、因子分析は「多変量解析」の一分野です。

因子分析の手法の一種に主成分分析(principal component analysis)があり、主因子法(principal factor method)とも呼びます。

 因子分析に共通しているのは、一つのサンプルから多数の変量を測定する、そういうデータをいっぱい集めて、相関係数という考え方を基本にして解析を行う。その際に、ある変量の変動が「他の変量の線形結合(一次式で表される関係)として表せるような系統的変動と、ランダムな変動とから成っている」という仮定を置く。そして共分散行列(もしくは相関行列)を作ってこれを線形変換する。
データの性格や分析の目的によって、手法を使い分けます。
主成分分析では、どの変量とも高い相関を持つ因子(変量の一次式で表される指標)を抽出するという考え方。
同じ因子分析でも、例えばバリマックス法(varimax method)は、変量のうちの幾つかと高い相関を持つ因子を探す。つまり変量を直接、幾つかのグループに分けるという考え方。従って、出てくる因子は主成分分析とは異なります。

 実際の所は、仰る通り、主成分分析だけでもほぼ事足りるでしょう。なぜなら実際のデータを使うと、意味のある直交成分(因子)が経験上高々4個程度得られ、従って3ないし4次元空間に変量を散布して表すことができる。ゆえにこれを図に描いて、変量の関係を見て取ったり、因子に名前を付ける(解釈を宛てる)ことは比較的容易だからです。
 何でせいぜい4個なのか。もともと「線形関係」という、大変荒っぽい仮定に基づいている。またデータの取り方も、直接物理的な量を測るというよりも、勝手に決めた基準で測った得点などを使う事が多い。例えば「テストの成績が何かの能力に正比例する」と仮定するのは乱暴な話。だからあまり精密な分析にはならないんでしょう。いっぱいあるデータにどういう関係が潜んでいるか見当を付ける道具、と捉えるのが宜しいかと思われます。(どんな基準を作ってどう分析するか、は「多次元尺度構成法」とか「数量化理論」などと呼ばれる分野ですね。)多変量の関係を理論的モデルで記述出来ていて、その予想に基づいてきちんと測れる量を相手にし、あるいは莫大なサンプル数で測定を行う場合には、理論に含まれるパラメータの最尤値を決めたり、理論的予想と実測との間の統計的検定を行うという事が問題であって、因子分析には出番がありません。
 だから極端な言い方をすれば、因子分析は「わけの分からん、或いは品質の悪いデータを相手にする道具。」

 因子分析ほどあらっぽくはなく、しかしモデルはいい加減、という中間的な手法もあります。たとえば線形因果ネットワーク(causal network)では、直感なり観察なり部分的なデータ分析なりに基づいて、複数の変量の間に線形関係を仮定してモデル化します。すると、「直接に線形関係で結ばれない変量同士の関係」は一般に整数次の多項式で表されるようになります。この文脈から言えば、階層型ニューラルネットワーク(neural network)も、主観的にモデルを与えずに、データから自発的にモデルを構成させようというもので、変量の線形結合にいい加減な非線形変換を施した物を出力とする、一つの多変量解析法とも見なせます。

話がだいぶ脱線したようです。
    • good
    • 2

主成分分析は、対象となるデータをより良く表す成分を抽出します。



因子分析は、対象となるデータをより良く表す因子を求めます。
因子は、対象データの成分の式になります。

例えば、学校の成績のデータを元にして、議員に向いている人を表す指標が欲しい、とします。

その場合、主成分分析では、国語と社会の成績とか、データのどれが指標として良さそうだ、と
言う結果が出るのに対して、因子分析では、議員向きの指標=国語の成績×2.5+社会の成績×1.2-算数の成績、と
言うようにデータを元にした新しい指標が求まります。

どちらの手法も、少ないがデータをより良く表す指標を得るための手法です。
    • good
    • 0

ダイレクトな回答ではありませんが、以下の参考URLサイトは参考になりますでしょうか?


「多変量解析」

ご参考まで。

参考URL:http://www.kaneko-lab.org/mva/
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q単変量解析から多変量解析時の因子の絞り込み

統計に関して全くの素人です。
教えていただきたい点は、ある病気の予後に関して関係があると予想した因子A,B,C,D,E,Fに関して単変量解析をしたら、A,B,Cが有意と考えられた場合、次に多変量解析を行う場合は、A,B,C,D,E,Fのすべての因子で解析して判断すべきでしょうか?それとも関連がありそうなA,B,Cによるモデルで解析するべきでしょうか?
また、一般に単変量解析で関連がなかった因子が多変量解析では有意となることはないのでしょうか?
以上よろしくお願いします。

Aベストアンサー

>効果判定を
相関分析と回帰分析を明確に区別している教科書を見かけませんが、私は区別するべきと考えています。
 すなわち、相関は因果関係の一条件を満たすに過ぎません。因果関係にはp値が必要ですが、p値はデータ数を増やせば有意になりやすいことは明らかです。
 効果判定は、モデルから予測に相当するので、予測が当たればよい。予測は、重回帰式から推定値を計算できるので、推定値が当てはまるような重回帰式が必要になります。それには、重相関係数の絶対値がが1.000に最も近い式をモデルを選びます。
 ただし、これはA、B、C・・・の因子(回帰分析では、説明変数の用語の方が紛れが無い)を増やせば、1.000に近づきます。ですから、その説明変数をいれても重相関係数が大して改善されなければ、解釈を簡略化するために省きますが。
 説明変数は、生のデータではなく、対数などに変換して回帰式に入れた方が良い式になる場合もあります。私の経験では、所得など社会と関わるものは、対数に変換しています。
 
 私が相関分析を始めたのは、平均寿命の研究でした。一人あたりのGNPと平均寿命には、強い正の相関が認められました。『命は、神様か仏様が決める』と漠然と考えていたので、所得すなわち金によって寿命が決まることを説明できるようになるまで数年かかりました。
 以前カナダの研究者が「ホワイトカラーは、ブルーカラーより、がん患者の予後が良いが、理由は分からない」と話され「所得の差では」と質問すると考えこんでおられました。

>効果判定を
相関分析と回帰分析を明確に区別している教科書を見かけませんが、私は区別するべきと考えています。
 すなわち、相関は因果関係の一条件を満たすに過ぎません。因果関係にはp値が必要ですが、p値はデータ数を増やせば有意になりやすいことは明らかです。
 効果判定は、モデルから予測に相当するので、予測が当たればよい。予測は、重回帰式から推定値を計算できるので、推定値が当てはまるような重回帰式が必要になります。それには、重相関係数の絶対値がが1.000に最も近い式をモデルを選びま...続きを読む

Q主成分分析で燃費を解析したい

主成分分析を用いて,燃費に影響を与える項目は何かを測ろうと考えています。

燃費について調べるために自動車のカタログデータを使おうと思っています。
http://autoc-one.jp/catalog/TO79G1012S.html

自動車の知識がないので,データを収集するに当たって疑問に感じていることは,
・自動車のカテゴリは分けるべきか
 軽自動車,セダン,ミニバンなど

・自動車1台をとってもグレードがいくつかあるがどうするべきか
 例)プリウス
  S スタンダードパッケージ
  S 
  S ツーリングセレクション
  G
  G ツーリングセレクション
  G ツーリングセレクション レザーパッケージ

・スペックからどの項目を選ぶか
全部を各変数として主成分分析するのは,ちょっとつらいのでいくつかにしぼって
その中で主成分分析しようと思いますが,どれを選ぶべきでしょうか?
個人的には,
 ・10-15モード燃費(km/l)
 ・ミッション
 ・車両重量(kg)
 ・総排気量(cc)
 ・燃料タンク容量(リットル)
 ・最高出力/回転数(ps/rpm)
 ・最大トルク/回転数(kg-m/rpm)
を使用しようと考えています。

アドバイス,回答お願いします。

主成分分析を用いて,燃費に影響を与える項目は何かを測ろうと考えています。

燃費について調べるために自動車のカタログデータを使おうと思っています。
http://autoc-one.jp/catalog/TO79G1012S.html

自動車の知識がないので,データを収集するに当たって疑問に感じていることは,
・自動車のカテゴリは分けるべきか
 軽自動車,セダン,ミニバンなど

・自動車1台をとってもグレードがいくつかあるがどうするべきか
 例)プリウス
  S スタンダードパッケージ
  S 
  S ツーリングセレ...続きを読む

Aベストアンサー

実際の燃費を劇的に悪くするのは
なんと言ってもダントツで
『加速時増量補正』
次には
『低水温時増量補正』
でしょう。

ほかには
高水温時増量補正
点火のリタード側補正
等々枚挙に暇がありません。

実は排気量はほとんど燃費には関係有りません。
排気量の多い車には
色々と上等で便利な装備が多く付いていて
排気量の割には重くなっているので
少し燃費が悪くなっています。

逆に
車重の割に排気量小さい軽四輪の実際の燃費は悪いです。

カタログをもって燃費を考察するのは
全く無意味で間違いだと思います。

Qspss ロジスティック解析と単変量解析について

SPSSを使用してロジスティック解析をしています。
教員から、単変量解析もするようにと言われました。
独立変数を1つにしてロジスティック解析を行うと、
この結果は得られるのでしょうか。
それともカイ二乗検定をするもの?と1人悩んでいます。
お手数をお掛けしますが、教えて下さい。

Aベストアンサー

カイ二乗検定のところに、相対リスク比があると思うので、オッズ比を出すのです。

単変量解析のオッズ比とその95%信頼区間を出した後、ロジスティック回帰で多変量解析するのです。ロジスティック回帰では、調整ずみオッズ比(とその95%CI)が出ますね。

Q3変量のデータから,2変量の線形関係を抽出する方法について

私は工学系の大学院生で,研究上,統計を活用したい場面に出会いました。しかし,私の知識では有効な方法が見つからないので,問題を一般化して質問させて頂きたいと思います。よろしくお願い致します。

まず,変量a, b, cに関する,ある数のデータが手元にあります。イメージとしては,次のような感じです。
a, b, c
145, 77, 36
98, 86, 23
121, 64, 52
…, …, …

理論的には,aが一定の場合,bとcには線形関係があり,その傾きαがaに依存せず一定あることが分かっています。目標は,手元にあるデータからこのαを推定することです。ただし,データは現実のものなので誤差を含み,aが全く等しい2つの要素は存在しません。

このような問題に適用できる,統計的手法はありますでしょうか?

確認のため,上記の変数間の関係を式で書くと,実数a,b,c,αおよび実関数β(a)について,
c = α×b + β(a)
となります。

これまでに試みた方法は,aがほぼ等しい要素を集めてきて,bとcの単回帰分析を行うというものです。実際にaがほぼ等しい要素を集めれば,bとcの間に一見良さそうな相関が得られました。しかし,「ほぼ等しい」の判断は感覚的なもので,数学的な裏づけがありません。従ってこの方法は客観的とは言えないと思います。

以上,よろしくお願い申し上げます。

私は工学系の大学院生で,研究上,統計を活用したい場面に出会いました。しかし,私の知識では有効な方法が見つからないので,問題を一般化して質問させて頂きたいと思います。よろしくお願い致します。

まず,変量a, b, cに関する,ある数のデータが手元にあります。イメージとしては,次のような感じです。
a, b, c
145, 77, 36
98, 86, 23
121, 64, 52
…, …, …

理論的には,aが一定の場合,bとcには線形関係があり,その傾きαがaに依存せず一定あることが分かっています。目標...続きを読む

Aベストアンサー

>c = α×b + β×a + γ
>と線形においてみて、多重回帰してみるのかな。
これ、実は、あながち的外れでもないかもしれませんね。
もし、本当に
c = α×b + β(a)
の関係があるなら、上の回帰式ででてくる係数αは、下の関係式のαと等しくなるはずです。

Q相関分析と回帰分析ではどのように違うのでしょうか?

相関分析と回帰分析ではどのように違うのでしょうか?

Aベストアンサー

相関では,2つの変数の関係を分析します。
回帰では,1つの変数を別の(ひとつあるいは複数の)変数で説明できるような関係を見つけます。

なお,相関関係があってもそれは因果関係があることを意味しません。2つの変数が独立ではないということだけです。
擬相関というのは相関関係があるのに因果関係がない場合のことです。

回帰モデルは適切につくらねばなりません。適切なモデルであるというのは,説明変数によって
株価などを回帰式で予想した場合でも地獄を見るのは,回帰式が適切ではないか,回帰式の適用できる範囲を超えて適用しようとしているのです。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング

おすすめ情報