多変量解析の主成分分析と因子分析の違いについて教えてください.どちらもほとんど同じ気がするのですがどのようにちがうのでしょうか?よろしくお願いいたします.

このQ&Aに関連する最新のQ&A

A 回答 (3件)

 ご質問にある通り、因子分析は「多変量解析」の一分野です。

因子分析の手法の一種に主成分分析(principal component analysis)があり、主因子法(principal factor method)とも呼びます。

 因子分析に共通しているのは、一つのサンプルから多数の変量を測定する、そういうデータをいっぱい集めて、相関係数という考え方を基本にして解析を行う。その際に、ある変量の変動が「他の変量の線形結合(一次式で表される関係)として表せるような系統的変動と、ランダムな変動とから成っている」という仮定を置く。そして共分散行列(もしくは相関行列)を作ってこれを線形変換する。
データの性格や分析の目的によって、手法を使い分けます。
主成分分析では、どの変量とも高い相関を持つ因子(変量の一次式で表される指標)を抽出するという考え方。
同じ因子分析でも、例えばバリマックス法(varimax method)は、変量のうちの幾つかと高い相関を持つ因子を探す。つまり変量を直接、幾つかのグループに分けるという考え方。従って、出てくる因子は主成分分析とは異なります。

 実際の所は、仰る通り、主成分分析だけでもほぼ事足りるでしょう。なぜなら実際のデータを使うと、意味のある直交成分(因子)が経験上高々4個程度得られ、従って3ないし4次元空間に変量を散布して表すことができる。ゆえにこれを図に描いて、変量の関係を見て取ったり、因子に名前を付ける(解釈を宛てる)ことは比較的容易だからです。
 何でせいぜい4個なのか。もともと「線形関係」という、大変荒っぽい仮定に基づいている。またデータの取り方も、直接物理的な量を測るというよりも、勝手に決めた基準で測った得点などを使う事が多い。例えば「テストの成績が何かの能力に正比例する」と仮定するのは乱暴な話。だからあまり精密な分析にはならないんでしょう。いっぱいあるデータにどういう関係が潜んでいるか見当を付ける道具、と捉えるのが宜しいかと思われます。(どんな基準を作ってどう分析するか、は「多次元尺度構成法」とか「数量化理論」などと呼ばれる分野ですね。)多変量の関係を理論的モデルで記述出来ていて、その予想に基づいてきちんと測れる量を相手にし、あるいは莫大なサンプル数で測定を行う場合には、理論に含まれるパラメータの最尤値を決めたり、理論的予想と実測との間の統計的検定を行うという事が問題であって、因子分析には出番がありません。
 だから極端な言い方をすれば、因子分析は「わけの分からん、或いは品質の悪いデータを相手にする道具。」

 因子分析ほどあらっぽくはなく、しかしモデルはいい加減、という中間的な手法もあります。たとえば線形因果ネットワーク(causal network)では、直感なり観察なり部分的なデータ分析なりに基づいて、複数の変量の間に線形関係を仮定してモデル化します。すると、「直接に線形関係で結ばれない変量同士の関係」は一般に整数次の多項式で表されるようになります。この文脈から言えば、階層型ニューラルネットワーク(neural network)も、主観的にモデルを与えずに、データから自発的にモデルを構成させようというもので、変量の線形結合にいい加減な非線形変換を施した物を出力とする、一つの多変量解析法とも見なせます。

話がだいぶ脱線したようです。
    • good
    • 2

主成分分析は、対象となるデータをより良く表す成分を抽出します。



因子分析は、対象となるデータをより良く表す因子を求めます。
因子は、対象データの成分の式になります。

例えば、学校の成績のデータを元にして、議員に向いている人を表す指標が欲しい、とします。

その場合、主成分分析では、国語と社会の成績とか、データのどれが指標として良さそうだ、と
言う結果が出るのに対して、因子分析では、議員向きの指標=国語の成績×2.5+社会の成績×1.2-算数の成績、と
言うようにデータを元にした新しい指標が求まります。

どちらの手法も、少ないがデータをより良く表す指標を得るための手法です。
    • good
    • 2

ダイレクトな回答ではありませんが、以下の参考URLサイトは参考になりますでしょうか?


「多変量解析」

ご参考まで。

参考URL:http://www.kaneko-lab.org/mva/
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q主成分分析でのばらつき

主成分分析において、因子のばらつきが多いところを見つけるには出力結果の何を見ればよいのでしょうか?

例えば、月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析すると、
結果として、固有値、寄与率、固有ベクトル(各月に対して)がでますよね?ここで、全国の都道府県間の価格のばらつきが多い月は何月か見るためには、主成分分析の結果のどこに着目して解釈すればよいのでしょうか?

よろしくお願いします。

Aベストアンサー

そういう目的ならそもそも主成分分析をする必要がありません。
月ごとに都道府県別の価格の分散をとればよいです。

Q単変量解析から多変量解析時の因子の絞り込み

統計に関して全くの素人です。
教えていただきたい点は、ある病気の予後に関して関係があると予想した因子A,B,C,D,E,Fに関して単変量解析をしたら、A,B,Cが有意と考えられた場合、次に多変量解析を行う場合は、A,B,C,D,E,Fのすべての因子で解析して判断すべきでしょうか?それとも関連がありそうなA,B,Cによるモデルで解析するべきでしょうか?
また、一般に単変量解析で関連がなかった因子が多変量解析では有意となることはないのでしょうか?
以上よろしくお願いします。

Aベストアンサー

>効果判定を
相関分析と回帰分析を明確に区別している教科書を見かけませんが、私は区別するべきと考えています。
 すなわち、相関は因果関係の一条件を満たすに過ぎません。因果関係にはp値が必要ですが、p値はデータ数を増やせば有意になりやすいことは明らかです。
 効果判定は、モデルから予測に相当するので、予測が当たればよい。予測は、重回帰式から推定値を計算できるので、推定値が当てはまるような重回帰式が必要になります。それには、重相関係数の絶対値がが1.000に最も近い式をモデルを選びます。
 ただし、これはA、B、C・・・の因子(回帰分析では、説明変数の用語の方が紛れが無い)を増やせば、1.000に近づきます。ですから、その説明変数をいれても重相関係数が大して改善されなければ、解釈を簡略化するために省きますが。
 説明変数は、生のデータではなく、対数などに変換して回帰式に入れた方が良い式になる場合もあります。私の経験では、所得など社会と関わるものは、対数に変換しています。
 
 私が相関分析を始めたのは、平均寿命の研究でした。一人あたりのGNPと平均寿命には、強い正の相関が認められました。『命は、神様か仏様が決める』と漠然と考えていたので、所得すなわち金によって寿命が決まることを説明できるようになるまで数年かかりました。
 以前カナダの研究者が「ホワイトカラーは、ブルーカラーより、がん患者の予後が良いが、理由は分からない」と話され「所得の差では」と質問すると考えこんでおられました。

>効果判定を
相関分析と回帰分析を明確に区別している教科書を見かけませんが、私は区別するべきと考えています。
 すなわち、相関は因果関係の一条件を満たすに過ぎません。因果関係にはp値が必要ですが、p値はデータ数を増やせば有意になりやすいことは明らかです。
 効果判定は、モデルから予測に相当するので、予測が当たればよい。予測は、重回帰式から推定値を計算できるので、推定値が当てはまるような重回帰式が必要になります。それには、重相関係数の絶対値がが1.000に最も近い式をモデルを選びま...続きを読む

Q統計、主成分分析について

 すいません。
 勉強中の身なのですが、まだあまり理解度は低いと思われます。

 統計学の主成分分析なのですが、
 分析内容は
 「グループ毎のデータを用意し、そのデータからグループ毎の違いを導き出すことができるか。つまりデータ→グループ分けをして元のグループのようになるか。」
 で正しいでしょうか?
 
 例えば、プロ野球選手を
 身長、体重、握力、50m走タイム、遠投
 などのデータを入れ、
 を統計ソフトにかけ、
 球団別にうまく分かれるか。

 というのは主成分分析ですよね…?

 また、上のような主成分分析を試行するのに
 考えられる例はどのようなものがあるでしょうか?
 データもあれば嬉しいのですが…。

Aベストアンサー

> 球団別にうまく分かれるか。

というのは、どちらかというと判別分析やクラスター分析のほうに近いのではないでしょうかね。

重回帰分析は理解できていますか?重回帰分析の場合は目的変数となる変数が「観測変数」であるのに対して、主成分分析では「潜在変数」であるわけです。つまり、架空の(分析者自身が仮定する)変数が目的変数であるというだけで、結果の解釈の仕方は重回帰分析とほぼ同じですね。

> グループ毎のデータを用意し、そのデータからグループ毎の違いを導き出すことができるか。つまりデータ→グループ分けをして元のグループのようになるか。

よく分かりません(^_^;)

> 主成分分析を試行するのに考えられる例はどのようなものがあるでしょうか?

データとその解析例が載っている参考書はたくさんあります。「多変量解析」の名の付く本をいくつか読んでみては(すでに読んでいるのでしょうが、本にもその人との相性があるのでいくつか違うものを読んでみた方がよいということです)?

Q主成分分析で燃費を解析したい

主成分分析を用いて,燃費に影響を与える項目は何かを測ろうと考えています。

燃費について調べるために自動車のカタログデータを使おうと思っています。
http://autoc-one.jp/catalog/TO79G1012S.html

自動車の知識がないので,データを収集するに当たって疑問に感じていることは,
・自動車のカテゴリは分けるべきか
 軽自動車,セダン,ミニバンなど

・自動車1台をとってもグレードがいくつかあるがどうするべきか
 例)プリウス
  S スタンダードパッケージ
  S 
  S ツーリングセレクション
  G
  G ツーリングセレクション
  G ツーリングセレクション レザーパッケージ

・スペックからどの項目を選ぶか
全部を各変数として主成分分析するのは,ちょっとつらいのでいくつかにしぼって
その中で主成分分析しようと思いますが,どれを選ぶべきでしょうか?
個人的には,
 ・10-15モード燃費(km/l)
 ・ミッション
 ・車両重量(kg)
 ・総排気量(cc)
 ・燃料タンク容量(リットル)
 ・最高出力/回転数(ps/rpm)
 ・最大トルク/回転数(kg-m/rpm)
を使用しようと考えています。

アドバイス,回答お願いします。

主成分分析を用いて,燃費に影響を与える項目は何かを測ろうと考えています。

燃費について調べるために自動車のカタログデータを使おうと思っています。
http://autoc-one.jp/catalog/TO79G1012S.html

自動車の知識がないので,データを収集するに当たって疑問に感じていることは,
・自動車のカテゴリは分けるべきか
 軽自動車,セダン,ミニバンなど

・自動車1台をとってもグレードがいくつかあるがどうするべきか
 例)プリウス
  S スタンダードパッケージ
  S 
  S ツーリングセレ...続きを読む

Aベストアンサー

実際の燃費を劇的に悪くするのは
なんと言ってもダントツで
『加速時増量補正』
次には
『低水温時増量補正』
でしょう。

ほかには
高水温時増量補正
点火のリタード側補正
等々枚挙に暇がありません。

実は排気量はほとんど燃費には関係有りません。
排気量の多い車には
色々と上等で便利な装備が多く付いていて
排気量の割には重くなっているので
少し燃費が悪くなっています。

逆に
車重の割に排気量小さい軽四輪の実際の燃費は悪いです。

カタログをもって燃費を考察するのは
全く無意味で間違いだと思います。

Q主成分分析について

主成分分析について

現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。

例をあげて説明させていただくと、
x1x2x3
8 9 4
2 5 7
8 5 6
3 5 4
7 4 9
4 3 4
3 6 8
6 8 2
5 4 5
6 7 6
このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。
またここから固有値もわかります。
しかしここからどうやって、主成分得点を求めればよいかわかりません。
どのように計算するのですか?よろしければご回答下さい。

Aベストアンサー

主成分得点には、分散共分散行列主成分分析と相関行列主成分分析の2種類がありますが、相関行列主成分分析の主成分得点でよろしいでしょうか?

まず、固有ベクトルを求めます。
仮に、以下のようになったとします。(A,B,C・・・は主成分の数値)

・・主成分1 主成分2
X1 A     D
X2 B     E
X3 C     F

これより、相関行列主成分分析の関係式は、

Z1=A・X1+B・X2+C・X3
Z2=D・X1+E・X2+F・X3

この式に、X1,X2、X3の値を入れて計算します。
このZ1、Z2が主成分得点です。

ちなみに、分散共分散行列主成分分析の場合は、ここまで同じで、
Z1,Z2の平均を求めて、Z1およびZ2からその平均を引いたものになります。

Qspss ロジスティック解析と単変量解析について

SPSSを使用してロジスティック解析をしています。
教員から、単変量解析もするようにと言われました。
独立変数を1つにしてロジスティック解析を行うと、
この結果は得られるのでしょうか。
それともカイ二乗検定をするもの?と1人悩んでいます。
お手数をお掛けしますが、教えて下さい。

Aベストアンサー

カイ二乗検定のところに、相対リスク比があると思うので、オッズ比を出すのです。

単変量解析のオッズ比とその95%信頼区間を出した後、ロジスティック回帰で多変量解析するのです。ロジスティック回帰では、調整ずみオッズ比(とその95%CI)が出ますね。

Q主成分分析について

街頭アンケートを行い統計学的に分析しようと思い、主成分分析を利用しようと考えています。しかし、少々難しいく、困っています。「主成分の決め方」みたいなコツを教えてくれると幸いです。

Aベストアンサー

主成分分析は、単に分散の大きな軸を取り出して、なるべくデータ間の差異を際立たせるようにするのが目的です。その際に、元のデータからの情報損失を少なくするようにしないと、元のデータを再現していないということになります。その情報損失の度合いを見るのが寄与率です。
No.2の方が回答されているように、大体80%あれば元の情報を損失なく表現できていると考えてよいでしょう。

その際の注意点は、全ての軸が同じ方向を向いているような場合は、第一主成分に意味がない可能性があります。これは、全体の大きさに関する軸だったりしてという可能性もあります。その場合は正規化等を行うことで除去することが出来ます。

また、主成分分析では、分散を大きくするように主成分を決めているので、当然外れ値には敏感です。マッピングをして明らかに外れている値があるようなら、それに引っ張られているだけなので、その点を除いてから再度主成分分析をするなどしたほうがよいです。


最終的な軸の解釈が出来ることも重要になりますが、この辺りは主観的な問題もはらむので、色々な角度からの考察が必要になります。

元のデータのデータ間の差異を際立たせることによりデータを見るという観点からは、実際のマッピングをみて、そこにあるグループ構造(クラスタ構造)が見られる稼動かで判断することも重要です。クラスタ構造が見られるなら、そのグループの特性を別に分析するなどです。

主成分分析は、単に分散の大きな軸を取り出して、なるべくデータ間の差異を際立たせるようにするのが目的です。その際に、元のデータからの情報損失を少なくするようにしないと、元のデータを再現していないということになります。その情報損失の度合いを見るのが寄与率です。
No.2の方が回答されているように、大体80%あれば元の情報を損失なく表現できていると考えてよいでしょう。

その際の注意点は、全ての軸が同じ方向を向いているような場合は、第一主成分に意味がない可能性があります。これは、全体の...続きを読む

Q3変量のデータから,2変量の線形関係を抽出する方法について

私は工学系の大学院生で,研究上,統計を活用したい場面に出会いました。しかし,私の知識では有効な方法が見つからないので,問題を一般化して質問させて頂きたいと思います。よろしくお願い致します。

まず,変量a, b, cに関する,ある数のデータが手元にあります。イメージとしては,次のような感じです。
a, b, c
145, 77, 36
98, 86, 23
121, 64, 52
…, …, …

理論的には,aが一定の場合,bとcには線形関係があり,その傾きαがaに依存せず一定あることが分かっています。目標は,手元にあるデータからこのαを推定することです。ただし,データは現実のものなので誤差を含み,aが全く等しい2つの要素は存在しません。

このような問題に適用できる,統計的手法はありますでしょうか?

確認のため,上記の変数間の関係を式で書くと,実数a,b,c,αおよび実関数β(a)について,
c = α×b + β(a)
となります。

これまでに試みた方法は,aがほぼ等しい要素を集めてきて,bとcの単回帰分析を行うというものです。実際にaがほぼ等しい要素を集めれば,bとcの間に一見良さそうな相関が得られました。しかし,「ほぼ等しい」の判断は感覚的なもので,数学的な裏づけがありません。従ってこの方法は客観的とは言えないと思います。

以上,よろしくお願い申し上げます。

私は工学系の大学院生で,研究上,統計を活用したい場面に出会いました。しかし,私の知識では有効な方法が見つからないので,問題を一般化して質問させて頂きたいと思います。よろしくお願い致します。

まず,変量a, b, cに関する,ある数のデータが手元にあります。イメージとしては,次のような感じです。
a, b, c
145, 77, 36
98, 86, 23
121, 64, 52
…, …, …

理論的には,aが一定の場合,bとcには線形関係があり,その傾きαがaに依存せず一定あることが分かっています。目標...続きを読む

Aベストアンサー

>c = α×b + β×a + γ
>と線形においてみて、多重回帰してみるのかな。
これ、実は、あながち的外れでもないかもしれませんね。
もし、本当に
c = α×b + β(a)
の関係があるなら、上の回帰式ででてくる係数αは、下の関係式のαと等しくなるはずです。

Q「主成分分析の結果から一次元構造が確認される」とは分かりやすく言うとど

「主成分分析の結果から一次元構造が確認される」とは分かりやすく言うとどういう意味なんでしょうか?

今扱っている論文に「主成分分析の結果から一次元構造が確認される」という言葉が何度か出てきます。
何となく研究の正当性を主張するのに使っているというのは分かるのですが、詳しい意味がよく分かりません。
結局一次元構造とは何なのでしょうか?
分かる方、教えてください><!

Aベストアンサー

私は数学を普段から使う専門家です。全体の文章を読まずにこれだけの文章では情報が少な過ぎて、正確な意味は分かりません。しかしながら、これだけの文章で想像出来ることは、以下の通りです。

普通、ある量(変数とかパラメーターと呼ばれる)を横軸に取って変化させるとそれに対してある量が変化するとき、その値を縦軸に取った平面内で、その図が大体一本の直線や曲線の上に乗っている場合に、それは一次元的構造を持つと言います。ところが、直線や曲線ではなく、平面的にぼーっと広がって分布してしまう場合、それは最早一次元的ではなく、2次元以上の多次元的構造を持つと言います。多分、主成分をそのようにある変数なりパラメーターを変えて図示してみたら、直線ないし曲線上に乗っているように分布していたということではないでしょうか。


具体的には例えば、ある集団の人間の身長を年齢を変数と考えて図示してみると、もし身長のその集団での平均値を画くと、年齢を大きくして行くと最初は右上がりに直線状に増えて行きますがそのうち成長が止まって平になって行く。従って全体の図は上に凸向きな一本の曲線を画くはずです。従って、この場合この図は一次元的構造を持っています。ところが、身長の平均値ではなくて、各々の人の身長をその集団に対して一枚の図の中に画くと、与えられた年齢で皆の身長は平均値の回りにばらつきがあるので、一本の曲線上には乗らず、その平均値の回りにぼーっと広がった図になります。この時には、その図は一次元的構造を持っていないと言います。

この説明は、果たしてお役に立っているでしょうか。

私は数学を普段から使う専門家です。全体の文章を読まずにこれだけの文章では情報が少な過ぎて、正確な意味は分かりません。しかしながら、これだけの文章で想像出来ることは、以下の通りです。

普通、ある量(変数とかパラメーターと呼ばれる)を横軸に取って変化させるとそれに対してある量が変化するとき、その値を縦軸に取った平面内で、その図が大体一本の直線や曲線の上に乗っている場合に、それは一次元的構造を持つと言います。ところが、直線や曲線ではなく、平面的にぼーっと広がって分布してしまう場...続きを読む

Q相関分析と回帰分析ではどのように違うのでしょうか?

相関分析と回帰分析ではどのように違うのでしょうか?

Aベストアンサー

相関では,2つの変数の関係を分析します。
回帰では,1つの変数を別の(ひとつあるいは複数の)変数で説明できるような関係を見つけます。

なお,相関関係があってもそれは因果関係があることを意味しません。2つの変数が独立ではないということだけです。
擬相関というのは相関関係があるのに因果関係がない場合のことです。

回帰モデルは適切につくらねばなりません。適切なモデルであるというのは,説明変数によって
株価などを回帰式で予想した場合でも地獄を見るのは,回帰式が適切ではないか,回帰式の適用できる範囲を超えて適用しようとしているのです。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング