今だけ人気マンガ100円レンタル特集♪

多変量解析を勉強しているものです。
主成分分析とコレスポンデンス分析(数量化3類)の違いは、元データが質的データか量的データかによると思いますが、実際はどのように使い分けられているのでしょうか?
主成分分析、因子分析は量的データが必要ですが、実際は、質的データ(1.非常に満足、2.満足・・・・と言ったデータ)が元データでも使われていると思います。そうなればコレスポンデンス分析は必要ないのでは?と思ったのですが・・。
申し訳ないですが、どなたか詳しい方宜しくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

主成分分析


 元データ:サンプル(例えば、人)×定量変数(例えば、身長、体重など、あるいは国語、数学の点数)
 標準化:元データを変量について、中心化するかz得点に変換します(標準化します)。
 変量間でスケールが著しく違うことがあるからです。
コレスポンデンス分析
 元データ:カテゴリ分類(例えば、20代男性、30代女性のような姓年代)×カテゴリ変数(例えば、よく利用するファーストフード店を{マクドナルド、吉野家、松屋、...}から選択)のクロス集計表(度数表)
 標準化:カテゴリ分類とカテゴリ変数の両方について、度数の標準化をします。
 カテゴリ分類間、カテゴリ変数間で度数が著しく異なることがあるからです。

上記の説明では分かりにくいとは思いますが、
 前提とする元データの性質が異なるために、標準化の仕方が違う
ということは憶えておいて下さい。

> 主成分分析、因子分析は量的データが必要ですが、実際は、質的データ(1.非常に満足、2.満足・・・・と言ったデータ)が元データでも使われている
というのは、元々質的データだったのを、非常に満足→2点、満足→1点などと得点化して、さらにその得点の平均値を求めて、主成分分析に入力するデータとして、量的データに変換しているということですね。
これをコレスポンデンス分析では、非常に満足が何人、満足が何人などとそれぞれのカテゴリの度数を集計したものを入力します。

上記のような説明でイメージが湧きますでしょうか?

また、一般に、コレスポンデンス分析と数量化III類は同じ、という説明をされますが、本当に厳密には少し違いがあります。
数量化III類では、前提としている元データは、
 サンプル(例えば、人)×カテゴリ変数(例えば、よく利用するファーストフード店を{マクドナルド、吉野家、松屋、...}から選択)の表(選択したものを1、選択されなかったものを0と数値化した表)
なのです。

正直、言葉だけでは説明が難しいです。
    • good
    • 0

>主成分分析とコレスポンデンス分析(数量化3類)の違いは、元データが質的データか量的データかによると思いますが、実際はどのように使い分けられているのでしょうか?



主成分分析の場合も、量的データをカテゴリカルデータに変換する場合もあるので、データの区別はあまり気にしていないですね。
コレスポンデンス分析は、行ポイントと列ポイントを同一平面上に配置して、関係が一目で分かるよさがあります。

一方、主成分分析(因子分析と似ていますが)は、情報の圧縮がメインですが、最近は因子分析を使用して、あまり主成分分析はしていないですね。
    • good
    • 1

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q主成分分析と数量化第3類、どちらを使うべきでしょうか?

例えば以下のようなデータがあります。
    身長 体重 数学の点数 ......他
      (質的なものと量的なものがまざった状態)
集団
A
B
C
.
.

このように、項目別の単位がばらばらのもので多変量解析する時、以前はずっと主成分分析を使っていました。
でも、このように質的なデータが入る場合は、数量化3類の方がいいのかな、と思いました。
ただ、数量化は01データのようなものを扱うときのみ有効なのかな、とも思い、結局どちらを使えばよいか迷っております。
アドバイスを宜しくお願い致します。

Aベストアンサー

主成分分析にせよ、数量化理論I類~IV類にせよ、線形回帰分析のバリエーションに過ぎませんから、まあ似たようなものではあります。

主成分分析は、線形数学の極値問題として客観的に表せます。つまり、式だけで端的に表現できる。
これに対して、数量化理論I類~IV類は、理論というより手法の名称です。生のデータを無理矢理数値化してから分析する、というのが普通に行われ、その無理矢理数値化する流儀まで含んだ手法である。でも、どう無理矢理数値化するか、についてどうもはっきりした決まりや理論的根拠がある訳ではないようで、まあ、「多少イーカゲンであろうととにかく結論を出すことが重要なんだ」という現場の意思決定の要求に応じたものと言えます。

質問者は先刻ご承知に決まってますが、主成分分析で出てくるのは、データのばらつきを最もうまく説明するようないくつかの軸(説明への寄与率が高い順に)、というものです。ご質問のように使うデータに「定性的な項目」があっても、(数量化理論の精神に倣えば、)定性的な項目が得点として表現できていさえすれば、必ずしも連続値でなくてもかまいません。1か0か、あるいは5段階、なんてのでも大抵使えます。大小関係がはっきりしている得点であれば良い。と、そういう立場を取ることができます。
 これに対して、それじゃ確率モデルとしての厳密性がどうたら、という反論もあり得ますが、元々線形と仮定している事自体が危ういのですし、あまりうるさい事を言ってもしょうがないじゃん、でごまかす訳です。

 数量化理論III類は、「いくつかの種類に分類してあるが、それらの大小関係については分からない」という種類の「定性的データ」を扱い、2元頻度表からランキングを作り出します。
 例えば、ぐー、ちょき、ぱーについて、5人の人a,b,c,d,eがどれをよく出すかを調べた、なんてデータをもとにして、ぐー、ちょき、ぱーはどういう順番にランキングできるか、そしてa,b,c,d,eはどういう順番にランキングできるか、を算出します。ただしランキングが何を表しているかは不明です。2元頻度表をデータだと思って主成分分析をやり、出てくる軸をランキングの軸として利用するのと同じことです。(主成分分析の軸も、その意味は、要するに不明ですからね。)

 いやそういうエタイの知れない軸や尺度なんか眺めたいのではなくて、もっと直裁に「実測するのにコストが掛かるようなある項目Tの値を、コストのかからない他の項目A,B,Cの測定値の線形結合で推定したい」という場合には、T,A,B,Cを測定したサンプルを集めて数量化理論I類またはII類が利用できるでしょう。このとき、A,B,Cは必ずしも連続値でなくてもかまいません。Tが連続値の場合には数量化理論I類、離散値の場合には数量化理論II類が該当します。で、得られたモデル(回帰式)を、以後、A,B,Cだけ測定してTを推定するのに利用します。(回帰分析としての、一番真っ当な使い方、という気がします。)

 ところで、主成分分析で得られた軸のうち、寄与率(固有値)が上位の1~3つぐらいの軸だけを使って他は無視すると、1~3次元空間中に散布図が描けるから、これを眺めてどうこう感想を言う、というような使い方も、しばしばやります。数量化理論IV類の場合は、共分散行列を作る代わりに、ともかくサンプル相互の「類似度行列」をイーカゲンに数値化する。そして、あとは主成分分析と同じように回転して散布図を作り、これを眺めてどうこう言う。
 「定性的データを無理矢理数値化して、それに基づいて計算した共分散行列を使うぐらいなら、共分散行列そのものをイーカゲンに作ったっていいじゃないか」という発想と思えば良さそうです。

主成分分析にせよ、数量化理論I類~IV類にせよ、線形回帰分析のバリエーションに過ぎませんから、まあ似たようなものではあります。

主成分分析は、線形数学の極値問題として客観的に表せます。つまり、式だけで端的に表現できる。
これに対して、数量化理論I類~IV類は、理論というより手法の名称です。生のデータを無理矢理数値化してから分析する、というのが普通に行われ、その無理矢理数値化する流儀まで含んだ手法である。でも、どう無理矢理数値化するか、についてどうもはっきりした決まりや理論的根...続きを読む

Q多変量解析の主成分分析と因子分析の違いについて教えてください.

多変量解析の主成分分析と因子分析の違いについて教えてください.どちらもほとんど同じ気がするのですがどのようにちがうのでしょうか?よろしくお願いいたします.

Aベストアンサー

 ご質問にある通り、因子分析は「多変量解析」の一分野です。因子分析の手法の一種に主成分分析(principal component analysis)があり、主因子法(principal factor method)とも呼びます。

 因子分析に共通しているのは、一つのサンプルから多数の変量を測定する、そういうデータをいっぱい集めて、相関係数という考え方を基本にして解析を行う。その際に、ある変量の変動が「他の変量の線形結合(一次式で表される関係)として表せるような系統的変動と、ランダムな変動とから成っている」という仮定を置く。そして共分散行列(もしくは相関行列)を作ってこれを線形変換する。
データの性格や分析の目的によって、手法を使い分けます。
主成分分析では、どの変量とも高い相関を持つ因子(変量の一次式で表される指標)を抽出するという考え方。
同じ因子分析でも、例えばバリマックス法(varimax method)は、変量のうちの幾つかと高い相関を持つ因子を探す。つまり変量を直接、幾つかのグループに分けるという考え方。従って、出てくる因子は主成分分析とは異なります。

 実際の所は、仰る通り、主成分分析だけでもほぼ事足りるでしょう。なぜなら実際のデータを使うと、意味のある直交成分(因子)が経験上高々4個程度得られ、従って3ないし4次元空間に変量を散布して表すことができる。ゆえにこれを図に描いて、変量の関係を見て取ったり、因子に名前を付ける(解釈を宛てる)ことは比較的容易だからです。
 何でせいぜい4個なのか。もともと「線形関係」という、大変荒っぽい仮定に基づいている。またデータの取り方も、直接物理的な量を測るというよりも、勝手に決めた基準で測った得点などを使う事が多い。例えば「テストの成績が何かの能力に正比例する」と仮定するのは乱暴な話。だからあまり精密な分析にはならないんでしょう。いっぱいあるデータにどういう関係が潜んでいるか見当を付ける道具、と捉えるのが宜しいかと思われます。(どんな基準を作ってどう分析するか、は「多次元尺度構成法」とか「数量化理論」などと呼ばれる分野ですね。)多変量の関係を理論的モデルで記述出来ていて、その予想に基づいてきちんと測れる量を相手にし、あるいは莫大なサンプル数で測定を行う場合には、理論に含まれるパラメータの最尤値を決めたり、理論的予想と実測との間の統計的検定を行うという事が問題であって、因子分析には出番がありません。
 だから極端な言い方をすれば、因子分析は「わけの分からん、或いは品質の悪いデータを相手にする道具。」

 因子分析ほどあらっぽくはなく、しかしモデルはいい加減、という中間的な手法もあります。たとえば線形因果ネットワーク(causal network)では、直感なり観察なり部分的なデータ分析なりに基づいて、複数の変量の間に線形関係を仮定してモデル化します。すると、「直接に線形関係で結ばれない変量同士の関係」は一般に整数次の多項式で表されるようになります。この文脈から言えば、階層型ニューラルネットワーク(neural network)も、主観的にモデルを与えずに、データから自発的にモデルを構成させようというもので、変量の線形結合にいい加減な非線形変換を施した物を出力とする、一つの多変量解析法とも見なせます。

話がだいぶ脱線したようです。

 ご質問にある通り、因子分析は「多変量解析」の一分野です。因子分析の手法の一種に主成分分析(principal component analysis)があり、主因子法(principal factor method)とも呼びます。

 因子分析に共通しているのは、一つのサンプルから多数の変量を測定する、そういうデータをいっぱい集めて、相関係数という考え方を基本にして解析を行う。その際に、ある変量の変動が「他の変量の線形結合(一次式で表される関係)として表せるような系統的変動と、ランダムな変動とから成っている」という仮定を置く...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.

Q主成分分析における出発行列の違いは?

タイトルの通りなのです。
あるデータについて主成分分析を行いたいのですが
出発行列によって得られる結果が異なると教わりました。
相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。
どなたか教えてください。お願いします!

Aベストアンサー

こんにちは.
多変数の情報をより少ない総合変数に集約する主成分分析では,ご質問にあるとおり,相関行列あるいは分散共分散行列を対象にするかによって,結果が異なります.

この違いは相関と分散共分散(以下,共分散といいます)の違いによるものです.相関(係数)の式を見ていただければ分かると思いますが,

 【データ】 → 【共分散】 → 【相関】

と相関係数の計算途中に共分散は算出されます.相関と共分散ともに,二つの変数間の直線的関係を示したものですが,共分散は極力データの情報を活かしたまま,相関はデータの情報を多少ロスはするものの人間にとって理解しやすい形に修正したもの,と違いがあります.
共分散は最大値,最小値はありませんが,相関(r)は,-1≦r≦+1の範囲をとるようになります.このため相関では絶対値が「1」に近いほど二変数の関係は強い,「0」に近いほど弱いという判断ができます.共分散の場合は,強さの程度の判定ができません.
まとめると,相関とは共分散を「-1≦r≦+1」の範囲に【標準化】したものといえます.

さて,主成分分析の場合で相関行列と共分散行列のいずれを使い分けるかですが,そのデータを標準化したいかどうかで判断することが多いと思います.
どのような時に標準化したいかというと,対象となる変数が単位・範囲が(大きく)異なる,変数Aは10~20の範囲,変数Bは10~1000の範囲,変数Cは0.1~1の範囲,という場合では変数AとB,変数BとCとでは変数の範囲に大きく違いがありますので,当然算出される共分散もそのデータに依存して,小さい数値になったり,大きな数値になったりします.しかし,「標準化」すれば変数A,B,Cのいずれも「0を平均,1が標準偏差:ほぼ-3~+3の範囲」と同じ幅になり,元のデータの単位と独立して関係性を見ることができます.

元のデータをなるべく反映させるのならば共分散を,単位を揃えて標準化する必要があるのならば相関を,と考えて使い分けられるといいと思います.

こんにちは.
多変数の情報をより少ない総合変数に集約する主成分分析では,ご質問にあるとおり,相関行列あるいは分散共分散行列を対象にするかによって,結果が異なります.

この違いは相関と分散共分散(以下,共分散といいます)の違いによるものです.相関(係数)の式を見ていただければ分かると思いますが,

 【データ】 → 【共分散】 → 【相関】

と相関係数の計算途中に共分散は算出されます.相関と共分散ともに,二つの変数間の直線的関係を示したものですが,共分散は極力データの情報...続きを読む

Q因子分析の因子負荷量について

因子負荷量がよくわからないのですが、負荷量が大きいということは、その項目の重要度も大きいということでしょうか?
その因子をより説明している、と聞いた気もするのですが、説明している、というのがよくわからないんです…

5件法で聞いて5が多かったり1が多かったりすると
大きくなったりするのでしょうか?

寄与率についても曖昧な知識しかありませんので、わかりやすく教えていただけるとありがたいです。

Aベストアンサー

bon-chanさん,こんにちは.意欲的に統計法の質問をされていますね.
正統的説明はtem546さんがされていますので,その中継ぎとして,不正確ですがもう少し初心者向けの説明をしたいと思います.

因子分析を単純に言ってしまえば,「複数の変数を,更に少数の【類似した】変数群にまとめるための【視点】を提供する」となります.
例えば次の相関行列を参考にして,「科目A~D」の五つの変数を,類似したもの同士をまとめる際の視点は何かを探ります.

  ── 科目ABCDEの相関行列(架空):1 ────────
       科目A  科目B  科目C   科目D  科目E
   科目A  1.00   -0.34   0.98   -0.44   -0.24
   科目B -0.34   1.00  -0.34   0.53   0.63
   科目C  0.98   -0.34   1.00   -0.35   -0.32
   科目D -0.44   0.53  -0.35   1.00   0.54
   科目E -0.24   0.63  -0.32   0.54   1.00
  ─────────────────────────────

かなり露骨な相関行列なので因子分析を使わなくとも何とかなります.この相関行列を,数値が低いものを消して,あれこれ並べ替えてみると,

  ── 科目ABCDEの相関行列(架空):4 ────
       科目A 科目C 科目B 科目D 科目E
   科目A 1.00  0.98
   科目C 0.98  1.00
   科目B         1.00  0.53  0.63
   科目D         0.53  1.00  0.54
   科目E         0.63  0.54  1.00
  ─────────────────────────

となり,「科目A&C」と「科目B&D&E」という二つの「視点」がみつかりました.この「視点」こそが,因子分析における「因子」です.

因子分析の本来の目的は「因子は何個あるのか?」を探ることでした.無論,一番上の相関行列を見て,「いや,例え相関係数が0.6であっても,両者は違うんだっ!」とこだわりさえすれば「科目B&D&E」は同じ因子にはならないでしょう.この辺は分析者の主観によります.
やがて因子分析を使う人達は,「因子は何個?」という目的だけに満足できずに「それぞれの因子の【内容】についても知りたい」という少し贅沢な要求を出してきました.

この要求は統計を実践で使う人から提出されたものですが,理論家からすれば「それは本来の使い方じゃないから厳密には内容を特定は出来ないんだがなあ」と思わせるものです.とはいえ,理論家は実践家に対してアドバイスを与えます.「因子負荷量に注目すれば因子の内容を(ある程度)特定できるよ(,絶対的じゃないけどね)」と.

一番最初の相関行列を因子分析にかけます.

  ─────────────────────────
     主因子法・バリマックス回転後の因子負荷量
           因子1  因子2  共通性
       科目A -0.20   0.98  1.00
       科目C -0.20   0.97  0.98
       科目B  0.84  -0.17  0.74
       科目D  0.75  -0.29  0.65
       科目E  0.87  -0.09  0.77
       固有値  2.12   2.01
       寄与率 42.36% 40.26%
     累積寄与率 42.36% 82.62%
  ─────────────────────────

このような結果になります.この因子分析結果では二因子解を採用しています.
因子負荷量とは何か? 少し間違った言い方をすれば「因子と項目との間の【相関係数】」……そう考えてもらって構いません.少なくとも直交回転における因子分析ではこの考えはそれほど間違っていないと思います(正確な解釈はtem546さんの説明を参考にして下さい).

では上記の結果から「因子1」と「因子2」の内容を特定しましょう.このままでは特定化できないので以下の情報を提供します(なお上記データは全て架空です).

・科目A:数学 科目C:理科
・科目B:英語 科目D:国語 科目E:社会

いま,「因子2」というのは「数学と理科」科目の項目と,非常に関係が強い(高い相関係数).因子負荷量からそれが読みとれますね? 因子負荷量というのは「重要度」というよりは「関係の強さ」と考えてもらった方が分かりやすいと思います.
因子というのは,関連する複数の項目(数学と理科)に「共通する要素」なわけですから……数学と理科の共通の要素とは何でしょうか? まあどのような名称を与えるかは分析者の命名センスにかかっていますので,ここでは「理系的学力」とします.結果,「因子2=理系的学力」となります.同様に「因子1=文系的学力」となるでしょう.

とりあえず,因子負荷量に関して,使い方に関連した部分だけ簡単に説明させてもらいました.以上の説明を読んでもらって,改めてtem546さんの説明を読んで下さい.私が誤魔化している部分をより正確に説明していらっしゃいます.

最後に,一番最初の相関行列からの説明でわかるように,因子分析というのは「相関係数」を元にしています.
相関係数というのは御存知の通り,一つの変数がどうこうではなく,【二つの変数間の関係】を示しています.

>5件法で聞いて5が多かったり1が多かったりすると
>大きくなったりするのでしょうか?

【直接的には】なりません.
あくまでも二変数関係に注目するものですから,一つの変数が5に集中したからといって因子負荷量が大きくなったりするわけではありません.
ただし……ある変数Aがたいてい5であり,別の変数Bがたいてい5である場合,「AとBとには同じ5になろうとする関係だ」となります.この意味で間接的に「5が多ければ……」因子負荷量が大きくなることがあるかもしれません(これは自分で考えてみて下さい).

bon-chanさん,こんにちは.意欲的に統計法の質問をされていますね.
正統的説明はtem546さんがされていますので,その中継ぎとして,不正確ですがもう少し初心者向けの説明をしたいと思います.

因子分析を単純に言ってしまえば,「複数の変数を,更に少数の【類似した】変数群にまとめるための【視点】を提供する」となります.
例えば次の相関行列を参考にして,「科目A~D」の五つの変数を,類似したもの同士をまとめる際の視点は何かを探ります.

  ── 科目ABCDEの相関行列(架空):1 ─────...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q質的データと量的データの相関について

例えば性別のような質的なデータとテストの点数などの連続変数からなる量的データの間の相関をみるということは出来るのでしょうか??統計の本には相関の結果が書いてあるのですが、結果の読み取り方と計算の仕方がわかりません。基本的な質問ですみませんが、どなたか教えていただけませんか??
宜しくお願いいたします。

Aベストアンサー

で・き・ま・す!!!
こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが)

さて、本題。
ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。

<例1>
2者(男と女)での性質の違いを調べたいとき
→数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。

<例2>
3者のものを比べたいとき(男、女、オ○マの3種類とか)
→次の3通りについて、全部相関を調べればよいです。
・A群を1、B・C群を2
   →これで相関が出ればAに属するか否かによって性質が違うということが言えます。
・B群を1、A・C群を2 → 以下同文
・C群を1、A・B群を2 →  〃

Excelとかだと、「相関係数」が容易に関数として求めることができるので、ちょー簡単に分析できますよ。
相関係数というものは-1から+1までの値をとります。絶対値が1に近いほど相関あり、0に近いほど相関なしです。相関係数の絶対値だけが問題なので、男を1、女を2としても、その逆にしてもよいわけです。

私、日ごろ、当たり前のように、応用してますよ。

<実用例>
パンを焼く機械が3台ある工場で、製造不良数と使用機械との間に相関がないかどうか調べる。
この結果、特定の機械でつくったパンだけに不良が多い傾向が認められれば、その機械に対して対策を打つ・あるいは使用禁止にして、残り2台のみ稼動とする など。

以下、補足です。
このような3者以上の時って、結果的に相関係数が最大になるように、それぞれに対する「数値」を微妙に調整していくと理想的ですね。(←試行錯誤的な繰り返しになると思いますが)
例えば、3つの中でナンバー1がどれでワースト1がどれと決まり、さらには、両者の中間のは、どちらかというと他の2つのどちらに近いか、といったことまで判ります。だけど、ここまで分析するのは複雑だし時間がかかるので、私は実用的にはやっていません。前記のように3種類を2種類ずつ3通りに分けるだけで十分と思います。

で・き・ま・す!!!
こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが)

さて、本題。
ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。

<例1>
2者(男と女)での性質の違いを調べたいとき
→数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。

...続きを読む

QExcelで加重平均を出す方法

Excelで加重平均を出す方法を教えてください。ちんぷんかんぷんです。

Aベストアンサー

#1を式で言えば
値がA1:A10
重みがB1:B10
に入っていれば
加重平均
=SUMPRODUCT(A1:A10,B1:B10)/SUM(B1:B10)
になります


人気Q&Aランキング