主成分分析では主成分軸
z=a1x1+a2x2+・・・
を考えた時、最もzの分散を最大化するようなa1,a2を考える問題かと思いますが、
文献では事前にx1,x2を平均値との差求めた値とすることで、
分散共分散行列の固有値問題に変換することが可能とありました。
主成分分析の計算自体は理解したのですが、
Q1「なぜ事前に平均値を引いておくのでしょうか?」
Q2「平均値を引かない場合は主成分分析にならないのでしょうか?」
標準化や正規化が必要という話は、分散最大化の時に厄介になるから、と理解できるのですが、
平均値で引いておく、というのはどの文献でも共通していたので、疑問に思い質問させていただきました。
よろしくお願いいたします。
No.4ベストアンサー
- 回答日時:
#3です。
#3を読んで、次の質問の回答を考えてください。
(1)太陽系の星々の動きの特徴を抽出したい。次の2つのうち、どの観測が適するか。
①地球や太陽を基準として見た惑星の動きを観測する。
②アンドロメダ星雲から太陽系を眺める。
②は、動きの特徴が全く観測されないでしょう。つまり主成分分析はデータの動きの特徴を抽出したいという目的を持っていますので、その場合はなるべくデータに近寄って見るのがいいですよね。その究極が、データの内部から観測するってことです。
(2)何億年の過去から現在に至るまで、太陽系はどう動いたのか特徴を抽出したい。次の2つのうち、どの観測が適するか。
①地球や太陽を基準として見た惑星の動きを観測する。
②アンドロメダ星雲から太陽系を眺める。
アンドロメダは遠すぎるかもしれませんが、今の銀河の中心を基準にして見れば、良いのではないでしょうか。これが特異スペクトル分解です。
以上、主成分分析は天下り的に平均を引いているのではなく、データ空間の特徴の一番大きい変化から順番に主軸を決めたいという目的があるから、データ重心(平均)を基準にして見ようと決めたのですね。こんなことは、普通に発想できるから、わざわざテキストに書いて無いのだと思います。
ありがとうございます。
回答読んで、さらにいくつかの式の導出を読み直したらすんなり理解できました。
めちゃくちゃ初歩というか、思いもよらない最初のところで勘違いしてました。
しかし理解できてスッキリしました。
yhr2さんの言っていることも今なら理解できます。
どうもありがとうございました。
No.3
- 回答日時:
#2です。
私の言っていることは、難しいですかね。
簡単に言えば、地球から見た他の天体の位置を考えるのか、系外から太陽系の天体の位置関係を見るのかの違い。
AとBの2群のデータがあって、A群を基準とした主成分空間に、B群データをプロットして見たいんだったら、A群の平均を引いておいたらいいんじゃないかって発想するけど、違いますか。
平均を引く引かないの問題ではなく、どの空間を基準にしているのかということです。
特異スペクトル分解でググると、異常検知の話題が沢山ヒットすると思うけど、移動窓の前半と後半でそれぞれ違う点を基準にしたら、全く別物を見ていることになります。そうならないために窓全体の平均を使うか、それとも0という尺度があるのなら、それを基準にすべきです。移動窓は刻々と動いていくから、それこそ全体を通じて共通の点を基準にすべきだって誰もが思う。そういうことです。
判別分析は勉強しましたか?
これは、群内変動(合併分散)の逆行列を掛けて写像します。
主成分分析は全変動の逆行列を掛けて写像します。
その変動の考え方は#1さんが書かれている通りです。
No.2
- 回答日時:
企業でSQCを推進する立場にある者です。
A1.「平均を引いてから特異スペクトル分解(特異値分解の特殊ケース)する」という主成分分析の解法の定義だからです。主成分分析は、ほぼ同時期に4つの解法が提案され、どれも同じ結果を与えるという数学的には美しい手法です。その一つが特異スペクトル分解の特殊ケースとして解くというもので、重心を原点に写像してからスペクトル分解する(主軸変換する)という解法です。
A2.平均値を引かない場合は、「特異スペクトル分解」と言われています。
なお、誤解されておられますが、主成分分析は出発行列を「分散共分散行列」にも「相関係数行列」にもすることができます。標準化が必須ではありません。両者は因子負荷量の解釈が違ってきます。ところが、マハラノビスの汎距離(原点からの距離)に関しては「分散共分散行列」を使っても「相関係数行列」を使っても同じ値になります。
ご回答ありがとうございます。
回答内容についてもう少しだけお聞きしたいのですが、そもそもが「平均値を引いてから特異スペクトル分解する」=「主成分分析の解き方の定義」とのことですが、
そもそも平均値を引く(重心を考える?)ことの、目的とはどんなものなのでしょうか?
データに対して主成分軸を引こうと考えた時に「平均から引いておいたらいいんじゃないか」という発想が出てきません。
平均を引かないことでの弊害などあるのでしょうか?
もしご存じでしたらお願いいたします。
No.1
- 回答日時:
「分散」の定義は、「平均値からの偏差の2乗の平均」です。
つまり「平均値からのばらつきの程度」です。だから「平均値」が登場し、「平均値を引く」ことも当然かと思いますが?
ご回答ありがとうございます。
主成分軸の分散最大化ということは情報の損失を抑えたい、という話でわかるのですが、
主成分軸変換前のデータも平均値から引くという意味がわかっておらず質問させていただきました。
「分散共分散行列の固有値、固有ベクトル問題に等しくなる」というのは教科書で見る文言で
そこから天下り的に逆算したらデータを平均から引いておかなければならないのですが、
それでは納得できなくて、
平均値を引いておくことがなぜ重要なのか知りたかったのです。
ありがとうございます。
よろしくお願いいたします。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 数学 【 数I 分散 】 3 2023/02/26 21:55
- 統計学 生物統計学の質問 7 2022/05/17 13:59
- 統計学 加重最小二乗法=①「変数を自然対数変換」=②「誤差項の分散の逆数を重み付け」? 8 2022/11/26 11:15
- 統計学 統計学の問題です よろしくお願いします 回帰直線 次のデータから集計表を作成し,以下の問いに答えよ。 2 2023/01/31 23:36
- 統計学 統計学の問題です よろしくお願いします 回帰直線 次のデータから集計表を作成し,以下の問いに答えよ。 1 2023/01/31 18:55
- 数学 【 数Ⅰ 分散 】 問題 20個の値からなるデータがあり, そのうちの8個の値の平均値は3,分散は4 4 2023/02/15 23:28
- 統計学 母平均の検定(両側t検定)の問題 2 2023/03/14 20:02
- 数学 以下の数学の問題を教えてください。 確率変数Xは標準正規分布N(0、1)に確率変数Yは平均3のポアソ 3 2022/12/02 19:13
- 統計学 Excelによるサンプルの拡大について 6 2023/08/22 16:03
- 統計学 標準誤差の求め方 2 2022/07/04 19:59
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
検量線の決定係数について
-
心理機能診断をしたのですが、...
-
検定統計量の値がマイナス
-
心理学の統計について
-
複数の集団の全体平均が0より有...
-
対数目盛の読み方を教えてください
-
法学検定アドバンストはどのく...
-
統計学の基本的なことについて...
-
下の対数表示のグラフから低域...
-
片対数グラフと傾き・切片の出し方
-
gnuplotの実験データををプロッ...
-
χ2検定とFischerの直接確率検定...
-
Excelによるサンプルの拡大につ...
-
どのt検定をつかったらいいで...
-
ポアソン回帰でのカウントデー...
-
複数選択可としたクラメールの...
-
エクセルでランダム関数で乱数...
-
正規分布について
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
エクセルでランダム関数で乱数...
-
ブラック・ショールズ方程式を...
-
複数の集団の全体平均が0より有...
-
検量線の決定係数について
-
ポアソン回帰でのカウントデー...
-
青い下線部分はなぜそうなるの...
-
統計学の問題でわからないので...
-
[Excel] リストからの無作為抽出
-
x^2+y^2はどのような分布をする?
-
エクセルのグラフから半値幅を...
-
統計について
-
極値をもつ時と持たない時、単...
-
エクセルで正規分布かどうかを...
-
パイロットサンプルって何ですか?
-
データが正規分布しているか判...
-
回帰分析の回帰係数のt検定
-
正規分布について
おすすめ情報
ご回答ありがとうございます。
回答内容についてもう少しだけお聞きしたいのですが、そもそもが「平均値を引いてから特異スペクトル分解する」=「主成分分析の解き方の定義」とのことですが、
そもそも平均値を引く(重心を考える?)ことの、目的とはどんなものなのでしょうか?
データに対して主成分軸を引こうと考えた時に「平均から引いておいたらいいんじゃないか」という発想が出てきません。
平均を引かないことでの弊害などあるのでしょうか?
もしご存じでしたらお願いいたします。