
A 回答 (8件)
- 最新から表示
- 回答順に表示
No.8
- 回答日時:
#4です。
まだ、閉じてなかったのですね。
球面集中化がなぜ生じるかは、次のように説明が付きます。
『多次元標準正規分布空間において,次元数をpとすると,データの原点からの(距離)2はχ2分布に従い,その平均はp,分散は2pとなります.
これより,高次元すなわちpが大きくなれば,原点からの距離の平均は,pに従い大きくなることが分かります.
また,この(距離)2を次元数pで割って半径1に基準化すると,第1自由度がp,第2自由度が∞のF分布となり,平均は1,分散は2/pとなります.
この量は,pが十分大きい時は正規分布に近似できます.
例としてp=200とすると,(距離)2の標準偏差は0.1なので,原点から半径√0.7 ~ √1.3の範囲内に99.7%のデータが集中します.
次元数が増せば増すほど,2/pの分母が大きくなりますからばらつきはどんどん小さくなります.
すると相対的に半径1の超球の表面に全てのデータが集まるようになります.』
ネット記事によると、高次元メロンパンは、おいしい皮の部分に、さらに中身の材料までが集中するので、ますますおいしくなるということですが本当かなあ。すごく疎になっているので、食べた気がしないんじゃないかと思います。
ところで、なぜデータ間距離が膨大化するとともに、等距離になるのか、どなたかご説明をお願いします。
No.5
- 回答日時:
#4です。
なぜ起きるのか、ですが、定性的な説明は可能でも、これだ、という証明ができないので「呪い」と言われるようになりました。
「スパース化」「球面集中化」でググれば、みなさんそれなりの説明はされてみえますが、突き詰めれば「そういう現象」という結論になっています。
No.4
- 回答日時:
企業で統計を推進する立場の者です。
高次元データでは主に次の2つのことが起きます。この2つを次元の呪いということが多いです。
①スパース化:データ間距離が膨大化します。スパースとは「すかすか」の意味です。このようなデータを用いて回帰分析を行うと、テコ比の大きなデータで回帰線を支えるため過学習が起きやすくなります。
②球面集中化:データが空間中の超球の表面に乗ってしまいます。また、各データ間距離もほぼ一定になります。データ空間の中心部分にはデータは存在しなくなります。平均値は異常値になります。
そして、データ解析において致命的なのが「予期せぬ線形制約」という現象です。データXの分散共分散行列あるいは相関係数行列はXTXで表されますが、det(XTX)がほぼ0になり、XTXの逆行列が存在できなくなります。多くの多変量解析がXTXの逆行列を使いますので、多変量解析全般が破綻します。この解決策が、チブシャアーニ先生のlasso(ラスー)に代表される正則化技術です。今日、スパースモデリングと呼ばれています。
No.3
- 回答日時:
次元の呪いを菓子で例えれば、まず味。
甘い、辛い、酸っぱい、苦い、しょっぱい
ここに色がつくと、
赤、こげ茶、緑、黄色、透明、…
更に、形が加わると、
球、円盤、四角い、三角、…
加えて、大きさ、熱、…が加わると、…
考慮する要素が増えれば、組み合わせおよび計算量が爆発的に増える。
これが次元の呪いの概要であり、ある意味当たり前のこと。
次元の呪いを回避するには、主となる要素を選択する、複数の要素を一つにまとめる等、要素数を減らすしかない。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
N/Rとは何の略
-
降水量ではなく単純に雨のお天...
-
主成分分析の対象データについて
-
【Excel質問】別シートにある複...
-
日本人男性(20〜40代)の平均身...
-
宮内庁は3親等まで身辺調査が...
-
中古マンション 重要事項調査報...
-
フェラが嫌いな女性は結構いる...
-
警察って個人のパソコンやスマ...
-
なぜ今までの統計では補正率と...
-
市場調査会社トップ5
-
食品・飲料・トイレタリー業界...
-
ポイント交換自分でしていない...
-
教師の不祥事
-
BSA分析(Benefit Structure An...
-
企業スパイって存在するの?
-
地質調査(ボーリング)は何箇...
-
転職活動中です 身辺調査されま...
-
企業調査に回答することのメリ...
-
MACの機器・ソフト情報収集
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
降水量ではなく単純に雨のお天...
-
N/Rとは何の略
-
統計のデータ割付について。
-
FDAのデータの入手方法
-
ビックデーター…
-
ExcelでTtestで得られる数字の...
-
eKYC(Povo、メルカリ、ヤフオク...
-
ビル管法の統計データはどこで...
-
主成分分析について
-
【Excel質問】別シートにある複...
-
学習のアルゴリズム
-
イギリス統計局のヒストリカル...
-
因果関係を記すのに適した統計...
-
日本人男性(20〜40代)の平均身...
-
エクセルで過去の月別売上高を...
-
太陽光発電の導入戸数
-
多変量解析について
-
宿題の所で答えが合ってるか教...
-
質問紙 回収後のチェック
-
統計学的に信頼のあ有効率は、...
おすすめ情報