
A 回答 (8件)
- 最新から表示
- 回答順に表示
No.8
- 回答日時:
#4です。
まだ、閉じてなかったのですね。
球面集中化がなぜ生じるかは、次のように説明が付きます。
『多次元標準正規分布空間において,次元数をpとすると,データの原点からの(距離)2はχ2分布に従い,その平均はp,分散は2pとなります.
これより,高次元すなわちpが大きくなれば,原点からの距離の平均は,pに従い大きくなることが分かります.
また,この(距離)2を次元数pで割って半径1に基準化すると,第1自由度がp,第2自由度が∞のF分布となり,平均は1,分散は2/pとなります.
この量は,pが十分大きい時は正規分布に近似できます.
例としてp=200とすると,(距離)2の標準偏差は0.1なので,原点から半径√0.7 ~ √1.3の範囲内に99.7%のデータが集中します.
次元数が増せば増すほど,2/pの分母が大きくなりますからばらつきはどんどん小さくなります.
すると相対的に半径1の超球の表面に全てのデータが集まるようになります.』
ネット記事によると、高次元メロンパンは、おいしい皮の部分に、さらに中身の材料までが集中するので、ますますおいしくなるということですが本当かなあ。すごく疎になっているので、食べた気がしないんじゃないかと思います。
ところで、なぜデータ間距離が膨大化するとともに、等距離になるのか、どなたかご説明をお願いします。
No.5
- 回答日時:
#4です。
なぜ起きるのか、ですが、定性的な説明は可能でも、これだ、という証明ができないので「呪い」と言われるようになりました。
「スパース化」「球面集中化」でググれば、みなさんそれなりの説明はされてみえますが、突き詰めれば「そういう現象」という結論になっています。
No.4
- 回答日時:
企業で統計を推進する立場の者です。
高次元データでは主に次の2つのことが起きます。この2つを次元の呪いということが多いです。
①スパース化:データ間距離が膨大化します。スパースとは「すかすか」の意味です。このようなデータを用いて回帰分析を行うと、テコ比の大きなデータで回帰線を支えるため過学習が起きやすくなります。
②球面集中化:データが空間中の超球の表面に乗ってしまいます。また、各データ間距離もほぼ一定になります。データ空間の中心部分にはデータは存在しなくなります。平均値は異常値になります。
そして、データ解析において致命的なのが「予期せぬ線形制約」という現象です。データXの分散共分散行列あるいは相関係数行列はXTXで表されますが、det(XTX)がほぼ0になり、XTXの逆行列が存在できなくなります。多くの多変量解析がXTXの逆行列を使いますので、多変量解析全般が破綻します。この解決策が、チブシャアーニ先生のlasso(ラスー)に代表される正則化技術です。今日、スパースモデリングと呼ばれています。
No.3
- 回答日時:
次元の呪いを菓子で例えれば、まず味。
甘い、辛い、酸っぱい、苦い、しょっぱい
ここに色がつくと、
赤、こげ茶、緑、黄色、透明、…
更に、形が加わると、
球、円盤、四角い、三角、…
加えて、大きさ、熱、…が加わると、…
考慮する要素が増えれば、組み合わせおよび計算量が爆発的に増える。
これが次元の呪いの概要であり、ある意味当たり前のこと。
次元の呪いを回避するには、主となる要素を選択する、複数の要素を一つにまとめる等、要素数を減らすしかない。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 数学 「次元が高くなると、単位球は単位立方体に比較して小さくなっていく。」を、易しく解説して下さい。 6 2023/08/21 12:53
- 計算機科学 相関係数 1 2022/07/29 11:46
- 発達障害・ダウン症・自閉症 発達障害の二次障害とは、発達障害の特性によって心理的ストレスが積み重なり、引き起こされてしまう精神疾 1 2022/07/06 12:25
- JavaScript オブジェクトから任意のプロパティを全て抽出する一番簡単な方法 1 2023/08/09 21:13
- その他(悩み相談・人生相談) 祈りと、呪い、どっちが成功率高いですか? 3 2023/01/31 14:17
- 宇宙科学・天文学・天気 四次元空間について 1 2022/07/01 17:11
- アニメ 四次元空間について 1 2022/07/01 16:06
- 物理学 量子力学 生成消滅演算子 2 2022/08/04 23:17
- 物理学 量子力学 三次元調和振動子 シュレディンガー方程式 1 2022/08/05 20:45
- その他(家族・家庭) 私は呪いです。 死んで周りの人を呪いから解放してあげたいです。 周りの人は優しくて私に協力的で、本当 2 2022/10/11 00:45
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・一番好きなみそ汁の具材は?
- ・泣きながら食べたご飯の思い出
- ・「これはヤバかったな」という遅刻エピソード
- ・初めて自分の家と他人の家が違う、と意識した時
- ・いちばん失敗した人決定戦
- ・思い出すきっかけは 音楽?におい?景色?
- ・あなたなりのストレス発散方法を教えてください!
- ・もし10億円当たったら何に使いますか?
- ・何回やってもうまくいかないことは?
- ・今年はじめたいことは?
- ・あなたの人生で一番ピンチに陥った瞬間は?
- ・初めて見た映画を教えてください!
- ・今の日本に期待することはなんですか?
- ・集中するためにやっていること
- ・テレビやラジオに出たことがある人、いますか?
- ・【お題】斜め上を行くスキー場にありがちなこと
- ・人生でいちばんスベッた瞬間
- ・コーピングについて教えてください
- ・あなたの「プチ贅沢」はなんですか?
- ・コンビニでおにぎりを買うときのスタメンはどの具?
- ・おすすめの美術館・博物館、教えてください!
- ・【お題】大変な警告
- ・洋服何着持ってますか?
- ・みんなの【マイ・ベスト積読2024】を教えてください。
- ・「これいらなくない?」という慣習、教えてください
- ・今から楽しみな予定はありますか?
- ・AIツールの活用方法を教えて
- ・最強の防寒、あったか術を教えてください!
- ・歳とったな〜〜と思ったことは?
- ・モテ期を経験した方いらっしゃいますか?
- ・好きな人を振り向かせるためにしたこと
- ・スマホに会話を聞かれているな!?と思ったことありますか?
- ・それもChatGPT!?と驚いた使用方法を教えてください
- ・見学に行くとしたら【天国】と【地獄】どっち?
- ・これまでで一番「情けなかったとき」はいつですか?
- ・この人頭いいなと思ったエピソード
- ・あなたの「必」の書き順を教えてください
- ・14歳の自分に衝撃の事実を告げてください
- ・人生最悪の忘れ物
- ・あなたの習慣について教えてください!!
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計学
-
3枚の異なる種類の硬貨を同時に...
-
袋Aには赤玉が2個、白玉が3個入...
-
経験的に正しいと思っているこ...
-
ノンパラメトリック検定の多重...
-
我々が日常的に感じていること...
-
番号の組み合わせパターン
-
偏差値65の高校が全統模試受け...
-
テレビでバラエティ番組やお笑...
-
正規分布と対数正規分布の違い...
-
またまたすみません!統計の問...
-
ロジスティック回帰分析におけ...
-
確率変数 Xは2項分布B(n,0.8)に...
-
統計検定について
-
統計学
-
消費税10%の税抜き計算と10%OFF...
-
メールのクリック率の推移
-
この論文はどれくらい信用でき...
-
固定のステップごとに同じ疑似...
-
相関係数は重複すると確率が増...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
N/Rとは何の略
-
統計のデータ割付について。
-
【Excel質問】別シートにある複...
-
主成分分析と数量化第3類、ど...
-
eKYC(Povo、メルカリ、ヤフオク...
-
「重み付け」 と 「カイ二乗検...
-
サッカー解析システム OPTAに...
-
データの分析の問題で、元ある...
-
次元の呪いについて。 次元の呪...
-
指定した値以上の中で最小値を...
-
データ容量が重いファイルについて
-
fxの通貨ペア、NOKSEKのヒスト...
-
Excelのピポットテーブルでピポ...
-
FDAのデータの入手方法
-
日本人男性(20〜40代)の平均身...
-
フーリエ変換をすることにより...
-
数値予測の方法を教えてくださ...
-
標本数が50以上のデータが見...
-
デザイナーズチェアのCADデータ
-
SASでカイ二乗値を求めるには
おすすめ情報