10の人種がいて、20種類の特徴の割合が記載されています。
例えば、以下の具合です。
目が赤い 身長が180cm以上 髪が黒い ・・・・・
アメリカ人 20% 20% 50%
日本人 0% 10% 100%
ドイツ人 5% 30% 50%
ブラジル人 0% 20% 90%
・・・・
・・・・
一人のある人が
①目が赤くて、②身長が180cm以上で、③髪が黒くなくて、④⑤⑥・・・⑳の特徴を持つ場合、
何人の可能性が最も高くて、その確率が何%であるかを推定したいと考えています。
どのような検定方法が考えられますでしょうか?
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
当たり前の話ですが、元のデータを何らかの統計処理してしまえば、元のデータそのものよりも情報が減ってしまう(元データから統計処理後の数値を得ることはできるが、統計処理後のデータから元データを復元することはできない)わけで、推定の精度は確実に低下します。
元データがあるなら、それをそのまま教師データとして使いましょう。
教師データ数が全部で千個〜万個程度であるなら、「SVM」を使うのが一番良い結果になりそうかな、と思います。
生成モデル(ベイズ的な考え方)でいくなら「階層ベイズモデル」を作るのが良いでしょう。
例えば、
・日本人なら遺伝子Aか遺伝子Bを持っている。
・遺伝子Aを持つ人はx%の確率で黒髪になる
・遺伝子Bを持つ人はy%の確率で高身長
みたいな感じで事前知識をモデル化して、観測データから未知パラメータを推測します。
No.2
- 回答日時:
その「20種類の特徴」というのは、ほぼ確実に独立事象ではない(高い相関がある)と考えられるので、「20種類それぞれの特徴の割合」だけを使って分類するのは困難です。
各事象が独立であることを前提にしている手法ではおそらくまともな分類はできません。少なくとも、相関係数行列がないと。「20種類の特徴の割合」みたいな元のデータを何らかの統計処理をされた後の数字をつかうのではなくて、元のデータそのものを教師データとして、各種のクラスタリング手法を使うことを考えるべきです。
ランダムフォレストSVMや深層学習など。
最も可能性の高い人種だけではなくて、それぞれの人種である確率もほしいなら、ソフトマックス関数を使うのがよいでしょう。
上で書いたのは、識別モデル的な考えかたですが、
別の方針として、もっと真面目に生成モデルを考えて、ベイズの原理で事後確率を計算する、という方針も考えられると思います。
No.1
- 回答日時:
「検定」というよりは、分析・解析・分類ですね。
広い意味での「多変量解析」、その中での「重回帰分析」や「判別分析」に当たると思います。
「原因」と「結果」の関係や、「既知のグループ」(外的基準)があるときに、その標本がどのグループに属するかを推測する手法です。
http://www.macromill.com/landing/words/b011.html
http://www.macromill.com/landing/words/b011.html
http://www.macromill.com/landing/words/b010.html
20項目の項目の相互関係や優先度(たとえばいくら背の高さが低くとも、髪の色が黒でなければ「日本人」ではあり得ない、といったこと)をどう取り扱うか、そういった「基準」「尺度」「重み」の設定が重要かと思います。それによっては「確率が何%」という定量評価は難しいかもしれません。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 減税・節税 国保➡社会保険に加入のがふるさと納税の恩恵がある? 3 2023/05/26 11:48
- 減税・節税 ふるさと納税返礼品制度を活用する為の方法 1 2023/05/23 15:56
- その他(アニメ・マンガ・特撮) アジア的特徴を備えている(比較的)美形・あるいは渋い・かっこいいキャラクター 2 2022/06/03 22:10
- 統計学 解き方が分からないので教えてください 16〜20歳の女性の身長(X)は平均160cm、標準偏差10c 1 2022/11/09 23:00
- 薄毛・抜け毛 髪の毛についてです。20代前半です。 人間は1日50本から100本ほど髪の毛が抜けるそうです。 最近 2 2022/10/15 00:50
- その他(悩み相談・人生相談) 20代の頃から冴えない見た目の男性(ハゲ、デブ、清潔感がない)やおじさん(40代50代)ばかりに言い 3 2023/08/19 11:38
- 預金・貯金 世代別1000万円以上貯蓄ある人の割合(´・ω・`) 2 2023/01/12 19:20
- 確定申告 《ふるさと納税について質問です》前回質問の訂正と追記 4 2022/09/16 20:17
- 統計学 お酒に強い人の割合について 2 2022/09/10 18:42
- 中途・キャリア 契約社員で在職中ですが、正社員目指して転職活動中です。 20代半ばの男です。 2社から内定を頂きまし 5 2022/04/29 13:39
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
N/Rとは何の略
-
統計のデータ割付について。
-
Excelのピポットテーブルでピポ...
-
FDAのデータの入手方法
-
主成分分析と数量化第3類、ど...
-
心理学で学んだこと、人間関係...
-
次元の呪いについて。 次元の呪...
-
トリムド平均とは?
-
eKYC(Povo、メルカリ、ヤフオク...
-
標本数が50以上のデータが見...
-
日本人男性(20〜40代)の平均身...
-
平均値の95%信頼区間が僅か
-
正規化についてお聞きしたいで...
-
他データとの組み合わせによる...
-
統計学的に信頼のあ有効率は、...
-
【Excel質問】別シートにある複...
-
サッカー解析システム OPTAに...
-
IF関数で無記入のとき、無表...
-
携帯代月にどれくらい掛かって...
-
J-STATS OPTA(オプタ)のデー...
おすすめ情報
非常に参考になるお話ありがとうございます。
あくまで人種は例でして、実際は別の内容となっています。ただほぼ人種に置き換えても、内容に相違ないとも考えています。
またアメリカ人はn=200、日本人はn=600など、元となるデータはありますし、実はグループの中の一人一人のデータもあります。
各事象間で、相関があるかないかは現段階では分かっていませんが、一人一人のデータを元にするよりも、グループとしてデータをまとめて、それを元にある一人の方の起源を推定した方が正確な推定につながるのではないかと考えました。
ベイズ推定なども検討しているのですが、どの手法を選択することがより正確な解析につながるのか、当方、数学は大学教養課程レベルで止まっているため判断に迷います。
もう少しアドバイスをいただけないでしょうか。