10の人種がいて、20種類の特徴の割合が記載されています。
例えば、以下の具合です。
目が赤い 身長が180cm以上 髪が黒い ・・・・・
アメリカ人 20% 20% 50%
日本人 0% 10% 100%
ドイツ人 5% 30% 50%
ブラジル人 0% 20% 90%
・・・・
・・・・
一人のある人が
①目が赤くて、②身長が180cm以上で、③髪が黒くなくて、④⑤⑥・・・⑳の特徴を持つ場合、
何人の可能性が最も高くて、その確率が何%であるかを推定したいと考えています。
どのような検定方法が考えられますでしょうか?
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
当たり前の話ですが、元のデータを何らかの統計処理してしまえば、元のデータそのものよりも情報が減ってしまう(元データから統計処理後の数値を得ることはできるが、統計処理後のデータから元データを復元することはできない)わけで、推定の精度は確実に低下します。
元データがあるなら、それをそのまま教師データとして使いましょう。
教師データ数が全部で千個〜万個程度であるなら、「SVM」を使うのが一番良い結果になりそうかな、と思います。
生成モデル(ベイズ的な考え方)でいくなら「階層ベイズモデル」を作るのが良いでしょう。
例えば、
・日本人なら遺伝子Aか遺伝子Bを持っている。
・遺伝子Aを持つ人はx%の確率で黒髪になる
・遺伝子Bを持つ人はy%の確率で高身長
みたいな感じで事前知識をモデル化して、観測データから未知パラメータを推測します。
No.2
- 回答日時:
その「20種類の特徴」というのは、ほぼ確実に独立事象ではない(高い相関がある)と考えられるので、「20種類それぞれの特徴の割合」だけを使って分類するのは困難です。
各事象が独立であることを前提にしている手法ではおそらくまともな分類はできません。少なくとも、相関係数行列がないと。「20種類の特徴の割合」みたいな元のデータを何らかの統計処理をされた後の数字をつかうのではなくて、元のデータそのものを教師データとして、各種のクラスタリング手法を使うことを考えるべきです。
ランダムフォレストSVMや深層学習など。
最も可能性の高い人種だけではなくて、それぞれの人種である確率もほしいなら、ソフトマックス関数を使うのがよいでしょう。
上で書いたのは、識別モデル的な考えかたですが、
別の方針として、もっと真面目に生成モデルを考えて、ベイズの原理で事後確率を計算する、という方針も考えられると思います。
No.1
- 回答日時:
「検定」というよりは、分析・解析・分類ですね。
広い意味での「多変量解析」、その中での「重回帰分析」や「判別分析」に当たると思います。
「原因」と「結果」の関係や、「既知のグループ」(外的基準)があるときに、その標本がどのグループに属するかを推測する手法です。
http://www.macromill.com/landing/words/b011.html
http://www.macromill.com/landing/words/b011.html
http://www.macromill.com/landing/words/b010.html
20項目の項目の相互関係や優先度(たとえばいくら背の高さが低くとも、髪の色が黒でなければ「日本人」ではあり得ない、といったこと)をどう取り扱うか、そういった「基準」「尺度」「重み」の設定が重要かと思います。それによっては「確率が何%」という定量評価は難しいかもしれません。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・人生のプチ美学を教えてください!!
- ・10秒目をつむったら…
- ・あなたの習慣について教えてください!!
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・【大喜利】【投稿~9/18】 おとぎ話『桃太郎』の知られざるエピソード
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「ベルヌーイ数とローラン展開...
-
1/x + 2/y + 3/z =1/4 上記の式...
-
2の810乗はいくつですか?
-
2024.8.31 00:04にした質問の20...
-
15cmは...何センチ?
-
継続率80%が23連する確率
-
4で割った余りが3でないときは...
-
平方完成
-
一般角
-
数学Ⅰの質問です。
-
縦、横、高さが3Cmのブロックが...
-
複素数平面 第9日目
-
これなぜ収束を前提とするので...
-
無限等比級数で初項が0のとき和...
-
数学と人間の活動の数1aの範囲...
-
1いいね12時間、1RT1日、1リプ1...
-
高一数学です θの動径が第4象限...
-
高校1数学の平行移動の理屈が分...
-
簡単なはずですが教えてください。
-
ノンアルコール飲料
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
N/Rとは何の略
-
統計のデータ割付について。
-
主成分分析と数量化第3類、ど...
-
次元の呪いについて。 次元の呪...
-
eKYC(Povo、メルカリ、ヤフオク...
-
フーリエ変換をすることにより...
-
標本数が50以上のデータが見...
-
【Excel質問】別シートにある複...
-
FDAのデータの入手方法
-
「重み付け」 と 「カイ二乗検...
-
サッカー解析システム OPTAに...
-
産業空洞化の実績について
-
電話帳ってなんか名前ついてま...
-
心理学で学んだこと、人間関係...
-
SASでカイ二乗値を求めるには
-
正規化についてお聞きしたいで...
-
統計学的に信頼のあ有効率は、...
-
日本人男性(20〜40代)の平均身...
-
mysqlで INSERT と SELECTの用途は
-
データ分析について
おすすめ情報
非常に参考になるお話ありがとうございます。
あくまで人種は例でして、実際は別の内容となっています。ただほぼ人種に置き換えても、内容に相違ないとも考えています。
またアメリカ人はn=200、日本人はn=600など、元となるデータはありますし、実はグループの中の一人一人のデータもあります。
各事象間で、相関があるかないかは現段階では分かっていませんが、一人一人のデータを元にするよりも、グループとしてデータをまとめて、それを元にある一人の方の起源を推定した方が正確な推定につながるのではないかと考えました。
ベイズ推定なども検討しているのですが、どの手法を選択することがより正確な解析につながるのか、当方、数学は大学教養課程レベルで止まっているため判断に迷います。
もう少しアドバイスをいただけないでしょうか。