おしえて

統計解析の方法

締切済

質問者：rrtt1
質問日時：2016/01/11 15:13
回答数：3件

10の人種がいて、20種類の特徴の割合が記載されています。
例えば、以下の具合です。

　　　　　　　　目が赤い身長が180cm以上髪が黒い　　　・・・・・
アメリカ人　　　　20%　　　　20% 50%
日本人 0% 10% 100%
ドイツ人 5% 30% 50%
ブラジル人 0% 20% 90%
・・・・
・・・・

一人のある人が
①目が赤くて、②身長が180cm以上で、③髪が黒くなくて、④⑤⑥・・・⑳の特徴を持つ場合、
何人の可能性が最も高くて、その確率が何%であるかを推定したいと考えています。
どのような検定方法が考えられますでしょうか？

非常に参考になるお話ありがとうございます。
あくまで人種は例でして、実際は別の内容となっています。ただほぼ人種に置き換えても、内容に相違ないとも考えています。
またアメリカ人はn=200、日本人はn=600など、元となるデータはありますし、実はグループの中の一人一人のデータもあります。
各事象間で、相関があるかないかは現段階では分かっていませんが、一人一人のデータを元にするよりも、グループとしてデータをまとめて、それを元にある一人の方の起源を推定した方が正確な推定につながるのではないかと考えました。

ベイズ推定なども検討しているのですが、どの手法を選択することがより正確な解析につながるのか、当方、数学は大学教養課程レベルで止まっているため判断に迷います。

もう少しアドバイスをいただけないでしょうか。

No.2の回答に寄せられた補足コメントです。補足日時：2016/01/14 11:24
通報する

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

最新から表示
回答順に表示

No.3

回答者： rabbit_cat
回答日時：2016/01/14 23:08

当たり前の話ですが、元のデータを何らかの統計処理してしまえば、元のデータそのものよりも情報が減ってしまう（元データから統計処理後の数値を得ることはできるが、統計処理後のデータから元データを復元することはできない）わけで、推定の精度は確実に低下します。

元データがあるなら、それをそのまま教師データとして使いましょう。
教師データ数が全部で千個〜万個程度であるなら、「SVM」を使うのが一番良い結果になりそうかな、と思います。

生成モデル（ベイズ的な考え方）でいくなら「階層ベイズモデル」を作るのが良いでしょう。
例えば、
・日本人なら遺伝子Aか遺伝子Bを持っている。
・遺伝子Aを持つ人はx%の確率で黒髪になる
・遺伝子Bを持つ人はy%の確率で高身長
みたいな感じで事前知識をモデル化して、観測データから未知パラメータを推測します。

- 0
- 件

通報する

No.2

回答者： rabbit_cat
回答日時：2016/01/13 23:51

その「20種類の特徴」というのは、ほぼ確実に独立事象ではない（高い相関がある）と考えられるので、「20種類それぞれの特徴の割合」だけを使って分類するのは困難です。

各事象が独立であることを前提にしている手法ではおそらくまともな分類はできません。少なくとも、相関係数行列がないと。

「20種類の特徴の割合」みたいな元のデータを何らかの統計処理をされた後の数字をつかうのではなくて、元のデータそのものを教師データとして、各種のクラスタリング手法を使うことを考えるべきです。
ランダムフォレストSVMや深層学習など。
最も可能性の高い人種だけではなくて、それぞれの人種である確率もほしいなら、ソフトマックス関数を使うのがよいでしょう。

上で書いたのは、識別モデル的な考えかたですが、
別の方針として、もっと真面目に生成モデルを考えて、ベイズの原理で事後確率を計算する、という方針も考えられると思います。

- 0
- 件

通報する

No.1

回答者： yhr2
回答日時：2016/01/11 16:14

「検定」というよりは、分析・解析・分類ですね。

広い意味での「多変量解析」、その中での「重回帰分析」や「判別分析」に当たると思います。
「原因」と「結果」の関係や、「既知のグループ」（外的基準）があるときに、その標本がどのグループに属するかを推測する手法です。

http://www.macromill.com/landing/words/b011.html
http://www.macromill.com/landing/words/b011.html
http://www.macromill.com/landing/words/b010.html

20項目の項目の相互関係や優先度（たとえばいくら背の高さが低くとも、髪の色が黒でなければ「日本人」ではあり得ない、といったこと）をどう取り扱うか、そういった「基準」「尺度」「重み」の設定が重要かと思います。それによっては「確率が何%」という定量評価は難しいかもしれません。