以前類似した概念で質問しましたが、一部考え方が変わりましたので、再度質問させていただきます。お許しください。
N=8000ほどの母集団が存在し、50ほどのグループに分かれています。
そしてN=8000に対して30000種類ほどの特徴の有無が0, 1表記されています。
例えば、以下の具合です。
特徴1 特徴2 特徴3 ・・・・・ 特徴30000まで
00001 1 0 0
00002 0 0 0
00003 0 1 0
00004 1 0 1
00005 0 1 1
00006 1 1 1
~N=8000まで
更に00001~00203番まではグループA、00204~00303まではグループB
といった具合で、特徴1-3000にはないある決定的な要因でグループわけがされています。
人種に例えていただくとわかりやすいかと思いますが、グループAがアメリカ、Bが日本で、00001などが個人個人、特徴が身長・目の色などと考えていただくといいと思います。
特徴1と2にはまずは相関関係は全くないと想定して話を進めます。
やりたいとこととしては、
①新しい8001が入ってきたときにどのグループに配属されるかを決定すること(できれば確率も出したいです。例えばグループAの確率が30%、グループBは5%など)。
②特徴が30000種類ありますが、この中でグループ配属に関わる特徴のみを抽出したいと考えています。
どのような検定・解析方法が考えられますでしょうか?
御教示いただけると大変助かります。
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
>当方統計学は素人ですが、ソフトを使えば簡単にできますでしょうか?
とりあえず試してみたいということでしたら、「R」という統計解析の分野でよく使われているソフト(フリー)を使うのがよいかなと思います。
kernlibというパッケージを使うのが一番手軽だと思います。
http://qiita.com/kokumura/items/64eefc8594995b1d …
理論を勉強したいということなら、最近でた
http://www.amazon.co.jp/dp/4061529064/
はどうでしょうか。かなり丁寧に書かれていると思います。
No.2
- 回答日時:
前回の回答で納得いかないということで、私はお呼びではないのかもしれませんが。
質問のような状況は、機械学習の「識別(分類)問題」というものの典型的な枠組みにドンピシャではまっているので、まず少し機械学習という分野について勉強されてみたらどうでしょうか。
有名なビショップ先生の本(この世界では「ビショップ本」とか「PRML]とか呼ばれてほぼ皆が読んで(積んであるだけ?)います)など。
http://www.amazon.co.jp/%E3%83%91%E3%82%BF%E3%83 …
あるいは、
http://breakbee.hatenablog.jp/entry/2014/08/16/0 …
なんかから分かりやすそうな本を読むなり。
個人的には、前回も書きましたが、それくらいの特徴の数とデータ数であれば、まずは、サポートベクターマシン(SVM)を試されることをお勧めします。
ものすごい参考になっていますが、
前回と質問内容を変えましたので再度聞かせていただきました。
当方統計学は素人ですが、ソフトを使えば簡単にできますでしょうか?
研究で、どうしても取り入れたい概念です。
個人的にもう少しやり取りしたいです。
No.1
- 回答日時:
特徴1~3000 が、それぞれ独立で意味のある「特性値」であるとすれば、簡易的には下記のような「機械的判定方法」は考えられます。
それがどのような意味を持つのかは、何とも言えませんが。(1)特徴1~3000 それぞれに対し、全体の「平均」を取る。
(2)各グループに分割した固体の特徴1~3000 それぞれの「平均値」を求め、(1)の全体平均からの「偏差」を求める。
(3)これにより、グループNの特徴を、
f(N) = (偏差N/0001)× g(0001) + (偏差N/0002)× g(0002) + (偏差N/0003)× g(0003) + ・・・ + (偏差N/3000)× g(3000)
によって表現する。g(X) (X=1~3000)をどのようなものにするのかは、工夫を要すると思います。
すべて異なる関数としてもよいし、似たような特性をグループにまとめて共通の関数にしてもよいし、優先順位順に並べるための関数でもよいし、重みづけのための関数(たとえば g(0001) = 1000 * g(0002) とか)でもよいし。
(4)あらたに出現した固体に対しては、
f(8001)= (偏差8001/0001)× g(0001) + (偏差8001/0002)× g(0002) + (偏差8001/0003)× g(0003) + ・・・ + (偏差8001/3000)× g(3000)
を計算して、(3)によって計算した最も近い f(N) を特定して「グループ N に最も近い」と判定する。
ここでは、とにかく(3)の評価式をどのように作るか、ということがキーポイントとであることがお分かりかと思います。
例えば「人種」についていえば、「肌の色」の特徴項目が大きな決定要因になることは間違いなく、そういった「これが一致すれば確実に該当」というものと、「これが違ったら確実にあり得ない」というような「決定的要因」と、例えば「手の指の本数」のように全く関係しない「無駄要因」をどのように切り分けるか、というのが(3)のポイントかと思います。
さらに蛇足ですが、「人種」ではなく「どこの国民か?」というような問題だと、同じアメリカ人にも「白人、黒人、日系人、帰化人、難民」もいる(日本国民には、日本人と結婚した白人もいる)、というような事態をどう評価するのか、「人間は2足歩行、動物は4本足」に「障碍者をどう考えるか」という応用問題も存在することをよく認識することも必要かと思います。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 哲学 概念について 1 2023/04/09 15:09
- その他(ニュース・社会制度・災害) ステレオタイプとか紋切り型な設定や情報を見かけますか? 他者・自己に関する認知バイアスです。 1 2022/04/15 22:20
- 哲学 社会的不利は、その個人の行為や状態と、その個人自信あるいは彼の属する特定のグループの(1)との間に見 1 2022/08/24 15:24
- 住民税 住民税決定通知書、特別徴収について 回答お願いします。 住民税、特別徴収義務者です。 従業員をR4年 6 2023/04/07 05:15
- 投資・株式の税金 株式譲渡益を住民税で申告不要を選択する場合 1 2022/04/05 19:35
- Excel(エクセル) SUMIF関数について 4 2023/06/14 13:13
- 住民税 住民税について 今までなかったのに、急に納税通知書が来て 書類を確認すると「特別徴収から普通徴収に変 7 2023/07/05 11:50
- 就職 マイナビで、面接(個別/グループ)と書いてあるのですが、どういう意味ですか? 選考の特徴として、「グ 1 2022/04/05 20:41
- 財務・会計・経理 住民税の処理について教えてほしいです。 給与所得に係る特別区民税・都民税 特別徴収税額の決定・変更通 3 2023/05/18 13:24
- 高校 数学A組み合わせの考え方 3 2022/04/19 09:05
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
高校偏差値67ってどのくらい字...
-
標準偏差
-
平均年齢の表記方法(統計学的に)
-
吹田市に出来た大和大学は、経...
-
偏差値60の人と偏差値50の人が...
-
なぜ共分散はSxyで表すのですか...
-
合成標準偏差の計算式
-
今日数学のテストが返ってきて ...
-
社会人の偏差値の調べ方
-
中学1.2年で5教科の合計点が350...
-
永野芽郁さんは、顔面偏差値い...
-
エラーバーの書き込み方
-
偏差値の求め方(逆の場合)
-
3教科の偏差値の出し方について...
-
IQ 105は、 偏差値だと何ですか?
-
標準誤差の式の分母はなぜ√n
-
テスト問題の項目分析の弁別指...
-
科目別偏差値から5科目偏差値...
-
標準偏差の出し方
-
安全在庫=安全係数×√(リードタ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
標準偏差
-
(1)で分散を求める時、解答では...
-
高校偏差値67ってどのくらい字...
-
推定(統計)です。有効数字の...
-
中学1.2年で5教科の合計点が350...
-
幾何標準偏差の求め方
-
社会人の偏差値の調べ方
-
Excelで近似式の標準偏差を算出...
-
パーセンテージのバラツキを表...
-
標準偏差に「通常の範囲」はあ...
-
今日数学のテストが返ってきて ...
-
偏差値から順位を求めるには
-
3教科の偏差値の出し方について...
-
吹田市に出来た大和大学は、経...
-
【 数Ⅰ 分散 】 問題 20個の値...
-
なぜ共分散はSxyで表すのですか...
-
平均年齢の表記方法(統計学的に)
-
顔面偏差値100点満点中何点ぐら...
-
偏差値60の人と偏差値50の人が...
-
科目別偏差値から5科目偏差値...
おすすめ情報