以前類似した概念で質問しましたが、一部考え方が変わりましたので、再度質問させていただきます。お許しください。
N=8000ほどの母集団が存在し、50ほどのグループに分かれています。
そしてN=8000に対して30000種類ほどの特徴の有無が0, 1表記されています。
例えば、以下の具合です。
特徴1 特徴2 特徴3 ・・・・・ 特徴30000まで
00001 1 0 0
00002 0 0 0
00003 0 1 0
00004 1 0 1
00005 0 1 1
00006 1 1 1
~N=8000まで
更に00001~00203番まではグループA、00204~00303まではグループB
といった具合で、特徴1-3000にはないある決定的な要因でグループわけがされています。
人種に例えていただくとわかりやすいかと思いますが、グループAがアメリカ、Bが日本で、00001などが個人個人、特徴が身長・目の色などと考えていただくといいと思います。
特徴1と2にはまずは相関関係は全くないと想定して話を進めます。
やりたいとこととしては、
①新しい8001が入ってきたときにどのグループに配属されるかを決定すること(できれば確率も出したいです。例えばグループAの確率が30%、グループBは5%など)。
②特徴が30000種類ありますが、この中でグループ配属に関わる特徴のみを抽出したいと考えています。
どのような検定・解析方法が考えられますでしょうか?
御教示いただけると大変助かります。
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
私も統計学は無知なのですが・・・
こういった複数の特徴の組み合わせからカテゴリ分けする方法でキモになるのは、コーディング(特徴の表現の仕方)と評価関数の2点です。御質問の例では、コーディングはグループ内の共通の特徴の抽出方法、評価関数はその比較の仕方になると思います。20年ほど前、患者の症状や検査の値から病名を推定する、といった研究がありましたが、それに似ていますね。
例えば、コーディングにはより多くのメンバが属する特徴の抽出、評価関数に正規化したハミング距離といった方法を考えます。
まずは2に関して、各グループで全特徴の平均を求めるというところはNo.2の回答と同じです。通常は完全一致ということは珍しいため、中間の値を閾値で切り、don't careにするということをします。例えば、0.05~0.95とか0.2~0.8はどちらともいえない、という風にみなすのです。これによって各グループの特徴を定義します。
その上で、1については各グループに対してdon't careを除く各特徴だけを見たハミング距離(ただしグループごとに見る特徴の数が違うので正規化する必要あり)から、そのグループらしさを見つけ出す、といった感じだと思います。
サンプル値を増やし、かつサンプルの正解がわかっている(教師入力になりうる)のであれば、機械学習によって中間値の閾値やグループ所属確率を決定付ける関数のパラメータを調整することもできると思います。
No.2
- 回答日時:
私も、統計は全く分からないのですが、、、
特徴はすべて0か1で表現されており、母集団にはすべてのグループが含まれている(新しいグループが発生する可能性がな)と考えるなら、各グループごとにすべての特徴についての平均を求め、それが0と1のもののみを抜き出し、すべてのグループについて比較を行えば②を行えると思います。
①の新しいサンプルについては結構難しいですね。 ②で行った特性にマッチするリストを作り上げ、複数発生した場合はその中から一つを選びださなくてはいけないことになりますが、②の特性というものの特徴番号が同じではないのでどのように確率で表現できるのかが、私には思いつきません。 まあ、30000特徴あるなら、複数発生しない可能性のほうが高いかもしれないですが、元のデータの特徴の偏り方によっては何でもありでしょうから、何とも言えません。
遺伝子系の統計分析などの手法の出版物や論文をあたると、ヒントがあるかもしれません。
No.1
- 回答日時:
当方、統計はまったく判りません。
>50ほどのグループ
これは、前半25のグループに含まれてるか?の分類で分けるのでは?
前半25なら1、後半25なら0
さらに最初の12のグループに入るか?
最初の12なら1、次の12(13)なら0、その次の12なら1、最後の12(13)なら0
って、特徴に入れていくのでは?
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 哲学 概念について 1 2023/04/09 15:09
- その他(ニュース・社会制度・災害) ステレオタイプとか紋切り型な設定や情報を見かけますか? 他者・自己に関する認知バイアスです。 1 2022/04/15 22:20
- 哲学 社会的不利は、その個人の行為や状態と、その個人自信あるいは彼の属する特定のグループの(1)との間に見 1 2022/08/24 15:24
- 住民税 住民税決定通知書、特別徴収について 回答お願いします。 住民税、特別徴収義務者です。 従業員をR4年 6 2023/04/07 05:15
- 投資・株式の税金 株式譲渡益を住民税で申告不要を選択する場合 1 2022/04/05 19:35
- Excel(エクセル) SUMIF関数について 4 2023/06/14 13:13
- 住民税 住民税について 今までなかったのに、急に納税通知書が来て 書類を確認すると「特別徴収から普通徴収に変 7 2023/07/05 11:50
- 就職 マイナビで、面接(個別/グループ)と書いてあるのですが、どういう意味ですか? 選考の特徴として、「グ 1 2022/04/05 20:41
- 財務・会計・経理 住民税の処理について教えてほしいです。 給与所得に係る特別区民税・都民税 特別徴収税額の決定・変更通 3 2023/05/18 13:24
- 高校 数学A組み合わせの考え方 3 2022/04/19 09:05
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
天然って言われる人の特徴って...
-
女友達に依存されたり執着され...
-
ナリヤンの特徴とは?
-
有限小数の最長
-
純粋な大人っているんですか? ...
-
現在、4年生なのですが、教授か...
-
「ご教授」と「ご教示」どちら...
-
ディプロマとバチャラーの違い
-
大学院の修士課程と博士課程の...
-
防虫剤について質問!! 食害を...
-
今日の「3日後」は23日?24日?
-
卒論テーマがすで研究済みだっ...
-
ダブルマスター(修士2つ)の人...
-
修士2年で国際学会で受賞するの...
-
学会は一般人が参加してもいい...
-
工学博士,博士(工学),Ph.D.の...
-
博士課程後すぐに助教になれる...
-
研究内容を学会で発表するけど...
-
博士号取得の難易度について
-
学会発表で失敗・・・
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
数学 165にできるだけ小さい自...
-
学位論文を郵送する際の添え状
-
女友達に依存されたり執着され...
-
天然って言われる人の特徴って...
-
数A 確率/場合の数 異なる6個の...
-
提出期限を過ぎてしまったとき...
-
なぜ無限等比数列では場合わけ...
-
有限小数の最長
-
(2)について。 zが無限のときは...
-
パワハラする人の特徴教えてく...
-
ナリヤンの特徴とは?
-
考え方がわかりません。 『3つ...
-
数学の組み合わせ問題について...
-
パワハラする人の特徴教えてく...
-
オレンジの蛍光ペンで引いてあ...
-
コミュニケーション能力が高い...
-
工学博士,博士(工学),Ph.D.の...
-
ディプロマとバチャラーの違い
-
「ご教授」と「ご教示」どちら...
-
今日の「3日後」は23日?24日?
おすすめ情報