最新閲覧日:

以前類似した概念で質問しましたが、一部考え方が変わりましたので、再度質問させていただきます。お許しください。

N=8000ほどの母集団が存在し、50ほどのグループに分かれています。
そしてN=8000に対して30000種類ほどの特徴の有無が0, 1表記されています。
例えば、以下の具合です。

特徴1 特徴2 特徴3 ・・・・・ 特徴30000まで
00001 1 0 0
00002 0 0 0
00003 0 1 0
00004 1 0 1
00005 0 1 1
00006 1 1 1
~N=8000まで

更に00001~00203番まではグループA、00204~00303まではグループB
といった具合で、特徴1-3000にはないある決定的な要因でグループわけがされています。
人種に例えていただくとわかりやすいかと思いますが、グループAがアメリカ、Bが日本で、00001などが個人個人、特徴が身長・目の色などと考えていただくといいと思います。
特徴1と2にはまずは相関関係は全くないと想定して話を進めます。

やりたいとこととしては、
①新しい8001が入ってきたときにどのグループに配属されるかを決定すること(できれば確率も出したいです。例えばグループAの確率が30%、グループBは5%など)。
②特徴が30000種類ありますが、この中でグループ配属に関わる特徴のみを抽出したいと考えています。

どのような検定・解析方法が考えられますでしょうか?
御教示いただけると大変助かります。

A 回答 (3件)

>当方統計学は素人ですが、ソフトを使えば簡単にできますでしょうか?


とりあえず試してみたいということでしたら、「R」という統計解析の分野でよく使われているソフト(フリー)を使うのがよいかなと思います。
kernlibというパッケージを使うのが一番手軽だと思います。
http://qiita.com/kokumura/items/64eefc8594995b1d …

理論を勉強したいということなら、最近でた
http://www.amazon.co.jp/dp/4061529064/
はどうでしょうか。かなり丁寧に書かれていると思います。
    • good
    • 0

前回の回答で納得いかないということで、私はお呼びではないのかもしれませんが。


質問のような状況は、機械学習の「識別(分類)問題」というものの典型的な枠組みにドンピシャではまっているので、まず少し機械学習という分野について勉強されてみたらどうでしょうか。
有名なビショップ先生の本(この世界では「ビショップ本」とか「PRML]とか呼ばれてほぼ皆が読んで(積んであるだけ?)います)など。
http://www.amazon.co.jp/%E3%83%91%E3%82%BF%E3%83 …

あるいは、
http://breakbee.hatenablog.jp/entry/2014/08/16/0 …
なんかから分かりやすそうな本を読むなり。

個人的には、前回も書きましたが、それくらいの特徴の数とデータ数であれば、まずは、サポートベクターマシン(SVM)を試されることをお勧めします。
    • good
    • 1
この回答へのお礼

ものすごい参考になっていますが、
前回と質問内容を変えましたので再度聞かせていただきました。
当方統計学は素人ですが、ソフトを使えば簡単にできますでしょうか?
研究で、どうしても取り入れたい概念です。
個人的にもう少しやり取りしたいです。

お礼日時:2016/02/05 19:52

特徴1~3000 が、それぞれ独立で意味のある「特性値」であるとすれば、簡易的には下記のような「機械的判定方法」は考えられます。

それがどのような意味を持つのかは、何とも言えませんが。

(1)特徴1~3000 それぞれに対し、全体の「平均」を取る。
(2)各グループに分割した固体の特徴1~3000 それぞれの「平均値」を求め、(1)の全体平均からの「偏差」を求める。
(3)これにより、グループNの特徴を、
  f(N) = (偏差N/0001)× g(0001) + (偏差N/0002)× g(0002) + (偏差N/0003)× g(0003) + ・・・ + (偏差N/3000)× g(3000)
によって表現する。g(X) (X=1~3000)をどのようなものにするのかは、工夫を要すると思います。
 すべて異なる関数としてもよいし、似たような特性をグループにまとめて共通の関数にしてもよいし、優先順位順に並べるための関数でもよいし、重みづけのための関数(たとえば g(0001) = 1000 * g(0002) とか)でもよいし。

(4)あらたに出現した固体に対しては、
  f(8001)= (偏差8001/0001)× g(0001) + (偏差8001/0002)× g(0002) + (偏差8001/0003)× g(0003) + ・・・ + (偏差8001/3000)× g(3000)
を計算して、(3)によって計算した最も近い f(N) を特定して「グループ N に最も近い」と判定する。

 ここでは、とにかく(3)の評価式をどのように作るか、ということがキーポイントとであることがお分かりかと思います。
 例えば「人種」についていえば、「肌の色」の特徴項目が大きな決定要因になることは間違いなく、そういった「これが一致すれば確実に該当」というものと、「これが違ったら確実にあり得ない」というような「決定的要因」と、例えば「手の指の本数」のように全く関係しない「無駄要因」をどのように切り分けるか、というのが(3)のポイントかと思います。
 さらに蛇足ですが、「人種」ではなく「どこの国民か?」というような問題だと、同じアメリカ人にも「白人、黒人、日系人、帰化人、難民」もいる(日本国民には、日本人と結婚した白人もいる)、というような事態をどう評価するのか、「人間は2足歩行、動物は4本足」に「障碍者をどう考えるか」という応用問題も存在することをよく認識することも必要かと思います。
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aと関連する良く見られている質問

Qf(a+√b)=c+√b f(a-√b)=c-√b f(a+bi)=c+dif(a-bi)=c-di

f(a+√b)=c+√b
ならば
f(a-√b)=c-√b
は成り立ちますか。
√の中は変わらないので計算後も√bのままでいいでしょうか。

f(a+bi)=c+di
ならば
f(a-bi)=c-di
は成り立ちますか。
前回の質問が締め切られてしまいました。
前回回答いただきましたTacosanさま、かなり考えましたがヒントに最後まで答えることが出来ず、申し訳ありませんでした。一定の条件がわかりませんでした。こちらにも是非回答お願いいたします。詳しい回答本当にありがとうございました。

Aベストアンサー

反例:
xの一次式
f(x) = x ・(1-√2) + √2

f(1+√2) = (1+√2)・(1-√2) + √2
=1-2 + √2
=-1+ √2

f(1-√2) = (1-√2)・(1-√2) + √2
= 1 -2√2 + 2 + √2
= 3 - √2 ≠ - 1 - √2

---
f(x) = g(a,|x-a|) + (x - a)
と表せるなら
 f(a+√b) = g(a,|√b|) + √b = g(a,√b) + √b
 f(a-√b) = g(a,|-√b|) + (-√b) = g(a,√b) - √b
c = g(a,√b) とすれば
 f(a+√b) = c + √b
 f(a-√b) = c - √b
です。
ですが、 c + √b という形を見ただけでは、√b が「 + (x-a) 」に由来するものなのか、g(a,|x-a|)の|x-a|に由来するものなのか、g()に由来する xに依存しない定数√b なのか、判断できません。

Q1/6n(n+1)(2n+1)+1/2n(n+1) の計算を教えて下さい

1/6n(n+1)(2n+1)+1/2n(n+1)
の計算を教えて下さい

Aベストアンサー

1/6=(1/3)×(1/2)
n(n+1)(2n+1)と
n(n+1)
を比べると、n(n+1)が共通。
(1/2)n(n+1)が両項で共通しているので、(1/2)n(n+1)=Cとおくと、
与式=(1/3)(2n+1)C+C
  =(1/3){(2n+1)C+3C}
  =(1/3){(2n+1)+3}C
  =(1/3)(2n+4)C
  =(1/3)・2・(n+2)C
Cを戻して
  =(1/3)・2・(n+2){(1/2)・n(n+1)}
  =(1/3)(n+2)n(n+1)
  =(1/3)n(n+1)(n+2)
計算を少なくするのは結構重要です。
が、大学受験生の頃は、ちっともできませんでした。

Qlim(n→∞)(n((n+1)^(1/n)-1)-logn)=?

lim(n→∞)(n((n+1)^(1/n)-1)-logn)=?

Aベストアンサー

いささか乱暴な物理数学風でやってみようかな。
えーと、まず(n+1)^(1/n)ってところ、n→∞なら(n+1)もnも一緒でしょ、ということで、
  n((n^(1/n))-1) - ln(n)
を考えことにする。
 また、nを正の実数だと思ったとき、上記の式は連続関数になっていて特異点もないから、nを正の実数に拡張しても問題ないでしょ。ならば
  x = 1/n
としてx→+0を考える方がなじみがあるなあ。
  ε = (((1/x)^x) - 1)/x + ln(x)
とおき、移項して
  1+x(ε-ln(x)) = (1/x)^x
さらに両辺の対数をとって移項すると
  ln(1+x(ε-ln(x))) + x ln(x) = 0
ここから、x→+0のときxε→0であることは簡単に出る(ので省略)。つまりx→+0の極限でεが(何か有限値に)収束することが確認できた。さて、ちょっと戻って(てか、x>0なんで)
  ln(1+x(ε-ln(x)))/x + ln(x) = 0
ln(1+t)のマクローリン展開は
  ln(1+t) = -Σ{k=1,…,∞} ((-t)^k)/k
だっけか。これを使うと、
  ln(1+x(ε-ln(x))) = x(ε-ln(x)) - Σ{k=2,…,∞} (-(x(ε-ln(x)))^k)/k
つまり、
  ln(1+x(ε-ln(x)))/x + x ln(x) = ε- Σ{k=1,…,∞}((ε-ln(x))(-x(ε-ln(x)))^k)/(k+1)
で、左辺は0だというのだから、
  ε= Σ{k=1,…,∞}((ε-ln(x))(-x(ε-ln(x)))^k)/(k+1)
を得る。
 右辺の各項の(ε-ln(x))(-x(ε-ln(x)))^k)の展開を考えると、x→+0でxln(x)→0, x((ln(x))^2)→0であることと、εが有限であることから、x→+0のとき、展開に現れる
  (x^k)((ln(x))^(k-m))(ε^(m+1)) (0≦m≦k)の形の項は全部→0
  (x^k)((ln(x))^(k-m+1))(ε^m) (0≦m≦k)の形の項も全部→0
なので、
  ((ε-ln(x))(-x(ε-ln(x)))^k)/(k+1)→0
つまり、右辺は各項ごとに収束して全部0。従ってx→+0で
  ε→ 0
だな。
 計算間違いの常習犯なので、チェックよろしく。

いささか乱暴な物理数学風でやってみようかな。
えーと、まず(n+1)^(1/n)ってところ、n→∞なら(n+1)もnも一緒でしょ、ということで、
  n((n^(1/n))-1) - ln(n)
を考えことにする。
 また、nを正の実数だと思ったとき、上記の式は連続関数になっていて特異点もないから、nを正の実数に拡張しても問題ないでしょ。ならば
  x = 1/n
としてx→+0を考える方がなじみがあるなあ。
  ε = (((1/x)^x) - 1)/x + ln(x)
とおき、移項して
  1+x(ε-ln(x)) = (1/x)^x
さらに両辺の対数をとって移項すると
  ln(1+x(...続きを読む

Q行列の証明です Aが正則の時 n←Nに対して(A^-1)^n=(A^-n)^-1の証明出来る方がいた

行列の証明です
Aが正則の時 n←Nに対して(A^-1)^n=(A^-n)^-1の証明出来る方がいたらお願いします!

Aベストアンサー

左辺がA^nの逆行列で有ることを示せば良い。

正則行列Bに対して異なる逆行列C, Dが存在すると
C=CE=CBD=ED=D で矛盾。従ってある正則行列に対して
その逆行列は1つしかない。

A^n(A^(-1))^n=A^(n-1)AA^(-1)(A^(-1))^(n-1)=
A^(n-1)(A^(-1))^(n-1)=・・・=A^2A^(-2)=AA^(-1)=E

なので (A^(-1))^nはA^nの逆行列 つまり (A^n)^(-1)

Q数学の数列の問題について質問です。 問題 :a1=3,a n+1=2a n/3 + 5・2^n+1(

数学の数列の問題について質問です。

問題
:a1=3,a n+1=2a n/3 +
5・2^n+1(n=1,2,3・・・)
により定められる数列{a n}について考える。

(1)a2=22

(2)b n=a n/2^nとおくと、b n+1=b n/3 +5がア成り立つ。そこで、b n+1-α=1/3 (b n-α)
となる定数αを求めると,α=15/2となる。よって,数列{bn}の一般項はbn=(オ)となる。

解答
:(オ)
b n+1 - (15/2)=1/3(b1-15/2)

⇔bn-15/2=(1/3)^n-1(b1-15/2)

ここで質問です。
どうして
b n+1 - (15/2)=1/3(bn-15/2)
から
bn-15/2=(1/3)^n-1(b1-15/2)
になるのでしょうか?
どこに着目すれば良いでしょうか?
解説よろしくお願いします。

一応問題画像添付します。

Aベストアンサー

>:(オ)
>b n+1 - (15/2)=1/3(b1-15/2)

>⇔bn-15/2=(1/3)^n-1(b1-15/2)

2行目、b_{n+1}-(15/2)=(1/3)(b_n-(15/2))
の間違いでは?これと4行目が同値であるのは,
明らかだと思います.


このカテゴリの人気Q&Aランキング

おすすめ情報