教えて!goo限定 1000名様に電子コミック1000円分が当たる!!

決定木分析のサンプル数について






決定木分析(分類木)を行う際も、重回帰分析やロジスティック回帰分析などと同じように、投入する独立変数の個数によりかわるのでしょうか?

A 回答 (1件)

企業でSQCを推進する立場の者です。



決定木は、切り分けができなくなれば、それで終わりですから、いわゆる回帰分析におけるサンプル数の厳密性はありません。

回帰分析は、最初に説明変数行列XのXTXの逆行列を求める必要がありますので、XTXに条件(正則であること)が必要です。ですから、古典的な回帰分析では、過飽和(p>n)は許されません。

決定木は、分類が進むと、1つのクラスに入るサンプル数が極端に小さくなり、過学習するようになります。ですから、逆に言うと、大量のサンプルが無いと適用が難しい手法です。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

自分で調べても決定木分析に関してのサンプル数をどのように考えれば良いかわからず困っていました。

質問者様の知識は、やはり専門的に(大学院など)学ばないと身につかないものでしょうか?

お礼日時:2018/12/23 11:47

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q指数分布の最頻値と中央値の求め方を教えてください!!

指数分布の最頻値と中央値の求め方を教えてください!!

Aベストアンサー

指数分布の確率密度関数は
  φ(x) = x≧0 のとき λ exp(-λx), x<0のとき0
であり、
  ∀x(φ(x)≧0), ∫{0~∞} φ(x) dx = 1
を満たしている、フツーの確率密度関数。
最頻値を質問するってのは宿題丸投げじゃないか?中央値cは
  1/2 = ∫{0~c} φ(x) dx
から瞬殺。

Q統計学の質問です。中心極限定理の範囲だと思います。 二項分布に従う確率変数x、pn=x/nをpの不偏

統計学の質問です。中心極限定理の範囲だと思います。
二項分布に従う確率変数x、pn=x/nをpの不偏推定量とする。
この時
lim(n→∞)lim(p→0)P(pn-√pn/n<=p<= pn+√pn/n)=0
を示してほしいです。

<=pn<=のような形の不等式に持ち込むのかなと思ったのですが、どのように計算をするのかもよくわからないので、よろしくお願いします

Aベストアンサー

No.2へのコメントについてです。

 "B(n,p)"という記述が出てきたので、ようやくpが何のことなのかそこそこ確信を持って推察できるようになった(が、B(n,p)の定義が示されていないから質問としてきちんと成立してはいない、ということも指摘しておきます)。

 さて、補足ができんということは、質問者氏にはこの写真の文言の意味が読み取れてないということの証左であり、その状態で「示してほしい」ったってしょうがないでしょう。なので、そこまでの所を詰めておきませう。

● Xは確率変数なので、(pチルダ_n が書けんのでπとでも書くことにして)π = X/n は確率変数である。

● 「πをpの不偏推定量とする」というのは(質問者氏の写し間違いではないことはわかりましたが、)ほぼナンセンス。
(たとえば「正規分布 N(m,σ^2)に従う確率変数Yのサンプルをひとつとったらyだった。そこでyをmの不偏推定量とする」って言われたとすると、そりゃ間違いではないけれども、わざわざ不偏推定量って言うかそれ? まして、「正規分布 N(m,σ^2)に従う確率変数Yをmの不偏推定量とする」って言われたら、ご乱心ではないかと疑うよ。)
だが、これは本題とは何の関係もないので、無視してよろしい。

● 結局、「nπの確率質量関数がB(n,p)に従う」ということだけわかっていればできる計算をする問題。

ってことですね。

No.2へのコメントについてです。

 "B(n,p)"という記述が出てきたので、ようやくpが何のことなのかそこそこ確信を持って推察できるようになった(が、B(n,p)の定義が示されていないから質問としてきちんと成立してはいない、ということも指摘しておきます)。

 さて、補足ができんということは、質問者氏にはこの写真の文言の意味が読み取れてないということの証左であり、その状態で「示してほしい」ったってしょうがないでしょう。なので、そこまでの所を詰めておきませう。

● Xは確率変数なので、(pチルダ_...続きを読む

Q確率と計算式について

確率と計算式を教えてください。

1~40までの数字の書かれた40個の玉の中から、無作為に20個取り出した場合、
その20個の玉の中に指定の10個の玉が入っている確率

わからないのは無作為に取り出した20個すべてが指定の玉ではなく、
その中の10個が指定の玉である確率です
(すなわち残りの10個はなんの数字であっても良いです)

確率と計算式を教えて頂きたいです。
回答お待ちしております。

Aベストアンサー

指定10個の王の順列は10P10
残りの玉30個の内10個の順列は30P10
これらの混ぜ方は20C10あるので
合わせて
10P10×30P10×20C10

これを40P20で割れば答え
0.000218

Q【植生調査・統計解析】「傾向」「示唆」の使い方

現在、植生調査の結果をとりまとめているのですが、「一般の人向け」すなわち植物社会学や生態学に疎い人向けにプレゼンをしなくてはいけないことになりました。

●実験デザイン
・1haの草地に10mメッシュで100のコドラート(2m×2mの方形調査枠)が配置されている
・うち約30は5年前に刈り払いを受けている
・「立地条件」及び「刈り払い履歴」が現在の植生(種組成)に及ぼした影響の評価しなくてはならない

●得られているデータ
・コドラートごとに、種ごとの被度と個体数が調べられている。
・立地条件については、土壌含水率と傾斜角について自分が測定した

●現在までの解析で得られた結果
・「立地条件」については、土壌含水率と傾斜角を説明変数、キク科植物の被度を目的変数とした重回帰分析を行った結果、
①「すべてのコドラートを対象とした解析」および「刈り払い履歴がないものを対象とした解析」についてはMultiple R-squared値は0.15および0.19
②「刈り払い履歴があるものを対象とした解析」については0.50
-------------------------------
・「刈り払い履歴」については、
①「履歴あり」「履歴なし」それぞれのキク科植物の個体数について、独立サンプルのt検定により比較した結果、P=0.02951であって、危険率5%水準で「履歴あり」のほうが有意に多かった
②「履歴なし」コドラートにおけるデータの分散はそれほどでもなく、「履歴あり」コドラートのデータは相当分散した
-------------------------------

●以上の結果から「使おうと思う言葉」
・キク科植物の被度について「刈り払い履歴のあるもの」は立地条件に依存する「傾向」が強かった。
・刈り払いは、キク科植物の個体数を増加させることが「示唆」された
・刈り払い履歴のあるコドラートでは、キク科植物の個体数はばらつきが大きい「傾向」が強かった。

一般の方対象とはいえ、(むしろそうであるからこそ)分析結果の解釈を言葉で表現するには気を使う必要がありますので、私の表現が適切であるか、不適切であるか、より良い言い回しがあるか、ご教示いただければ幸いです。

現在、植生調査の結果をとりまとめているのですが、「一般の人向け」すなわち植物社会学や生態学に疎い人向けにプレゼンをしなくてはいけないことになりました。

●実験デザイン
・1haの草地に10mメッシュで100のコドラート(2m×2mの方形調査枠)が配置されている
・うち約30は5年前に刈り払いを受けている
・「立地条件」及び「刈り払い履歴」が現在の植生(種組成)に及ぼした影響の評価しなくてはならない

●得られているデータ
・コドラートごとに、種ごとの被度と個体数が調べられている。
・立地条...続きを読む

Aベストアンサー

>私の表現が適切であるか、不適切であるか

「定性的」で、アバウトであいまいな表現なので、適切も不適切もないと思います。

>より良い言い回しがあるか、

これで何を表現したい、伝えたいのかによります。そういった「定性的」な内容を伝えたいのであれば、そんなものかな、と思います。
個人的には『「示唆」された』のような主語がはっきりしない言い回しは嫌いですが(「誰が示唆したんですか?」と突っ込みたくなる)。

Q統計学を学ぶためには? 統計学を専門的に学ぶ為には、やはり大学院に行った方が良いでしょうか? どのレ

統計学を学ぶためには?




統計学を専門的に学ぶ為には、やはり大学院に行った方が良いでしょうか?
どのレベルにもよると思いますが、医療従事者で、治療効果のために学会発表や論文発表をしたいと思っています。

Aベストアンサー

>医療従事者で、治療効果のために学会発表や論文発表をしたいと思っています。

だったら、統計学は単なる補助ツールですよね?
大学の教養課程で学ぶ程度の統計学で十分だと思いますよ。
考え方の基本さえ理解すれば、ツールとしては様々なパソコン上の統計ソフトを活用すれば済む話ですから。「SPSS」「エクセル統計」「Minitab」「R」など。

Q統計解析について、Kruskal-Wallisでの変数選択→決定木分析 三群にクラス分けされた群がど

統計解析について、Kruskal-Wallisでの変数選択→決定木分析


三群にクラス分けされた群がどの様な項目が特徴的に分類されるか、決定木分析で解析したいのです。

決定木分析の独立変数を選択する際、Kruskal-Wallis検定で有意差の出たものを投入するという、統計処理方法は、良いのでしょうか?

統計学を専門的に学んだ事がなく、独学で勉強しているものです。

お願いします。

Aベストアンサー

企業でSQCを推進する立場の者です。
実は、どんな回答が付くか見守っていました。

決定木は教師あり学習です。二進木とも呼ばれます。でも、ご質問者は3群だと言ってみえます。これが出来るソフトは、SPSS(IBM)のAnswerTreeしかありません。

ですから、回答が限定的になり、誰も回答しないのではないかと思います。

決定木は独立変数が多くても解析上は問題ありませんが、なぜ恣意的な絞り込みをしたかったのか、まずはその目的を述べないと、絞り込み方法が適切だったのかどうかは判断できないと思います。
決定木は、効いている変数の絞り込みに使われる手法ですから、なぜその前に別の方法で絞り込むのか、それが必要なマズイ原因でもあるのでしょうか。

Q数学(統計学): 母集団とサンプル数から上下の誤差範囲が何%になるか算出する方法

統計学だと思うのですが
母集団が184000人で、
サンプル数が150人の場合
上下の誤差範囲は何%になりますでしょうか。

参考サイト: https://www.web-research.net/column/article25/

この解を出すできるだけわかり易い数式もいただければ助かります。
よろしくお願いします。

Aベストアンサー

>サンプル数が150人の場合

無作為に 150人を抽出したのであれば、この「150人のサンプル」の平均値は正規分布するとみなせます。
このサンプルの平均を μ、標準偏差を s とすると、母集団の平均の存在する範囲は、信頼度 95%なら
 μ - 1.96s/√150 ≦ 母集団の平均の95%信頼区間 ≦ μ + 1.96s/√150    ①
となります。
1.96 は、正規分布で「95%がその中にある」という範囲で、下記の「標準正規分布表」から読み取ります。

↓ 標準正規分布表:ふつうの表は「上半分」しか書かれていないので、「95% = 0.95」であれば、その半分の「0.475」となる Z の値を読み取ってください。「0.475」なら Z=1.96, 「0.495」(信頼度 99%)なら「2.57」です。
https://www.koka.ac.jp/morigiwa/sjs/standard_normal_distribution.htm

(この意味を理解するには、「標準偏差」の「確率分布」を理解する必要があります。下記のようなことです。上記の「1.96s」は「1.96σ」ということです)
http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.html

上記の区間の範囲 ±1.96s/√150 が「誤差」ということになります。
これが一般論としての「推定誤差」です。


あとは、サンプルによって何を調べたいのか、というデータの中身になります。
「150人の身長」とか「体重」ということであれば、150人のデータから平均や標準偏差を計算して①を使って母集団の平均の範囲を求めます。その「区間幅」が誤差(の2倍)ということになります。
①式の「1.96s/√150」(一般のサンプルサイズが n の場合には「1.96s/√n」)が「わかり易い数式」に相当すると思います。

ただ、参考サイトに書かれているものは、こういった「身長」や「体重」といった「分布する数値」ではなく、アンケート調査や世論調査の「内閣支持率」のような「〇か×かの比率」のような二者択一の結果です。
このようなもののサンプルデータからは、上に書いたような「標準偏差」は単純には求まりません。

このような「確率 p の事象が、起こるか起こらないか」の二者択一の「起こる回数」は「二項分布」します。
「n 回やって、k 回起こる確率」は
 P(n, k) = nCk * p^k * (1 - p)^(n - k)   ②
で表わされます。

この場合には、
・期待値(起こる回数の平均値):E = np
・その分散(ばらつき):V = np(1 - p)
となります。

これをサンプルサイズによらない「確率」として扱うと
平均 μ = E/n = p
標準偏差 s = √(V/n) = √[p(1 - p)]
サンプルサイズ: n に相当
ということになります。

これを①式にあてはめると
 p - 1.96[√p(1 - p)] /√n ≦ 母集団の確率の95%信頼区間 ≦ p + 1.96[√p(1 - p)] /√n
→ p - 1.96√[p(1 - p)/n] ≦ 母集団の確率の95%信頼区間 ≦ p + 1.96√[p(1 - p)/n]
ということになります。

この「1.96√[p(1 - p)/n] 」が「誤差」に相当することになります。
p がいくつか、ということに依存するので、「サンプルサイズ n が決まれば一律に決まる」というものではありません。

たとえば、コイントスのような p=1/2 のような場合には、
 誤差 = 1.96 * √[ 0.5 * (1 - 0.5)/150 ] = 0.08000166・・・ ≒ 0.08 (=8%)
サイコロのような p=1/6 の場合には
 誤差 = 1.96 * √[ (1/6) * (1 - 1/6)/150 ] = 0.05964・・・ ≒ 0.06 (=6%)
ぐらいになります。


ただし、上記は「母集団が無限大」という場合の数値です。サンプルサイズに比べて母集団がそれほど大きくない場合には、「有限数補正」(有限母集団修正)というものが必要になります。
そのときの補正係数は、母集団の数を N、サンプルサイズを n とすると
 √[ (N - n)/(N - 1) ]
となります。
https://toukeigaku-jouhou.info/2017/04/03/correction-of-finite-population/

ご質問の場合には、この補正係数は
 √[(184000 - 150)/(184000 - 1)] = 0.999595・・・ ≒ 0.9996
なので、ほとんど考慮する必要はないと思います。

>サンプル数が150人の場合

無作為に 150人を抽出したのであれば、この「150人のサンプル」の平均値は正規分布するとみなせます。
このサンプルの平均を μ、標準偏差を s とすると、母集団の平均の存在する範囲は、信頼度 95%なら
 μ - 1.96s/√150 ≦ 母集団の平均の95%信頼区間 ≦ μ + 1.96s/√150    ①
となります。
1.96 は、正規分布で「95%がその中にある」という範囲で、下記の「標準正規分布表」から読み取ります。

↓ 標準正規分布表:ふつうの表は「上半分」しか書かれていないので、「95% = 0....続きを読む

Q統計学の問題です。 写真(a)の問題は平均が124、分散が50と少数になりませんでした。残りの(b)

統計学の問題です。
写真(a)の問題は平均が124、分散が50と少数になりませんでした。残りの(b)、(c)の問題は何をするのかもわかりません。統計学は勉強しだしたばかりで得意ではないので出来るだけわかりやすく解説していただけるとありがたいです。
お願いします。

Aベストアンサー

iid とは「独立同分布」(Independent and identically distributed)のことです。
まあ、あまり深く考えずに「正規分布する」と考えればよいです。

(a) 標本平均は 124
 平均との「偏差」の二乗の合計を、単純に個数で割った「標本分散」は 40
 「不偏分散」は、(個数 - 1)で割って 50
 確かに小数点第1位は出てきませんね。一種のひっかけでしょう。

 ここで、用語が非常に紛らわしいのですが、通常は「標本分散」と「不偏分散」は異なる意味で使われることが多いです。問題文で「(不偏)標本分散」と書かれているのは、ちょっと紛らわしいですね。

(b) そもそも、「平均」とか「分散」を求めるのは「記述統計」という単なる「計算処理」ですが、統計がそもそも本領発揮するのは「小数の標本から、おおもとの母集団の特性(母数)を推定する」という「推測統計」にあります。
 これは、標本から、未知の「母集団の平均」を推定する問題です。

 標本平均が 124 なので、母集団の平均もその辺にあるに違いない、と推定できます。
 ただし、ピッタリ「標本平均」と一致するとは考えにくいので、その周りにある幅を持たせて「ある確率でこの範囲にある」と表現するのが妥当そうです。「この範囲にある確率が 95% である」というのが「95%信頼区間」(「0.95の信頼区間」と書かれている)です。

 5個の標本だと、「正規分布する」といっても個数(サンプルサイズ)が少なすぎるので、「正規分布」の「サンプルサイズが少ない場合(おおむね30個以下)」の分布として「t分布」というものを使います。
 詳しくはテキストを復習してもらうしかないのですが、サンプルサイズが 5 の場合には、そこから 1 を引いた「自由度4のt分布」に従うということで、例えば下記の「t分布表」から「自由度=4、有意確率=両側5%」(信頼度 95% = 有意確率 5%)のところを読み取って
 2.7764
を得ます。
https://www.koka.ac.jp/morigiwa/sjs/td.htm

 これより、母集団の平均の「95%信頼区間」は
  平均 ± 2.7764 × √[ (不偏分散)/(標本サイズ)]
ということになります。(どうしてこうなるのかも、テキストを見てください)
 ここで
  √[ (不偏分散)/(標本サイズ)] = √(50/5) = √10 ≒ 3.1623
従って、「95%信頼区間」は
  124 - 2.7764 × 3.1623 ~ 124 + 2.7764 × 3.1623
 → 124 - 8.78 ~ 124 + 8.78
 → 115.2 ~ 132.8

う~ん、√5 は使わないなあ。
↓ 参考サイト
https://bellcurve.jp/statistics/course/8972.html

(c) 母分散の信頼区間も同じような考え方です。母分散の推定値は「不偏分散」の 50 ですが、これも「ピッタシ 50」ではなく、ある範囲で分布するはずです。その「確率的に 95% でこの範囲に入る」ものです。
 そのために「基準値からのばらつきの分布」である「カイ二乗分布」を使います。こちらも、自由度は 5 - 1 = 4 です。

 下記のカイ二乗分布表から、自由度4の「左側2.5%」と「右側2.5%」を調べて、各々
  0.484419、11.1433
を得ます。(左側は、表から 0.975 を読み取る)
https://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/chi2disttab.html

 これより、母集団の分散を σ^2 とすると、
  0.484419 ≦ (不偏分散)*4/σ^2 ≦ 11.1433
ということになります。(どうしてこうなるのかも、テキストを見てください)
 あとはこれを加工して、左半分から
  0.484419 ≦ 50*4/σ^2
 → σ^2 ≦ 50*4/0.484419 ≒ 413
 右半分から
  50*4/σ^2 ≦ 11.1433
 → 50*4/11.1433 ≦ σ^2
 → 18 ≦ σ^2

 以上から
  18 ≦ σ^2 ≦ 413

↓ これも参考サイト
https://bellcurve.jp/statistics/course/9212.html


ざっとやっただけなので、表の読み違え、計算間違いがあるかもしれません。
この機会に、「t分布」「カイ二乗分布」をしっかり復習して理解しておくとよいと思います。

iid とは「独立同分布」(Independent and identically distributed)のことです。
まあ、あまり深く考えずに「正規分布する」と考えればよいです。

(a) 標本平均は 124
 平均との「偏差」の二乗の合計を、単純に個数で割った「標本分散」は 40
 「不偏分散」は、(個数 - 1)で割って 50
 確かに小数点第1位は出てきませんね。一種のひっかけでしょう。

 ここで、用語が非常に紛らわしいのですが、通常は「標本分散」と「不偏分散」は異なる意味で使われることが多いです。問題文で「(不偏)標本分散」と...続きを読む

Q統計の問題です この写真の(b)の分布を述べろとはどういう風に答えればいいのでしょうか?

統計の問題です
この写真の(b)の分布を述べろとはどういう風に答えればいいのでしょうか?

Aベストアンサー

No.1です。「補足」を見ました。(d) ですか。

前半は、(Xbar - μ) の期待値は 0、S^2 はおそらく「不偏分散」だと思うので √(S^2 /n) は標本平均の分布の標準偏差です。ということは、分布としては「平均が 0、標準偏差が 1」の正規分布となります。「標準正規分布」と呼ばれます。

「不偏分散」は、標本の二乗偏差和を「標本サイズ - 1」で割ったものです。つまりは、「不偏分散」に「標本サイズ - 1」(n - 1) をかけたものは「標本の二乗偏差和」ということです。
「標本の二乗偏差」(n 個)の合計(二乗偏差和)と「母分散」の比は「カイ二乗値」と呼ばれ、この場合には「自由度 (n - 1) のカイ二乗分布」します。
従って、後半に示された統計量の分布は「自由度 (n - 1) のカイ二乗分布」です。

各々の詳しい定義や意味は、テキストを見てください。

Q標準偏差の計算

標準偏差同士の計算はどのように行えば良いでしょうか?
Aの標準偏差を0.1とし,Bの標準偏差を0.01とします。


(A±0.1)/(B±0.01)

上記のような計算を行うのですが、
上記の標準偏差はどのようにすれば求まりますか?

Aベストアンサー

この「標準偏差」は、通常は「誤差」と呼ばれるものです。

誤差をもったもの同士の演算によって、その結果の誤差がどうなるか、というのは「誤差伝搬」ということで整理されています。
↓ こんなサイトを参照ください。
http://www.tagen.tohoku.ac.jp/labo/ishijima/gosa-01.html

数学的には、テイラー展開を使って求めたものであり、それで証明できます。
興味があれな自分でもやってみるとよいです。

ちなみに、与えられた式については

(A ± 0.1)/(B ± 0.01)
= A/B ± √[ (0.1/B)^2 + (0.01/A)^2 ]

となります。


人気Q&Aランキング