今だけ人気マンガ100円レンタル特集♪

とある問題で、
「N(np, npq)に従う確率変数Xについて」
「10人以上、20人未満の確率を求めよ」
とありました

標準化するために直す時に、10人以上は、9.5以上、にした方が精度が上がるらしいので(半整数補正)、
Z=(9.5-np)/σ
で確率を求めているのですが、

20人未満の確率は、
20人以上の確率の排反、として
Z=(20-np)/σ
その時の確率pを1-pする

としていました

半整数補正は10人以上の時はしているのに、20人以上の時はしていませんよね

ある程度大きな数字はしなくてもよいのでしょうか?
それとも、常にしておいた方がよいのでしょうか?

よろしければお願い致します

質問者からの補足コメント

  • 補足ですが、np(平均)の単位は(人)です

      補足日時:2017/08/07 19:18
  • うーん・・・

    問題は、
    「国民の症状の割合p=0.045の症状について、母集団400人の集団について、400人のうち、症状がある人数が10人以上20未満の確率を求めよ」です
    B(400, 0.045)を正規分布に近似するとN(18, 4.14^2)

    ここから標準化をしてz=(9.5-18)/4.14
    とz=(20-18)/4.14
    として、その確率の差をとっています

    10人以上の標準化は9.5にしているのに、20人以上の標準化は20のままなのは何故かな、と思いました
    20未満の確率p=1-{20人以上の確率p}としているようですので、20人以上の標準化なら、19.5にしないといけないのでは、と思いました

    No.1の回答に寄せられた補足コメントです。 補足日時:2017/08/07 20:50

A 回答 (3件)

No.1です。

典型的な「二項分布」ですね。サンプル数が 400 もあるので、十分に正規分布で近似できると思います。

二項分布の「半整数補正」は、正規分布が「連続関数」であるのに対して、二項分布の度数分布が「階級値」の階段状になるため、階級値の境界を範囲とすることにより、精度を上げようとする方法です。

この問題の場合、「10人以上、20人未満」なので、「10人以上、19人以下」ということと等価です。
その意味では、「半整数補正」をするなら「9.5人 ~ 19.5人」にするのが妥当かと思います。一方だけ補正して、他方は補正しないというのは、むしろ精度を落とすように思います。
おそらく、質問者さんの感覚が正しいのではないかと思います。
    • good
    • 0

No.2です。

試しにやってみれば、

 期待値:Ex = 400 * 0.045 = 18
 分散 :Vx = 400 * 0.045 * (1 - 0.045) = 17.19
 標準偏差:σ = √Vx = 4.14608・・・ ≒ 4.15

z=(10 - 18)/4.15 ≒ -1.93 → P(z≦-1.93) = 0.026803
z=(9.5 - 18)/4.15 ≒ -2.05 → P(z≦-2.05) = 0.02018

z=(20 - 18)/4.15 ≒ 0.482 → P(z≧0.48) = 0.315614
z=(19.5 - 18)/4.15 ≒ 0.361 → P(z≧0.36) = 0.359424

確率は、下記の「標準正規分布表」から読み取りました。
https://staff.aist.go.jp/t.ihara/normsdist.html

以上より
 P(400, 10<X<20) = 1 - 0.026803 - 0.305614 ≒ 0.668
 P(400, 9.5<X<20) = 1 - 0.02018 - 0.305614 ≒ 0.673
 P(400, 9.5<X<19.5) = 1 - 0.02018 - 0.359424 ≒ 0.620

これらの値をどう扱うか、ということですが、P(400, 9.5<X<20) の値を使うということは、「できるだけ確率として救い上げる」「確率を大きめに評価する」(漏れがないようにする)という意図かなあ、と思います。
それがこの場合求められているのかどうか、そのように評価するのが妥当か、ということまでは分かりません。
    • good
    • 0
この回答へのお礼

ありがとうございました。

お礼日時:2017/08/08 23:30

全く問題の意味が分かりませんが、単に


 10「以上」なので「 9.5 より大きい」に
 20「未満」なので 20.5 以下ではなく「 20 より小さく」に
しているだけでは?

おそらく、確率変数 X を「整数の人数を含む範囲」にするために、そういう補正が必要なのでは?
全体の「分布」がどうなっているのか分からないので、何とも言えませんが。
この回答への補足あり
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q統計学の微積分について

統計学の微積分についてですが、数Ⅱレベルの知識では太刀打ちできないですか?
もし統計学を深く学ぶようなら、数Ⅲ以上で学ぶ微積分が必要でしょうか?

Aベストアンサー

明らかに、数Ⅲ以上の微積分が必要です。

Q正規分布の確率密度関数

画像のような問題で、定数kと分散の値は出せたのですが、平均の導き方がどうしてもわかりません。
助けて頂けると嬉しいです!

Aベストアンサー

#3です。企業に勤務する統計家です。

今日のお昼休みに、実際に解いてみました。
そうしたら、②の平均の導出がヒントとなって、
③の分散が、#2さんの「2次の中心積率」で簡単に解けることが分かりました。

#3での、#1さんへの指摘「前に出る定数e^1/2は分母になるのでは?」は、
私の勘違いでした。お詫びします。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

【問】k*exp(-x^2/2-x)が正規分布の確率密度関数のとき、
定数k,平均,および分散を求めよ。

①「密度関数は、-∞から∞まで積分した時に1になる」を使う。
ガウスの積分公式を使うため、まずネイピア数の指数を平方完成する。

(与式)=k*exp(-1/2*(x^2+2*x))
=k*exp(-1/2*(x+1)^2+1/2)
=k*exp(1/2) * exp(-1/2*(x+1)^2)

ガウスの積分公式∫e^(-at^2)dt=sqrt(π/a) より、

∫(与式)dx=k*exp(1/2) * sqrt(2*π) 積分区間は-∞から∞まで

k*exp(1/2) * sqrt(2*π)=1  と置くと、

∴k=1/(exp(1/2)*sqrt(2*π))

②与式は正規分布と指定されていることから、平均は与式を微分して0と置いて求める。
なぜなら、正規分布関数は、確率密度が一番高い所が平均だから。

(k*exp(-x^2/2-x))´
=k*exp(-x^2/2-x) * (-x^2/2-x)´
=k*exp(-x^2/2-x) * (-x-1)

これを0と置くと、前の項は指数関数で0にならないから、
(-x-1)=0
x=-1

∴E(x)=-1

③分散は2次の中心積率から求める。

V(x)=∫(x-(-1))^2*(与式)dx   積分区間は-∞から∞まで

②より、(与式)=(与式)´/-(x+1) となることに着目

V(x)=∫(x-(-1))^2*(与式)dx
=-∫(x+1)^2/(x+1)*(与式)´dx
=-∫(x+1)*(与式)´dx
=-((x+1)*(与式)-∫(x+1)´*(与式)dx)     ・・・部分積分を適用
=-(x+1)*(与式)+∫(与式)dx

第1項は(-1,0)を中心とした回転対称になる奇関数なので積分値は0。
第2項は確率密度の全範囲積分だから1。

∴V(x)=1

#3です。企業に勤務する統計家です。

今日のお昼休みに、実際に解いてみました。
そうしたら、②の平均の導出がヒントとなって、
③の分散が、#2さんの「2次の中心積率」で簡単に解けることが分かりました。

#3での、#1さんへの指摘「前に出る定数e^1/2は分母になるのでは?」は、
私の勘違いでした。お詫びします。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

【問】k*exp(-x^2/2-x)が正規分布の確率密度関数のとき、
定数k,平均,および分散を求めよ。

①「密度関数は、-∞から...続きを読む

Qサイコロを投げて出る目をXであらわす。Xの確率分布を求め、Xの期待値と分散を計算せよ。 サイコロを2

サイコロを投げて出る目をXであらわす。Xの確率分布を求め、Xの期待値と分散を計算せよ。

サイコロを2回投げて出る目をXであらわす。Xの確率分布を求め、Xの期待値と分散を計算せよ。

という2つの問題がわかる方がいたら、解き方と答えを教えていただきたいです。お願いします。

Aベストアンサー

http://www.geisya.or.jp/~mwm48961/kou3/prob_variance1.htm

最初の問題の解答は上のサイトの例1に書いてあります。読んでください。

http://metabolomics.jp/wiki/Aritalab:Lecture/Basic/Expectation

サイコロ2個はこちら。和なのか積なのか分からないので両方が載っているサイトをご紹介。

Q科学者ノイマンは、研究開発にあたり計算尺を使わずに頭の中で計算していたそうです。

ノイマンさんは、宇宙人といわれるぐらい頭良かったそうです。
そこで、電卓では、3÷7=0.42857142857・・・直ぐに計算ができます。
ノイマンさんも、電卓並みにすぐに計算できるお方だったのでしょうか?
よろしくお願いします。

Aベストアンサー

アインシュタインは何で計算(?)していたのでしょうね。

Qこんばんは。 確率の計算をやろうと思ったのですが、自分で考えてもよくわからないので、計算できる方はお

こんばんは。
確率の計算をやろうと思ったのですが、自分で考えてもよくわからないので、計算できる方はお助けお願いできませんか。

丸い珠に1から105までの番号を書い珠が箱に入っています。
それを無作為に10個取り出し、番号を控えたら珠は元に戻して...を10回繰り返した場合に、控えた番号の種類が20種類以上になる確率は何パーセントでしょうか。

また、無作為に取り出す数を5個にしたら、いくつになるでしょうか。

Aベストアンサー

けっこう面倒です。
2回目以降の「既に出ている数を取り出す確率」あるいはその反対の「まだ出ていない数を初めて取り出す確率」を考えればよいのですが、何回目までに何種類の数が出たか、という履歴に依存するので、場合分けを多数しないといけません。

たとえば、
(1)1回目で 10 種類の数が出る。  ←これは確実
(2)2回目で、1回目と異なる n 種類の数が出る場合を考える。(この確率は 10Cn * (95/105)*(94/104)*・・・*[(95 - n)/(105 - n)]*(10/105)*(9/104)*・・・*n/(95 + n) )
  → これで (10 + n) 種類が既出となる。n=10 ならばこれで終わりで、残り8回は何が出てもよい。
   n≠10 ならば次に進む。
(3)n≠10 のとき、3回目で、1,2回目と異なる m 種類の数が出る場合を考える。(この確率は 10Cm * [(95 - n)/105)*[(95 - n - 1)/104)*・・・*[(95 - n - m)/(105 - m)]*[(10 + n)/105]*[(10 + n - 1)/104]*・・・*[(10 + n - m)/(95 + m)] )
  → これで (10 + n + m) 種類が既出となる。n + m ≧ 10 ならばこれで終わりで、残り7回は何が出てもよい。
   n + m < 10 ならば次に進む。
(4)n + m < 10 なら4回目で、1,2,3回目と異なる k 種類の数が出る場合を考える。・・・

というようなことを、n=0~10、m=0~10、k=0~10 ・・・ の各ケースで計算して行けばよいのでしょうね。
各々で、既出の種類が20を越えたらおしまい。越えない場合は次へ進む。

無作為に取り出す数を5個にしたら、上記の「10」のところを「5」、「95」を「100」にしてください。

間違いがあるかもしれませんが、おおむねこんな考え方かなあと思います。

けっこう面倒です。
2回目以降の「既に出ている数を取り出す確率」あるいはその反対の「まだ出ていない数を初めて取り出す確率」を考えればよいのですが、何回目までに何種類の数が出たか、という履歴に依存するので、場合分けを多数しないといけません。

たとえば、
(1)1回目で 10 種類の数が出る。  ←これは確実
(2)2回目で、1回目と異なる n 種類の数が出る場合を考える。(この確率は 10Cn * (95/105)*(94/104)*・・・*[(95 - n)/(105 - n)]*(10/105)*(9/104)*・・・*n/(95 + n) )
  → これで (10 + ...続きを読む

Q負の16進数のDDCを8進数に

負の16進数DDCを8進数に変換する際に、負のDDCをいったん10進数にした式と、10進数に変換後に8進数に変換した式を教えてください。

また負のDDCを表現するときは、1DDCであっているのでしょうか。2進数を負で表現するときは、先頭bitを1にしますが、
8進数にもそれは、適用されますか。8進数だから8DDC、ということはないのでしょうか。

Aベストアンサー

まず、負の16進数をどのように表わすか、ということを定義しないといけません。「約束事を決める」ということです。
2進数の負数を「2の補数で表わす」というのは「有効桁の上限が決まっている計算機で計算する場合」の約束事であって、数学的にそうなるというものではありません。

「符号を付けて表す」という約束事にすれば
  16進数「DDC」の負数 → 「-DDC」
で一件落着です。

質問者さんは、どうやら「補数を使った表現」をお望みのようですが、16進数の「DDC」は
 1101 1101 1100
ですから、先頭ビットはすでに使っているので、このままでは「補数」が使えません。

ここでは「4桁で表わした16進数」で、負数を補数で表わす、という約束事にします。
そうすれば
 0DDC → 15(F)の補数は F223 → 16の補数は F224
となって、「4桁で表わした16進数では、0DDC の負数は F224 である」ということになります。

おしまい。

このしくみが分かりますか?
「正数」と「負数」を加えればゼロになるので、やってみれば
  0DDC + F224 = (1)0000
になるのは分かりますか? 5桁目に繰り上がった「1」は桁あふれで消えるので、加算結果は「4桁の範囲ではゼロ」になるのです。これが「負数を補数で表わす」ということです。

16進数でやるとマジックのようですが、2進数でやってみれば、後ろに [n] で付記した数字を「n進数」の意味と定義して
  0DDC [16] = 0000 1101 1101 1100 [2]
2進数の「0」と「1」を反転させた「1の補数」を作ると
  0000 1101 1101 1100 [2] →(1の補数)→ 1111 0010 0010 0011 [2]
これに「1」を加えて「2の補数」を作ると
  1111 0010 0010 0011 [2] →(2の補数)→ 1111 0010 0010 0100 [2]
これを16進数に戻して
  1111 0010 0010 0100 [2] = F224 [16]
これが「0DDC [16]」に対する「4桁で補数表現をした負数」というわけです。


では本題。質問の「負の16進数DDC」の意味があいまいですが、「正数」DDCを「マイナス」にした負数を、8進数に変換するということと解釈します。

これは、まず「正数」DDC を8進数に変換します。後ろに [n] で付記した数字を「n進数」の意味と定義して
 DDC [16] = 1101 1101 1100 [2]
これから8進数にするには、桁割りを「4桁」から「3桁」に変えて
 DDC [16] = 110 111 011 100 [2] = 6734 [8]
とするのが普通でしょう。いちいち10進数を経由する必要はありません。

では、「6734 [8]」の負数表現は、といえば、再び「8進数5桁で補数表現する」という約束事のもとに
 06734 [8] → 7の補数:71043 → 8の補数:71044
となるので、「6734 [8]」に対する「5桁で補数表現をした負数」は「71044」となります。

検算してみれば
 06734 [8] + 71044 [8] = 100000 [8]

つまり『DDC [16] 」を8進数にした数を、5桁で補数表現をした負数は「71044」である』ということになります。

なお、「16進数での負数表現」と「8進数での負数表現」とでは定義が異なるので、負数どうしの直接の変換は難しいと思います。

質問の趣旨と違っていたら、補足でもしてください。

まず、負の16進数をどのように表わすか、ということを定義しないといけません。「約束事を決める」ということです。
2進数の負数を「2の補数で表わす」というのは「有効桁の上限が決まっている計算機で計算する場合」の約束事であって、数学的にそうなるというものではありません。

「符号を付けて表す」という約束事にすれば
  16進数「DDC」の負数 → 「-DDC」
で一件落着です。

質問者さんは、どうやら「補数を使った表現」をお望みのようですが、16進数の「DDC」は
 1101 1101 1100
ですから、先頭ビット...続きを読む

Q標準偏差の分母にルートをかける理由について

同様の質問がネット上にありましたが、それでもよく分からないので質問させていただきます。
標準偏差は「平均値に対するブレ」の平均値であると聞きました。
計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージで覚えています。このとき何故、分母であるサンプル数にもルートがかかっているのでしょうか?
例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。これが所謂「平均値からのブレの平均値=標準偏差」かと思っていたのですが、標準偏差の公式に当てはめると答えは√2であるかと思います。
そもそも標準偏差とは「平均値からのブレの平均値」という認識が間違えているのでしょうか?
もしそうであれば所謂基準値を求めるために、分母に標準偏差を置くことが不適切であるようにも思います。

宜しくお願いします。

Aベストアンサー

>計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージ

はい、合っています。その「二乗偏差の合計」を、データ1個当たりの「平均」にするために、データの個数で割ります。

要するに
 分散 = (偏差の二乗) / (データの個数)
つまり、「分散」とは
 (偏差の二乗) の平均値
です。

これを「ルートをかけて戻す」ときに、分母の「データの個数」は、「 (データの個数)のルート」になります。
「標準偏差」が「分散の平方根」なので、機械的にそうなるだけの話です。
「 (データの個数)のルートで割る」という発想ではありません。

>例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。

「差分」で勝手にプラスマイナスを除いてはいけません。差分は
 -2, -1, 0, 1, 2
です。この平均は、当然ながら「0」です。
「プラスマイナスを除いて、平均する」ことの意味は何ですか?

ただの「偏差」の平均をとったら必ず「0」になるので、わざわざそれを二乗して(正にして)平均をとるのです。そうすれば、一種の「ベクトル」としての「平均値からの距離」を平均したことになります。それが「分散」。
 分散 = (偏差の二乗) / (データの個数)
標準偏差は、それをデータの「次元」に合わせるために「平方根」にします。

>計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージ

はい、合っています。その「二乗偏差の合計」を、データ1個当たりの「平均」にするために、データの個数で割ります。

要するに
 分散 = (偏差の二乗) / (データの個数)
つまり、「分散」とは
 (偏差の二乗) の平均値
です。

これを「ルートをかけて戻す」ときに、分母の「データの個数」は、「 (データの個数)のルート」になります。
「標準偏差」が「分散の平方根」なので、機械的にそうなるだけの話です。
...続きを読む

Q野球の統計に関して

野球の不思議(?)について統計的に調べてみたいと思ったので質問です。
①「左投手対左打者は打者が不利である」
②「代わって入った野手のところに打球が飛びやすい」
という仮説を証明する(有意かどうかはおいておいて)にはどのような方法・分析を用いれば良いでしょうか…。
あまり統計には詳しくないのですが、よければ回答お願いします。

Aベストアンサー

全体のデータに対して、その特定の条件でのデータを比べて、「平均値」と「標準偏差」から、「正規分布」の特性を利用して、「明らかな差があるか、誤差範囲程度の差か」を判別すればよいです。特別な「方法・分析」は不要です。
・全体のデータ:投手、打者の左右に関わらないすべてのデータ
・その特定の条件:①なら「左投手対左打者のデータ」、②なら「野手交代直後のイニングのデータ」など

プロ野球の数十年のデータを集めれば、かなりの母数のデータが集まると思いますので、どちらも「正規分布」して「標準偏差」はかなり小さいと思いますので、差の有無はかなり明確に判定できると思います。

正規分布とは下記のような性質を持ちますので、両者の「平均値」が「全体データの標準偏差の2倍以上」離れていれば、「信頼度95%で、明らかに差がある」と言えます。両者の「平均値」が「全体のデータの標準偏差の3倍以上」離れていれば、「信頼度99%で、明らかに差がある」と言えます。

確率・統計の話なので、「100%の信頼度で」ということはあり得ません。通常「95%」で「ほぼ確実」とみなします。

***正規分布の特性***
標準偏差を「σ」として、
  平均値± σ の範囲に、全体のデータの 68.3% が入る
  平均値±2σ の範囲に、全体のデータの 95.4% が入る
  平均値±3σ の範囲に、全体のデータの 99.7% が入る
という特性があります。
↓ ここの図を見てください。
http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.htm

全体のデータに対して、その特定の条件でのデータを比べて、「平均値」と「標準偏差」から、「正規分布」の特性を利用して、「明らかな差があるか、誤差範囲程度の差か」を判別すればよいです。特別な「方法・分析」は不要です。
・全体のデータ:投手、打者の左右に関わらないすべてのデータ
・その特定の条件:①なら「左投手対左打者のデータ」、②なら「野手交代直後のイニングのデータ」など

プロ野球の数十年のデータを集めれば、かなりの母数のデータが集まると思いますので、どちらも「正規分布」して「標準...続きを読む

Q累積度数分布を求める問題なのですが

次の粉塵濃度の水平分布から頻度分布のヒストグラムと累積度数分布を示せ。と言う問題なのですが手順がイマイチわからず困っています。
求め方を教えて下さいm(_ _)m

Aベストアンサー

#4です。

生データのヒストグラム・累積分布と、
密度を求めた時のヒストグラム・累積分布を
掲載するのを忘れていました。

ヒストグラムの横軸がうまく貼れていませんが、”濃度”です。

密度は低濃度側の頻度が高く、合ってない感じがします。
これが、前の投稿に書いた疑問です。
シン・プレートでは、うまく補間できないのかもしれません。

Q音による振動の理由

花火やライブなどで、大きな音によって体が揺れを感じる(振動する)のは何が原因が知りたいです。
音によって風が生じるなんてことはあるのでしょうか?それとも単に音による空気の振動を体が感じているだけなのでしょうか?
https://www.youtube.com/watch?v=jFv63iBSZwI
この動画を見ると、女の人の髪の毛が音に合わせて揺れていますが、ここまでくるともはや風何じゃないかと思うのですがどうなのでしょうか?

Aベストアンサー

風は気圧の高いところから、気圧の低いところへ空気が移動する状況。
もはや風?、と思うのは勝手ですが、振動、波動の特徴、媒体(空気)はその場で振動はしますが遠くへは移動しません、移動して伝わるのは振動のエネルギーです、音は進行方向に振動の縦波のため波長の範囲内では確かに動いて振動します。
風と同じと考えてしまうと、次のステップで何かを考える必要がある場合に決定的な間違いのもとになります。
その場限りでよい人の場合は、その必要はないかもしれません。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング