ある一つの変数に対するデータを数多く収集したとします.一人ひとりに一つづつ値がある身長などです.それを使って身長に関する確率密度を求めたいと思った場合,どのような操作手順になるでしょうか.例えば,最低身長を1mとして5cm刻みのレンジでその中に入る度数を調べて全数で除して,棒グラフみたいなものができたとします.そのグラフの縦軸は確率という次元(無次元)になります.横軸は身長ですね.そのようにしててきたグラフは実は確率密度ではないと思います.なぜなら,確率密度関数を横軸(身長)で積分したら確率になるのだから確率密度関数は身長の逆数の次元を持つ必要があります.そうしますと,例えば先に求めた5cmのレンジに対応して求まった確率をその刻み幅5cmで除す必要があるでしょうか.
このようなことが明記されているテキストがありましたら教えて頂きたいのですが.私の見る限りでは確率密度関数を実際のデータから求めるという演習が載っているものがなく,すべて確率密度関数が与えられているという前提での演習ばかりです.

よろしくお願いします.

このQ&Aに関連する最新のQ&A

A 回答 (7件)

>確率密度関数の定義を明確にすること


は,そのとおりです。
定義とともに,どのような仮定(前提)で話を進めるかが重要です。

確率や統計は,身近にあることが対象となりうるために,かえって定義が曖昧になっているような気がします。

かなり確率を学んでいる(私よりかも・・)ようなので,蛇足かもしれませんが,ビュッホン(Buffon) やベルトラン(Bertrand)の問題では,定義が不明確のため解答に混乱を招いてます。
(参考)
http://www.core.kochi-tech.ac.jp/m_inoue/work/ma …

>すなわち連続型の確率論が先に来るというのが正しいのでしょうか

先に来る,という意味が,はっきりしませんが,連続型で全て表せると考えてもいいでしょう。

確率論でデイラックδ関数を取り上げ,離散も連続も積分を使って一般的議論という解説もあります。古典力学と量子力学の橋渡し,ですね。

>レンジの確率密度関数でなく,その単位レンジの密度関数です。というのは確率密度関数の定義が既に先にある,ことを意味していると思います.

ここも微妙ですが,「 確率 」密度関数とまでは言っていません。その点,注意深く言ったつもりです。自分でも間違いやすいので・・・

棒グラフで止めれば,「離散密度関数」でしょうし,さらに,後半で話したように,曲線近似までもっていけば,「確率密度関数」です。

>確率・統計という学問は解析とか代数という数学分野とちょっと異なっているように思います。

全くそうですね。冒頭述べた,身近にある,ありすぎる点から,問題をややこしくしています。

>確率・統計については逆に実際に計算する手法が先にあってそれが定義であるかのように理解してしまう側面があるのではないでしょうか.

これも全く同意です。
例えば,
誰もが誤差分布の正規性を信じている。実験家は、数学的定理であると思っ ているからであり、数学家は、実験的事実と思っているからである。 (クラメール)
なんて言葉もあるくらいです。

また,統計の計算手法をめぐっては,ここの回答No1にも出てきたsanoriさんと真っ向から対立したくらいですから,
http://oshiete.goo.ne.jp/qa/6733154.html
計算,それが定義,という面はあると思います。


>数学的な厳密性に対して反乱することがほぼできません.
私も応用分野の人間ですから,そんなものですよ。

>私が挙げた箇条書きの計算手順で循環論になる部分があるとしたらどの部分でしょうか

2.各レンジの度数をレンジ幅で除したリスト(棒グラフ)を作成する.
3.そのリストを積分して値Sを求める.理屈から考えると総サンプル数になるが.

の部分です。各レンジは,総サンプル数が得られたからこそ決められます。例えば,あとからサンプルを加えて行けば,レンジが変わることもあるでしょう。

その決められたはずの総サンプル数に計算を施して,総サンプル数を求める,総サンプル数が求まったら,レンジを決める,決めたら総サンプル数を求める計算をする・・・

こういうことですか?
それなら,不要な計算です。
    • good
    • 0

すみません,No4訂正です。



私の示した例では,
5 cm 当たり,でなく,10 cm 当たり(10cm幅)でした。
    • good
    • 0

No4の図が、うまくUPできなかったようなので,ここに再掲です。

「確率密度関数の求め方について」の回答画像5
    • good
    • 0

少々わかりづらい点があるのですが。

。。

例えば,身長が
150cm以上160cm未満,10人
160cm以上170cm未満,10人
170cm以上180cm未満,10人
の合計30人いたとします。

それぞれの絶対度数10人を合計の30人で割って,相対度数を求めると
150cm以上160cm未満,1 / 3
160cm以上170cm未満,1 / 3
170cm以上180cm未満,1 / 3
となります。

人数を人数で割ったので,「無次元」と言っているのではないかと思いますが,いかがでしょうか?

もしそうなら,絶対度数とか相対度数(あるいは割合)という言葉を入れてください。
そうでないと分かりにくい。

もし以上の私の推察が正しければ(質問者の意図を誤解してなければ),以下の解説を参考にどうぞ。

回答No1のお礼に示した

2.各レンジの度数をレンジ幅で除したリスト(棒グラフ)を作成する.
3.そのリストを積分して値Sを求める.理屈から考えると総サンプル数になるが.
4.各リストをSで除した値(規格化)がそのレンジの確率密度関数となる.

は,間違いではありませんが,あまり良い方法でなく,また,循環論にもなっています。

例えば,
2.度数をレンジ幅で除するような2次操作をせずに,最初から,レンジ幅を調節(例えば,1cm)として,そこに落ちるデータ数を数えたほうが,生データをそのまま使えて正確です。

3.Sは,総サンプル数なのに,なぜ,わざわざ積分で求めるのでしょうか?

4.各リストをSで除した値(規格化)がそのレンジの確率密度関数.
変ですよ。2で,リストは,除されたレンジ幅(単位レンジ幅,例えば,1cmあたり)の度数となっています。だから,求めたのは,レンジの確率密度関数でなく,その単位レンジの密度関数です。

それなら,最初から単位レンジ幅を定め,その中のデータ数を求めて,そこから密度関数を割り出せば良いことです。

そもそも,問題が離散なのか連続なのか,混同した話になっています。

確率密度関数という用語は,通常,連続分布に使います。

上記のような離散分布の例では,確率質量関数(probability mass function)とか離散密度関数とか確率離散関数とか言われます。私も,このような離散と連続に対する用語の区別に賛成です。

それでは,まず,離散分布の場合。
上記例に示したように,離散密度関数は
1 / 3, 1 / 3, 1 / 3
となります。質問者が言うとおり,無単位(無次元と言うより,こちらのほうが良い)のように見えます。

その和は,
1 / 3 + 1 / 3 + 1 / 3 = 1
です。

しかし,これは無単位というわけではありません。「5cm当たりの確率」を示すからです。
あえて単位をつければ,1 / (5 cm) となります。
回答No1の指摘に近いものですが,私の推察どおりで,既に全数で割った話(つまり比率)なら,人 / (5 cm) のように「人」が付くことはありません。

通常は,このような,1 / (5 cm) は書かれていません。階級(この場合,5 cm)の逆数になるので,書かなくても分かるからです。

したがって,上記の和は,正確に書くと,それぞれ,
高さが,(1 / 3 )/ (5 cm)
幅が,5cmなので,
面積は,高さ*幅より,
(1 / 3 )/ (5 cm) *(5cm) + (1 / 3 )/ (5 cm) *(5cm)+ (1 / 3 )/ (5 cm) *(5cm)
= 1 / 3 + 1 / 3 + 1 / 3 = 1
となります。

ただしこれは,幅をcm (本例では,5cm)で表そうが,mm (本例では,50mm)で表そうが,m (本例では,0.5 m)で表そうが,
1 / 3 + 1 / 3 + 1 / 3 = 1
です。
つまり,x軸の単位に影響されません。いくつに区分するか(本例では,3)によって確率が変わります。

次に,連続分布の場合。
上述の離散分布に類似して,区間 150 cm ≦ x ≦180 cm で,一様確率密度関数を考えます。
すると,
f(x) = 1 / (180 - 150) = 1 / 30  (150 cm ≦ x ≦180 cm)
f(x) = 0  (その他のx)
となります。
添付図左です。当然,面積は,30 *(1 / 30) = 1です。

ここでも,図の縦軸に「単位」が示してあることに注意してください。
通常は,これも書かれていません。x軸単位の逆数になるので,書かなくても分かるからです。

そして,確率は無単位,という思い込みの落とし穴がここにあります。
左図の縦軸は,いわば「1cm当たり」の出現率を示しています。
さきほど述べた,「単位幅」に相当します。

ここで,単位をcmの代わりに,mとしてみましょう。

一様確率密度関数は,
f(x) = 1 / (1.8 – 1.5) = 1 / 0.3 = 1 0/ 3  (1.5 m ≦ x ≦1.8 m)
f(x) = 0  (その他のx)
となります。
添付図右です。これも,面積は,0.3 *(10 / 3) = 1です。
縦軸は,「1m当たり」の出現率を示しています。その値が,1を超えている点も注意しましょう。

両方とも,全体面積は1であり,10cm (0.1m)間隔で調べると,1/3 となります。
しかしながら,x軸の単位をどう取るかで,確率密度関数は異なってきます。

縦軸は,確率と呼ぶより,x軸に示された単位当たりの出現率を示しており,その関数が確率密度関数となります。

しかし,前述のとおり,それはx軸を見れば分かることなので,わざわざ「x軸に示された単位当たりの確率密度」と書かないで,せいぜい「確率密度」とか「相対頻度」などと書かれる程度です。

人口密度などという場合と同様に,確率密度というわけは,このように,ある単位あたりの出現割合を示すことから来ています。

離散分布の場合,離散密度関数をp(x)とすると
∑p(x) = 1
であり,
0 ≦ p(x) ≦ 1
です。
一方,連続分布の場合,確率密度関数をf(x)とすると,
∫f(x) = 1
ですが,
f(x) は,非負,つまり f(x) ≧ 0 というだけで,1を超えることもある点に注意しましょう。
これは上記でも説明したとおりです。

>確率密度関数が与えられている問題ばかり
ある意味当然のことです。

離散分布でも連続分布でも,事象の出現確率をどう関数で示す(近似する)か,という問題となります。したがって,既に知られた分布(例えば,ポアッソン分布とか正規分布とか)で近似できるかどうかという問題に帰着されるからです。もし,xを変数変換(例えば対数など)しても,既知のどの分布にも適合せす,新たに適合する密度関数を見つけられれば,それだけで優れた発見となるでしょう。

それでもなお,自分なりに密度関数を作ろうとすれば,
∑p(x) = 1 (0 ≦ p(x) ≦ 1)
または
∫f(x) = 1 (f(x) ≧ 0)
に合うように,p(x)なりf(x)を定めてやれば良いのです。
だから,質問者の考える方向性は誤っていません。
「確率密度関数の求め方について」の回答画像4
    • good
    • 0
この回答へのお礼

大変示唆に富む回答を頂き,ありがとうございます.
現在,この回答を印刷して検討しているところです.また途中までしか読み通しておりませんが,前段部分までの内容について私の考えを述べたいと思います.

この一連の議論(私の元発言でも)において確率分布とか確率密度関数などの定義に触れられていないように思います.その部分が不明確のまま実例として確率密度関数の計算方法の手順をお尋ねしています.しかしながら一般的なテキストでは確率・統計では実例の方(サイコロとか宝くじとか)が先にあってそれらを元にして計算手順を示してからそのような物が確率密度関数である,という風な展開になっているように思います.
従って確率密度関数の定義を明確にすること,すなわち連続型の確率論が先に来るというのが正しいのでしょうか.

回答者さまのコメント:
>変ですよ。2で,リストは,<中略>となっています。だから,求めたのは,レンジの確率密度関数でなく,その単位レンジの密度関数です。

というのは確率密度関数の定義が既に先にある,ことを意味していると思います.

また,以下のコメント:
>3.Sは,総サンプル数なのに,なぜ,わざわざ積分で求めるのでしょうか?

箇条書きした私の計算手順の中にもまだ連続量的なことが何も定義されていないのにその手順の中に”積分”のなどと軽々しく言っているわけで定義とか計算手順がごちゃまぜになっています.

このあたりのことをしっかり整理したいと言う気持ちがあります.

以下,ちょっと大げさになるかも知れませんが,確率・統計という学問は解析とか代数という数学分野とちょっと異なっているように思います.
例えば力学現象は解析的に表現されており,それが厳密であることがとりあえず承認されています.それを離散的に近似してシミュレーションが行われていると思います.言わば学問的な教義の有り様が固定されているわけです.私が確率・統計に対してそのような理解が不足しているのでこのような質問が出てくるのだと思います.
確率・統計については逆に実際に計算する手法が先にあってそれが定義であるかのように理解してしまう側面があるのではないでしょうか.
”計算手順=定義”という混乱です.

私は先に述べた力学現象側の人間なので,数学的な厳密性に対して反乱することがほぼできません.しかし,確率・統計は具体例の方が優先されて理論が規定されていくのではないでしょうか.だから,確率・統計では発見者の名を冠した理論が多いように思います.

以上,大げさな展開となっておりますが,確率密度関数の根本的な定義についてお考えを頂ければと存じます.
また,私が挙げた箇条書きの計算手順で循環論になる部分があるとしたらどの部分でしょうか.どこかに”ある定義の中にその定義が含まれる”ということじゃないのかなと思いますが.

お礼日時:2011/06/26 10:52

確率密度を推定する方法ならあります。



density estimationで調べれば、推定する方法がたくさん出てきますし、本もあります。
しかしながら、これらの方法は密度の形状を推定するものであって、関数形を特定するものではありません。

今後、統計学を学ばれれば分かることと思いますが、確率密度関数を推定したいなら、まず身長という確率変数が従っている分布にパラメトリックな分布(正規分布やガンマ分布などなど)を仮定し、最尤法で分布の形を特定することならできます。
    • good
    • 0

そのとおりです。



ちょっと補足しますと、
区間を細切れにすると、それだけ関数の精度は上がるのですが、
サンプル数(人数)がそれほど多くないなどの理由で棒グラフ(というかヒストグラム)のてっぺんがぎざぎざになるようだと、当てはめた関数(多項式近似など)が適切なのかどうかが判定しづらくなります。

(工業の品質管理のQC七つ道具のテキストに、たしか、ヒストグラムの区間の刻み幅を簡単に最適化する方法が書かれていますが、昔勉強したことなので忘れてしまいました。)
    • good
    • 0

こんにちは。



>>>横軸は身長ですね.

はい。そうです。

>>>そのグラフの縦軸は確率という次元(無次元)になります.

いいえ。 人/(5cm) という次元になります。
そして、棒の高さを全部5分の1に縮めると、人/cm になります。

しかるのち、総面積(総人数)が1(1人)になるように規格化すると、
縦軸の単位が 1/cm で、横軸の単位が cm の確率密度関数のグラフになります。
    • good
    • 0
この回答へのお礼

ありがとうございます.箇条書きにすると以下のようでしょうか.
1.レンジ幅(5cmなどを決めて)その中に入る度数をカウントする.
2.各レンジの度数をレンジ幅で除したリスト(棒グラフ)を作成する.
3.そのリストを積分して値Sを求める.理屈から考えると総サンプル数になるが.
4.各リストをSで除した値(規格化)がそのレンジの確率密度関数となる.

お礼日時:2011/06/25 22:51

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q密度関数の求め方(確率論)

問題
X,Y:標準正規分布N(0,1)を分布にもつ独立な実確率変数とします
このときZ=X/Yの分布は1/π(1+x^2)を密度関数に持つことを示せ

というものなんですが、
これはいわゆるCauchy分布です
Zの分布関数を地道に計算すればいいんですが、
どうもうまくできません。
計算の経過も丁寧に解説してくれる人がいたらどうかお願いします

ただ、公式を適用するとかいうのはなしでお願いします

Aベストアンサー

 なんだか難しい話をなさってますが、単なる変数変換の問題でしょう?超関数を使わなくても計算できますし、分布関数を微分する必要もないと思います。
 確率変数X,Yの関数であるZ(X,Y)の確率密度を求めるには、
p(X,Y)dXdY = f(Z,U)dZdU
となるように(X,Y)を(Z,U)に写像してやって、
q(Z)=∫f(Z,U)dU (U=-∞~∞)
を計算すれば良い。それだけです。

dXdY = |(∂X/∂Z)(∂Y/∂U)-(∂X/∂U)(∂Y/∂Z)| dZdU
ですから、
U=Y
とおくと(X,Y)と(Z,U)は1対1の写像であり、
dXdY = |Y|dZdU
従って、
f(Z,U)=|Y|p(X,Y)
であり、
q(Z)=∫|Y|p(X,Y) dY (Y=-∞~∞)
の計算です。
P(X,Y)=φ(X)φ(Y), φ(x)=(1/√(2π)) exp(-x^2/2)
だから、
P(X,Y)=exp(-(X^2+Y^2)/2)/(2π)
よって、
q(Z)=(1/(2π))∫|Y| exp(-(1+Z^2)(Y^2)/2) dY (Y=-∞~∞)
=2(1/(2π))∫Y exp(-(1+Z^2)(Y^2)/2) dY (Y=0~∞)
= 1/(π(Z^2+1))

 なんだか難しい話をなさってますが、単なる変数変換の問題でしょう?超関数を使わなくても計算できますし、分布関数を微分する必要もないと思います。
 確率変数X,Yの関数であるZ(X,Y)の確率密度を求めるには、
p(X,Y)dXdY = f(Z,U)dZdU
となるように(X,Y)を(Z,U)に写像してやって、
q(Z)=∫f(Z,U)dU (U=-∞~∞)
を計算すれば良い。それだけです。

dXdY = |(∂X/∂Z)(∂Y/∂U)-(∂X/∂U)(∂Y/∂Z)| dZdU
ですから、
U=Y
とおくと(X,Y)と(Z,U)は1対1の写像であり、
dXdY = |Y|dZdU
従って、
f(Z,U)=|Y|p(...続きを読む

Q確率密度関数の問題教えてください

同時確率密度関数6(x-y) 0<x<y<1 のX,Yそれぞれについて周辺確率密度関数と期待値と分散を求め、共分散と相関係数を求めよ。


Xの期待値がゼロになったり、Yの期待値がマイナスの値になってしまったのですが、良いのでしょうか?

Aベストアンサー

同時確率密度関数 f(x,y)=6(x-y) 0<y<x<1 とします。
(1)周辺確率密度関数は
 f1(x)=∫[0,x] 6(x-y)dy=3x^2 ,0<x<1
 f2(y)=∫[y,1] 6(x-y)dx=3(1-y)^2 ,0<y<1
(2)E(x),Sxx
 xm=E[x]=∫[0,1] xf・1(x)dx=∫[0,1] 3x^3=3/4
 E[x^2]=∫[0,1] x^2・f1(x)dx=∫[0,1] 3x^4=3/5
 Sxx=E((x-xm)^2]=E[x^2]-xm^2=3/5-(3/4)^2=3/80
(3)E(y),Syy
 ym=E[y]=∫[0,1] y・f2(y)dy=∫[0,1] 3y(1-y)^2=1/4
 E[y^2]=∫[0,1] y^2・f2(y)dy=∫[0,1] 3y^2(1-y)^2=1/10
 Syy=E((y-ym)^2]=E[y^2]-ym^2=1/10-(1/4)^2=3/80
(4)Cov(x,y)=Sxy
 E[xy]=∫[0,1]∫[0,x] xy・f(x,y)dydx=∫[0,1]∫[0,x] 6xy(x-y)dydx=1/5
 Sxy=E[xy]-mxmy=1/5-3/4・1/4=1/80

同時確率密度関数 f(x,y)=6(x-y) 0<y<x<1 とします。
(1)周辺確率密度関数は
 f1(x)=∫[0,x] 6(x-y)dy=3x^2 ,0<x<1
 f2(y)=∫[y,1] 6(x-y)dx=3(1-y)^2 ,0<y<1
(2)E(x),Sxx
 xm=E[x]=∫[0,1] xf・1(x)dx=∫[0,1] 3x^3=3/4
 E[x^2]=∫[0,1] x^2・f1(x)dx=∫[0,1] 3x^4=3/5
 Sxx=E((x-xm)^2]=E[x^2]-xm^2=3/5-(3/4)^2=3/80
(3)E(y),Syy
 ym=E[y]=∫[0,1] y・f2(y)dy=∫[0,1] 3y(1-y)^2=1/4
 E[y^2]=∫[0,1] y^2・f2(y)dy=∫[0,1] 3y^2(1-y)^2=1/10
 Syy=E((y-ym)^2]=E[y^2]-ym^2=1/10-(1/4)^2=3/80
(4)Cov(x,y)=Sxy
...続きを読む

Q確率密度関数からの期待値の求め方

(たぶん?) 統計学の問題です。

xが(0≦x≦1)で一様に分布しているときの期待値E(x)の求め方を教えてください。

解説では、
確率密度関数f(x)=1(0≦x≦1)
E(x)=∫[1,0]x・f(x)dx
=∫[1,0]1・xdx
=[(x^2)/2][1,0]=1/2
([1,0]は∫の上に1がついて、下に0がついていました)
となっていたのですが、わたしは高校数学をやってこなかったので、解説を読んでもちんぷんかんぷんなんです…。

とくに確率密度関数が1となっている理由と、積分のやり方を教えていただけないでしょうか。

Aベストアンサー

>([1,0]は∫の上に1がついて、下に0がついていました)
通常は,[下限,上限]の順に書きます。 → [0,1] or [0→1] など。
[1,0] は逆です。

>積分のやり方を教えていただけないでしょうか。
この程度の積分が数学の微分積分の章や微積分の参考書の積分の最初の方に載っています。積分法は、きちんと学ぼうとすれば参考書や教科書一冊分以上の内容がありますので、ここで簡易に教えてもらって習得しようとするには無理があります。微積分の教科書や参考書を購入して、基礎から一通り学習された方がいいと思います。

確率密度関数 f(x) の性質
 ∫[-∞, ∞] f(x) dx =1 … (※)
確率分布関数は f (x) を使って 
 F(x)=∫[-∞, x] f(x) dx , F(∞)=1
で定義されます。

今の場合
>xが(0≦x≦1) で一様に分布しているとき

f (x)=k(定数)(0≦x≦1), f (x)=0 (その他のx) …(★) とおいて(※)の左辺に代入すると

 ∫[-∞, ∞] f(x) dx = ∫[-∞, 0] 0 dx + ∫[0, 1] k dx + ∫[1, ∞] 0 dx
   = 0 + [ kx] [0, 1] + 0
  = k (1-0) = k … (☆)

>とくに確率密度関数が1となっている理由

(☆)が、(※)の右辺の1に等しいから
  k = 1 … (◆)
とKが決まります。

これを(★)に代入すれば、「xが(0≦x≦1) で一様に分布している」場合の確率密度関数

 f(x) = 1 (0≦x≦1), f (x)=0 (その他のx) …(★)

>x が(0≦x≦1)で一様に分布しているときの期待値E(x)の求め方を教えてください。

期待値の定義式は

 E { x } = ∫[-∞, ∞] x f(x) dx

です。これに (★)のf(x)を代入すれば

 E { x } = ∫[-∞, ∞] x f(x) dx =∫[0, 1] x * 1 dx =∫[0, 1] x dx

積分公式:∫x^n dx = x^(n+1)/(n+1) + C (n=1) を適用して

  = [(1/2)x^2] [0, 1] = (1/2)*(1^2 -0^2) ] =(1/2)*1
  = 1/2

という結果が得られます。

>([1,0]は∫の上に1がついて、下に0がついていました)
通常は,[下限,上限]の順に書きます。 → [0,1] or [0→1] など。
[1,0] は逆です。

>積分のやり方を教えていただけないでしょうか。
この程度の積分が数学の微分積分の章や微積分の参考書の積分の最初の方に載っています。積分法は、きちんと学ぼうとすれば参考書や教科書一冊分以上の内容がありますので、ここで簡易に教えてもらって習得しようとするには無理があります。微積分の教科書や参考書を購入して、基礎から一通り学習された方がいいと思います。...続きを読む

Q分布関数F(x)の問題が解けないです。

分布関数F(x)の問題が解けないです。

お手数をかけますが、お知恵をいただきたく思います。
以下問題です。
F(x)={0 (x<0) , x^2/4 (0<=x<=2) , 1 (2<=x)}

(1)p(1<=X<=3)の値を求めなさい。
(2)確率密度関数を求めなさい。
(3)分布関数F(x)をY=2X+1としてYの分布関数G(x)を求めなさい。

(3)の解法が全く分かりません…orz

取りあえず、(1)(2)を求めてみます。
(1) F(3)-F(1)=1-1/4=3/4
(2) F(x)微分して、p(x)={0 (x<0) , x/2 (0<=x<=2) , 0 (2<=x)}

これを使って(3)を解くのだと思いますが、テキストに類題が無いので解らないです。

Aベストアンサー

(1)
>F(3)-F(1)=1-1/4=3/4
合っています。

(2)
> F(x)<をxで>微分して、p(x)=0 (x<0) , x/2 (0<=x<=2) , 0 (2<=x)
これで良いでしょう。

(3)Y=2X+1
F(x)=x^2/4 (0<=x<=2)
F((y-1)/2)= (y-1)^2/16 (1<=y<=5)
G(y)=0(y<1), (y-1)^2/16 (1≦y≦5), 1 (5<y)

Qe^-2xの積分

e^-2xの積分はどうしたらよいのでしょうか…。e^xやe^2xsinxなどはのってるのですがこれが見つかりません。お願いします。

Aベストアンサー

いささか、思い違いのようです。

e^-2x は、 t=-2x と置いて置換してもよいけれど、牛刀の感がします。

e^-2x を微分すると、(-2)*( e^-2x )となるので、

e^-2x の積分は、(-1/2)*( e^-2x )と判明します。

Q確率変数の和の問題

確率変数の和の問題です。

2つの確率変数XとYが、互いに独立に一様分布に従うとするとき、
確率変数X+Yはどのような分布の形状になるのでしょうか?

結局、和も一様分布になるのでしょうか?分からなくなってしまいました。
教えて下さい。

Aベストアンサー

連続型でピンとこないなら、離散型で考えてみれば?例えばサイコロを1個振るでしょ。1から6に一様(離散なので一様的)に出るね。2回振って和を取ると、平均3.5*2=7だけど2から12が一様的には出ないよね。
元問題を正確に解くと、確率変数X,Yの確率密度関数をf(x),g(y)として。確率変数Z=X+Yの確率密度関数をh(z)とすると。
h(z)=∫[-∞,∞]f(z-y)g(y)dy または h(z)=∫[-∞,∞]f(x)g(z-x)dx を計算すればよい。
問題よりf(x)=1 (0≦x≦1),g(y)=1 (0≦y≦1) なので 0≦z≦1のときyは0≦y≦z,1<z≦2のときz-1≦y≦1の範囲をとる。
0≦z≦1 のとき h(z)=∫[0,z]f(z-y)g(y)dy=∫[0,z]1・1dy=z
1<z≦2 のとき h(z)=∫[z-1,1]f(z-y)g(y)dy=∫[z-1,1]1・1dy=1-(z-1)=2-z

Q確率変数とは

確率変数P{X=x}のXとxの違いがよく分かりません。というか確率変数の概念自体がよく分かりません。またなぜP{X=x}=P(x)なのかもわかりません。助けてください。

Aベストアンサー

まず、Xとxが紛らわしいですね。
P{X=x}=P(x)
を、
P{A=t}=f(t)
のように置き換えても、同じ意味ですので、こう置き換えて説明してみます。
確率変数というのは、最初に決めた、現象の集合と、実数との対応です。サイコロの例がよく出されますが、逆にわかりにくくしている面もあります。各面に、{a,b,c,d,e,f}という文字が書かれたサイコロを想像してみてください。さて、このサイコロで、{a,b,c}の文字が出る確率を知りたいとしますね。ところが、数学は「数」を扱う世界なので、文字は直接は扱えません。そこで、現象と数の対応を確率変数とします。この場合、確率変数Aを、
サイコロを振ってaが出たら、A=1
サイコロを振ってbが出たら、A=2
サイコロを振ってcが出たら、A=3
サイコロを振ってdが出たら、A=4
サイコロを振ってeが出たら、A=5
サイコロを振ってfが出たら、A=6
となる変数であると決めてしまいます。これで、現象->数への変換が出来ました。確率変数は、このように、本来数学では扱えない「現象の集合」を、数の集合に変換するのに使うのです。
P{A=t}のtは、正確に書くと、t∈実数です。つまり、実数を適当に一つ持ってきたのが、tです。
P{A=t}=f(t)は、現象の集合を確率変数Aで数に置き換えてやった時の値がtである確率が、f(t)という値と同じだよ。という意味です。

まず、Xとxが紛らわしいですね。
P{X=x}=P(x)
を、
P{A=t}=f(t)
のように置き換えても、同じ意味ですので、こう置き換えて説明してみます。
確率変数というのは、最初に決めた、現象の集合と、実数との対応です。サイコロの例がよく出されますが、逆にわかりにくくしている面もあります。各面に、{a,b,c,d,e,f}という文字が書かれたサイコロを想像してみてください。さて、このサイコロで、{a,b,c}の文字が出る確率を知りたいとしますね。ところが、数学は「数」を扱う世界なので、文字は直接は扱えません。...続きを読む

Q確率密度関数の縦軸Y

まず、確率分布表があって、X軸に離散的な数値が並んでいます。

つぎに、X軸が連続的な形の確率密度関数があります。この関数の曲線とX軸との間に挟まれる部分の面積が、確率Pであると本に書いてあります。この場合、曲線なので、面積の求め方は、積分を使うようです。

ところで、確率密度関数の縦軸Yは、この場合、何でしょうか?
横軸X軸は、確率をもって現れる変数(確率変数)であるようですが、縦軸って何でしょう?

統計ど素人

Aベストアンサー

>確率密度関数の縦軸Yは、この場合、何でしょうか?
縦軸は確率密度f(x)で、どの位の頻度で確率変数X=xが発生するかを表す量です。f(x)をa~bを積分すれば、Xがa~bの範囲に入る確率P(a≦X≦b)=F(b)-F(a)になります。

なお、確率密度と確率分布の関係を正しく認識していただくために簡単に説明しておきます。

確率分布関数F(x)と確率密度関数f(x)の間には
f(x)=dF(x)/dx
F(x)=∫_[-∞→x] f(x)dx (これは単調増加関数です)
の関係にあります。
xは確率変数で次式が成り立ちます。
F(∞)=∫_[-∞→∞] f(x)dx=1
y=f(x)とX軸で挟まれる部分の面積は1ということです。

確率変数Xがa≦X≦bをとる確率Pが次式で与えられます。
P(a≦X≦b)=∫_[a→b]f(x)dx=F(b)-F(a)
確率分布表の確率変数X=aと確率F(a)の関係は
F(a)=∫_[-∞→a] f(x)dx
です。

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング

おすすめ情報