【先着1,000名様!】1,000円分をプレゼント!

まず、確率分布表があって、X軸に離散的な数値が並んでいます。

つぎに、X軸が連続的な形の確率密度関数があります。この関数の曲線とX軸との間に挟まれる部分の面積が、確率Pであると本に書いてあります。この場合、曲線なので、面積の求め方は、積分を使うようです。

ところで、確率密度関数の縦軸Yは、この場合、何でしょうか?
横軸X軸は、確率をもって現れる変数(確率変数)であるようですが、縦軸って何でしょう?

統計ど素人

このQ&Aに関連する最新のQ&A

A 回答 (3件)

>確率密度関数の縦軸Yは、この場合、何でしょうか?


縦軸は確率密度f(x)で、どの位の頻度で確率変数X=xが発生するかを表す量です。f(x)をa~bを積分すれば、Xがa~bの範囲に入る確率P(a≦X≦b)=F(b)-F(a)になります。

なお、確率密度と確率分布の関係を正しく認識していただくために簡単に説明しておきます。

確率分布関数F(x)と確率密度関数f(x)の間には
f(x)=dF(x)/dx
F(x)=∫_[-∞→x] f(x)dx (これは単調増加関数です)
の関係にあります。
xは確率変数で次式が成り立ちます。
F(∞)=∫_[-∞→∞] f(x)dx=1
y=f(x)とX軸で挟まれる部分の面積は1ということです。

確率変数Xがa≦X≦bをとる確率Pが次式で与えられます。
P(a≦X≦b)=∫_[a→b]f(x)dx=F(b)-F(a)
確率分布表の確率変数X=aと確率F(a)の関係は
F(a)=∫_[-∞→a] f(x)dx
です。
    • good
    • 1

離散分布では、縦軸は、確率そのものですから、無次元ですよね。


連続分布では、面積が確率で無次元ですから、縦軸は、横軸の逆数の次元を持ちます。もし横軸が品物の長さで、単位mmであれば、縦軸は「1/mm」を単位とする値を示します。
    • good
    • 0

縦軸=(確率)密度=(無限小)単位あたりの確率=分布関数の導関数=分布関数の変動率



要は
P(a≦X≦b)=∫_{a→b}f(x)dx
を満たす関数だ、ということです。測度論的には、確率測度のルベーグ測度に関するラドニコディム微分です。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q正規分布についての質問です。横軸は確率変数(身長ならば170cmなど、

正規分布についての質問です。横軸は確率変数(身長ならば170cmなど、または標準化したzの値)ですが縦軸は0.1とか0.2などの数値が記載されております。この縦軸は確率変数に対応する相対度数のことでしょうか?宜しくお願いします。

Aベストアンサー

規格化されていれば、横軸の単位量あたりの確率(確率密度)。
積分して曲線と横軸に囲まれた面積を求めると確率になります。

規格化されていない場合はケースバイケースで意味が異なります。

>この縦軸は確率変数に対応する相対度数のことでしょうか?

分布が棒グラフであらわされているとして、

相対度数・・・・・棒の高さをすべてたし合わせると1
確率密度分布・・・棒の高さに棒の幅をかけて面積を出し、全て加えると1

という違いがあります。棒の幅が1なら結果的に同じになります。

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q確率密度関数の求め方について

ある一つの変数に対するデータを数多く収集したとします.一人ひとりに一つづつ値がある身長などです.それを使って身長に関する確率密度を求めたいと思った場合,どのような操作手順になるでしょうか.例えば,最低身長を1mとして5cm刻みのレンジでその中に入る度数を調べて全数で除して,棒グラフみたいなものができたとします.そのグラフの縦軸は確率という次元(無次元)になります.横軸は身長ですね.そのようにしててきたグラフは実は確率密度ではないと思います.なぜなら,確率密度関数を横軸(身長)で積分したら確率になるのだから確率密度関数は身長の逆数の次元を持つ必要があります.そうしますと,例えば先に求めた5cmのレンジに対応して求まった確率をその刻み幅5cmで除す必要があるでしょうか.
このようなことが明記されているテキストがありましたら教えて頂きたいのですが.私の見る限りでは確率密度関数を実際のデータから求めるという演習が載っているものがなく,すべて確率密度関数が与えられているという前提での演習ばかりです.

よろしくお願いします.

Aベストアンサー

>確率密度関数の定義を明確にすること
は,そのとおりです。
定義とともに,どのような仮定(前提)で話を進めるかが重要です。

確率や統計は,身近にあることが対象となりうるために,かえって定義が曖昧になっているような気がします。

かなり確率を学んでいる(私よりかも・・)ようなので,蛇足かもしれませんが,ビュッホン(Buffon) やベルトラン(Bertrand)の問題では,定義が不明確のため解答に混乱を招いてます。
(参考)
http://www.core.kochi-tech.ac.jp/m_inoue/work/math_tale/01.pdf

>すなわち連続型の確率論が先に来るというのが正しいのでしょうか

先に来る,という意味が,はっきりしませんが,連続型で全て表せると考えてもいいでしょう。

確率論でデイラックδ関数を取り上げ,離散も連続も積分を使って一般的議論という解説もあります。古典力学と量子力学の橋渡し,ですね。

>レンジの確率密度関数でなく,その単位レンジの密度関数です。というのは確率密度関数の定義が既に先にある,ことを意味していると思います.

ここも微妙ですが,「 確率 」密度関数とまでは言っていません。その点,注意深く言ったつもりです。自分でも間違いやすいので・・・

棒グラフで止めれば,「離散密度関数」でしょうし,さらに,後半で話したように,曲線近似までもっていけば,「確率密度関数」です。

>確率・統計という学問は解析とか代数という数学分野とちょっと異なっているように思います。

全くそうですね。冒頭述べた,身近にある,ありすぎる点から,問題をややこしくしています。

>確率・統計については逆に実際に計算する手法が先にあってそれが定義であるかのように理解してしまう側面があるのではないでしょうか.

これも全く同意です。
例えば,
誰もが誤差分布の正規性を信じている。実験家は、数学的定理であると思っ ているからであり、数学家は、実験的事実と思っているからである。 (クラメール)
なんて言葉もあるくらいです。

また,統計の計算手法をめぐっては,ここの回答No1にも出てきたsanoriさんと真っ向から対立したくらいですから,
http://oshiete.goo.ne.jp/qa/6733154.html
計算,それが定義,という面はあると思います。


>数学的な厳密性に対して反乱することがほぼできません.
私も応用分野の人間ですから,そんなものですよ。

>私が挙げた箇条書きの計算手順で循環論になる部分があるとしたらどの部分でしょうか

2.各レンジの度数をレンジ幅で除したリスト(棒グラフ)を作成する.
3.そのリストを積分して値Sを求める.理屈から考えると総サンプル数になるが.

の部分です。各レンジは,総サンプル数が得られたからこそ決められます。例えば,あとからサンプルを加えて行けば,レンジが変わることもあるでしょう。

その決められたはずの総サンプル数に計算を施して,総サンプル数を求める,総サンプル数が求まったら,レンジを決める,決めたら総サンプル数を求める計算をする・・・

こういうことですか?
それなら,不要な計算です。

>確率密度関数の定義を明確にすること
は,そのとおりです。
定義とともに,どのような仮定(前提)で話を進めるかが重要です。

確率や統計は,身近にあることが対象となりうるために,かえって定義が曖昧になっているような気がします。

かなり確率を学んでいる(私よりかも・・)ようなので,蛇足かもしれませんが,ビュッホン(Buffon) やベルトラン(Bertrand)の問題では,定義が不明確のため解答に混乱を招いてます。
(参考)
http://www.core.kochi-tech.ac.jp/m_inoue/work/math_tale/01.pdf
...続きを読む

Q±4σに入る確率について教えてください

ウィキペディアの検索より、
確率変数XがN( μ, σ2)に従う時、平均 μ からのずれがσ以下の範囲にXが含まれる確率は68.26%、2σ以下だと95.44%、さらに3σだと99.74%となる。
と分かりました。

そこで
4σ、


の場合確率はどうなるか教えてください。
よろしくお願い致します。

Aベストアンサー

Excel で NORMDIST を使い、平均 50、標準偏差 10 (いわゆる偏差値)で計算してみましたら、次のようになりました。

 σ 0.682689492137086
2σ 0.954499736103641
3σ 0.997300203936740
4σ 0.999936657516326
5σ 0.999999426696856
6σ 0.999999998026825
7σ 0.999999999997440
8σ 0.999999999999999
9σ 1.000000000000000

Excelの関数の精度がどの程度のものか分かりませんが、9σで100%になりました。

Q2つの正規分布を合成したらどうなるのでしょうか?

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

もしμ3=μ1+μ2,σ3=σ1+σ2のように平均も分散も和で考えてよいのなら

f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}

が答えだと思っているのですが、それとは別のやり方で



f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。

しかし、僕の数学の知識ではこれができなくて困っています。ガウス積分の公式を使ったりしなければいけないのではないかとも考えいるのですが行き詰っています。

アドバイスよろしくお願いいたします。

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

...続きを読む

Aベストアンサー

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z の平均と「分散」をμ3, (σ3)^2 とすると・・・

μ3 = μ1 + μ2
は、X, Y がどのような分布であっても(X, Y が異なる分布であっても)成立しますし、X, Y が互いに独立であるか否かに関わらず成立します。
また、X, Y が互いに独立であれば(それらの分布によらず)、
(σ3)^2 = (σ1)^2 + (σ2)^2
が成立します。(このとき Z = X + Y の「標準偏差」σ3 は、σ3 = √( (σ1)^2 + (σ2)^2 ) )

> f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}
> が答えだと思っているのですが
X, Y が互いに独立な確率変数であり、共に正規分布に従うならば、X + Y もまた正規分布に従うという事実は確かにありますが、これは正規分布の「再生性」と呼ばれる特別な性質であることを理解していなければなりません。その点、大丈夫ですか?

> それとは別のやり方で
> f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
> f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。
上述したように、正規分布の再生性を示す必要があるならば、畳み込み積分でそれを示すのが一法なのであって、何も「別のやり方」ではありません。
案ずるより計算するが易しです。式の整理が面倒なだけで、特別な知識は不要です。
f(x) = 1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}
g(x) = 1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}
h(x) = ∫f(t) g(x - t) dt
  = 1/(2πσ1 σ2) ∫exp{ - (t - μ1)^2 / (2σ1^2) - (x - t - μ2)^2 / (2σ2^2) } dt
  epx( ) の指数部を t で平方完成して
  = 1/(2πσ1 σ2) ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2)) - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } dt
  = 1/(2πσ1 σ2) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2))} dt
  = 1/√(2π(σ1^2 + σ2^2)) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) }
  (∵ ∫ exp ( - (t - A)^2 / 2B^2 ) dt = √(2π) B )
μ3 = μ1 + μ2, σ3^2 = σ1^2 + σ2^2 とおけば
h(x) = 1/(√(2π) σ3) exp( - (x - μ3)^2 / 2 σ3^2 )
途中、「何ちゃら」の部分は省略してますので、興味があれば追っかけてみてください。

なお、本件は確率論において、ごくごく基本的な事項です。
もし、これから確率統計を使って研究をされるのならば、このような件を簡単に質問して済ませるのは危うい感じがします。ちゃんと書籍を読まれ、その上で質問されるのが宜しいでしょう。

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z ...続きを読む

Q対数変換する意味?

私は数学が苦手な文系大学生です。最近「地域分析」という本を読んでいるのですが、たびたび数式を「対数変換すると・・・」と言う風に話が進みます。対数変換をすることの意味がわからないので内容が理解できません。

まず、対数変換とは何なのか?対数変換を行なうと何がどのように変わるのでしょうか?
また、一般的に対数変換とはどのような目的で行なわれるのでしょうか?

ということを文系の学生にわかりやすく教えていただけないでしょうか。
対数変換の内容を理解していないため、質問が的を得ていないかもしれませんが、よろしくお願いします。(また、ここで説明できるような内容でなければ、その旨をお伝えください。)

Aベストアンサー

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

このように表現すると、正の数値で1以下の小数から
万や億などの非常に大きい値に散らばる数値サンプルを
整理したり表現するのに非常に便利です。

また、対数にしてグラフを作ると、上記のように非常に
大きな数(または0.00000・・・・のように非常に小さい数)
を限られた紙面上でプロットする事ができます。
もしそのプロットした結果が直線になった場合、
その直線の傾きでサンプルの近似式を導き出すこともできます。

具体的例を挙げると、身近なものではpH値。
これはある液体の単位量あたりどのくらい水素イオンが
含まれるかを対数表現したものです。
(厳密には、モル濃度で表した水素イオン濃度の逆数の常用対数)

まとめると、対数は小数から数万・億などの広範囲に散らばる
数値を整理するために使われる道具とお考えになられたら
良いと思います。

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

この...続きを読む

QNをPaに単位換算できるのか?

大変困ってます。
皆さんのお力をお貸しください。

加重単位Nを圧力単位Paに変換できるのでしょうか?
もし出来るとしたらやり方を教えてください。
具体的には30Nは何Paかということです。
変換の過程も教えていただければ幸いです。

是非、ご回答、よろしくお願いいたします。

Aベストアンサー

 No.1さんがおおまかに答えておられますが、補足します。
 N(ニュートン)は力の単位です。対して、Pa(パスカル)は圧力の単位です。これらは次元が違うので、単独では変換はできません。
「30 Nは何Paか」
というのはナンセンスです。
 NとPaの関係は、
Pa = N/m^2
です。質問が、
「30 NをPaを使って表せ」
というのならば、
30 N = 30 Pa・m^2
となります。m^2(平方メートル)という単位が必要になります。物理量の間の関係、
圧力 = 力/面積
および、単位の間の関係
Pa = N/m^2
を整理して覚えてください。

Q何kV/cmで絶縁破壊が起こるか?

試料に高電圧を印加する実験を考えております。シリコンオイル中、および大気中において、何kV/cmで絶縁破壊が起こるか、ご存知の方がいらっしゃいましたら教えていただきたく存じます。有効数字は一桁程度でかまいません。

Aベストアンサー

一般的にいわれるのは
大気中:30kV/cm

また、教科書によると、
シリコン油中:80kV/2.5mm
だそうです。
ただ、絶縁破壊電界は電極間距離に依存し、一般には短い方が高電界に耐えます。

Qパワーポイントで文字の上に線を入れる方法

経済学の式のように、文字の上にバーを入れたいのですが、(例えば「X」に下線ではなく上線を入れたい)、描画オブジェクトとして線を手入力する以外に何か方法は
ありますか?
宜しくどうぞ。

Aベストアンサー

数式エディタ(Microsoft 数式 3.0)で入力できます。
数式エディタのヘルプで、『上付きバー』を検索すれば入力方法が分かると思います。

参考URL:http://www.f.waseda.jp/kazr/tips/tips.html

参考URL:http://www.fwindows.com/tips/tips010608.htm

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む


人気Q&Aランキング