プロが教えるわが家の防犯対策術!

時系列データの周波数うちわけを知る統計量(?)として,
ピリオドグラムというものがあることを知りました。

p(f) = C_0 + 2 Σ{k = 1 to ∞}C_k cos(2πkf)

周波数のうちわけを知るだけなら FFT で十分なのに,
なぜピリオドグラムというものが存在するのでしょうか。

不運にも私には,高校数学程度の理解しかありません。

ピリオドグラムのメリットとかデメリットが気になります。
ピリオドグラムをかみくだいて語ってくださると幸いです。

A 回答 (1件)

ピリオドグラムというのは,つまり,確率的な信号についての,FFTの平均値みたいなものです.



普通,信号解析をする場合,多かれ少なかれ,外部ノイズなどの確率的な現象を含む信号(時系列)を対象にしています.
なんでスペクトル解析なんかをするときにも,確率的な取り扱いが入ってきます.

例えば,なんかの観測を無限回,繰り返したとします.
1回目は,時系列 f1(t) を観測,
2回目は,時系列 f2(t) を観測,

f1(t),f2(t),…は,だいたい似ているわけですが,細かく見るとノイズなんかの影響でちょっとずつ異なります.
なんで,f1(t),f2(t),…をそれぞれ,フーリエ変換(あるいはFFT)したF1(ω),F2(ω),…もちょっとずつ違います.
で,ピリオドグラムというのは,こいつらの各ωごとの平均のことです.つまり
 Periodogram(ω) = E[ Fn(ω) ]_{n=1,2,…}
です.(つまり.確率空間全体にわたる平均のこと)

あと,パワースペクトルというのもあります.これは Fn(ω)の絶対値の2乗の平均のことです.
信号解析では,各周波数成分ごとのパワーのほうに興味があることが多いので,こっちのほうがよく使われます.
つまり,
 PowerSpectrum(ω)= E[ |Fn(ω)|^2 ]_{n=1,2,…}
です,(これも,ほんとは,確率空間全体にわたる平均のこと)

注意しないといけないのは,
 PowerSpectrum(ω) ≠ |Periodogram(ω)|^2
ということです.これは,ある確率変数Xについて
 E[X^2] ≠ (E[X])^2
てことを考えればわかりますね.

なんで,パワースペクトルを計算するには,普通は観測した時系列を直接FFTするのではなくて,
時系列の自己相関をとってそれをFFTします.(ウィーナー・ヒンチンの定理)
定義上は,各観測時系列直接FFTして,それぞれ絶対値の2乗を計算してから,平均すればいいわけですが,
これだと,収束性がものすごく悪いです.
    • good
    • 1
この回答へのお礼

かみくだいてご説明いただき,助かりました。

FFT とピリオドグラムとで結果を比較してみました。
たしかにピリオドグラムは,ノイズ成分が非常に少ない!
でも拾いたい(高次の)周波数まで,低減されてました(笑

今後,ピリオドグラムを使うことがあれば,活用したいです。
とてもよい勉強になり今後,ツールの一つとして覚えておきたいです。

お礼日時:2006/10/03 20:46

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q自己相関関数とパワースペクトル密度関数、フーリエ変換について。

自己相関関数とパワースペクトル密度関数、フーリエ変換について。
パワースペクトル、パワースペクトル密度と自己相関関数についての質問です。

(tは時間、hは次数、fは周波数として)

ある信号x(t)の自己相関関数r(h)をフーリエ変換すると、その信号のパワースペクトル密度関数p(f)になるとネットにあったのですが、パワースペクトル密度関数p(f)と、信号x(t)をそのままフーリエ変換して得たパワースペクトルX(f)はどう違うんでしょうか。


ちなみに数学的な話というよりはコンピュータ上の処理(離散値)で考えています。

もともとパワースペクトルが『自己相関関数の離散フーリエ変換として定義される』と本にはあったのを読みました。

しかし同じ本の中に、『自己相関関数のフーリエ変換は正しくはピリオドグラムと言い、パワースペクトルとはピリオドグラムの平均値で求められる』とも書いてありました。

パワースペクトルとパワースペクトル密度関数はいったいどう違うのか…?とずっと考えているのですが分かりません。

あと(自己、相互)相関関数と(自己、相互)相関係数にはどのような関係があるのですか。回答よろしくお願いします。

前回1つ回答頂いたんですが解決できなかったのですみません、もう一度お願いします。

自己相関関数とパワースペクトル密度関数、フーリエ変換について。
パワースペクトル、パワースペクトル密度と自己相関関数についての質問です。

(tは時間、hは次数、fは周波数として)

ある信号x(t)の自己相関関数r(h)をフーリエ変換すると、その信号のパワースペクトル密度関数p(f)になるとネットにあったのですが、パワースペクトル密度関数p(f)と、信号x(t)をそのままフーリエ変換して得たパワースペクトルX(f)はどう違うんでしょうか。


ちなみに数学的な話というよりはコンピュータ上の処理...続きを読む

Aベストアンサー

http://www.tsunami.civil.tohoku.ac.jp/hokusai2/class/spec/07auto.pdf
の8ページ、9ページに
パワースペクトルG(ω)
自己相関関数R(ω)
信号のフーリエ変換F(ω)
の関係が書いてあります。

パワースペクトルを求めるのに自己相関関数を使うのは
原信号は-無限大から+無限大まで分布してますが、
自己相関関数は普通は0の周りに局在していますから計算が圧倒的に楽ですね。

上記の定義からわかるように、これらの関数はすべてある確定した原信号に対して定義されています。
ピリオドグラムという考え方は、原信号がいくつかあったときにその平均的な見方をした場合に定義される量です。

確率過程と見なされる原信号があったときに、上記自己相関関数などを原信号の母集団のなかで平均操作したものとお考えください。

相関関数と相関係数の違いですが、特定の値についての相関関数が相関係数だと考えればよいと思います。
たとえば同時刻の信号Xと信号Yの積の平均値などが相互相関係数に該当します。
相関関数を扱っているときには相関係数というものを考える意味はないと
思います。

また、自己相関係数というのは常に1で考える意味がないと思います。

http://www.tsunami.civil.tohoku.ac.jp/hokusai2/class/spec/07auto.pdf
の8ページ、9ページに
パワースペクトルG(ω)
自己相関関数R(ω)
信号のフーリエ変換F(ω)
の関係が書いてあります。

パワースペクトルを求めるのに自己相関関数を使うのは
原信号は-無限大から+無限大まで分布してますが、
自己相関関数は普通は0の周りに局在していますから計算が圧倒的に楽ですね。

上記の定義からわかるように、これらの関数はすべてある確定した原信号に対して定義されています。
ピリオドグラムという...続きを読む

Qパワースペクトルとは?

パワースペクトルについて説明してくださいと先生に言われました。
全くわからない人に説明するので端的にわかりやすく説明したいのですが誰かできる人はいませんか?ちなみにぼくも詳しいことは全然わかりません。
本などを見ても式があったりしてそれをまた理解することが出来ません。
なんかイメージがわくような方法はないですかね?

Aベストアンサー

スペクトルとは、独立な成分それぞれについての強さをグラフにしたものです。
光の場合、光の種類を色で分類する事ができます。光といっても、その中に青はどれくらい、オレンジはどれくらいとそれぞれの色に応じて強さがあります。
光をそれぞれに分ける方法は、たとえばプリズムがあって、光をプリズムに通すといろいろな色にわかれてみえます。

ニュートンはプリズムを使った実験で有名です。一つ目のプリズムで光を分光し、赤と青の光を残して他の光を遮り、赤と青を二つ目のプリズムやレンズで一つにまとめました。その後でもう一度プリズムを通すと、いったんまとめたのにやはり赤と青しかでてこないのです。これから光の色の独立性(赤や青は、混ざらないものとして独立に扱って良い、ということ)がわかります。

このように色にはそれぞれを別々に扱ってもよいので、色ごとに物事を考えると分かりやすくなります。この色ごとについての強度を「光のスペクトル」、といいます。
強度はふつう「時間当たりに光りが運ぶエネルギー」(パワー)で表すので、この時は「パワースペクトル」です。

こんなふうに物事を自然な「成分(光の時は色)」にわけて考えた物がスペクトルです。詳しくは座標とフーリエ成分の関係について(フーリエ変換について)勉強するといいと思います(電磁場の実空間の振動とフーリエ空間上での振動の対応として)。

スペクトルとは、独立な成分それぞれについての強さをグラフにしたものです。
光の場合、光の種類を色で分類する事ができます。光といっても、その中に青はどれくらい、オレンジはどれくらいとそれぞれの色に応じて強さがあります。
光をそれぞれに分ける方法は、たとえばプリズムがあって、光をプリズムに通すといろいろな色にわかれてみえます。

ニュートンはプリズムを使った実験で有名です。一つ目のプリズムで光を分光し、赤と青の光を残して他の光を遮り、赤と青を二つ目のプリズムやレンズで一つにま...続きを読む

QFFT・PSDの縦軸は何を意味するのでしょう?

加速度計測の結果について、PSD(パワースペクトラムデンシティ)をかけた場合、その縦軸の意味を教えてください。
また、FFTとPSDはどういう違いが有るのでしょうか?
これまでは、周波数の分布のみに着目していました。
どなたか、わかりやすく教えてください。
よろしくお願いします。

Aベストアンサー

一般に加速度センサー信号の出力は電圧です。

縦軸は係数をかけていない状態では#1さんがおっしゃるように計測した電圧の値を示しています。

よって、縦軸に物理的な意味を持たせるのには、電圧と加速度の間の換算係数をかけてやる必要があります。

フーリエ解析は時刻歴波形は正弦波の組み合わせで構成されるという仮定の下で計算を行っています。FFTの結果は横軸で示される周波数の正弦波の振幅を示しています。
電圧と加速度の換算係数をかけてやると、FFTの縦軸はその周波数成分を持つ加速度振幅を示しています。

ここで1つ問題があります。FFTはサンプリング周波数により分解能が変わります。FFTによる周波数分析は正確にいうと、離散値なので、ジャストの周波数のもをだけを表しているのではなく、ある範囲の周波数範囲にある成分を表しています。
このため分解能が変わると周波数範囲が変わり、同じ波形を分析しても振幅が変わります。
これでは分解能が異なるデータ同士は比較できないなどの問題が生じます。
そのため、周波数幅で振幅を基準化して、1Hzあたりの振幅としたものがPSDです。
PSDならサンプリング周波数が異なるデータ同士の比較ができます。

要はフーリエ振幅(FFT)はサンプリング周波数・分解能により変わる値であり、PSDはそのようなことのないように周波数幅で基準化した値という差があります。

なお、2乗表示したものをパワースペクトルと呼び、それを周波数で基準化したものをPSDと呼びますが、PSDは表示方法によって2乗した状態のあたいを表示(パワー表示)するときと、2乗した値の平方根を計算して表示することがありますので、使用する際には縦軸の表示方法については要注意です。

一般に加速度センサー信号の出力は電圧です。

縦軸は係数をかけていない状態では#1さんがおっしゃるように計測した電圧の値を示しています。

よって、縦軸に物理的な意味を持たせるのには、電圧と加速度の間の換算係数をかけてやる必要があります。

フーリエ解析は時刻歴波形は正弦波の組み合わせで構成されるという仮定の下で計算を行っています。FFTの結果は横軸で示される周波数の正弦波の振幅を示しています。
電圧と加速度の換算係数をかけてやると、FFTの縦軸はその周波数成分を持つ加速...続きを読む

QFFTとパワースペクトルの違いについて教えてください。

FFTとパワースペクトルの違いについて教えてください。
勉強不足で申し訳ありません。よろしくお願いします。

Aベストアンサー

信号をFFTで出したスペクトルというのは、
単にある信号をフーリエ展開した係数をプロットしたものに過ぎません。
ですので、位相によっては値がプラスにもマイナスにもなることがあります。

これに対してパワースペクトルというのは、信ある信号について
ある周波数における信号強度そのものをプロットしたものです。
ですので、位相にかかわらずかならず値がプラスになります。

確かFFTスペクトルを2乗したものがパワースペクトルになったと思います。
間違ってるかもしれないので、一応教科書も調べてみてください。

Qパワースペクトル密度 エネルギースペクトル密度

信号のパワースペクトル密度とエネルギースペクトル密度とは何なんですか?調べてみましたがよく分かりません。
それぞれの違いや関係についても知っている方いらっしゃいましたら、どうか教えてください。
よろしくお願いします。

Aベストアンサー

原理的な話をします.
まず,時間波形x(t)の絶対値の2乗|x(t)|^2を全時間範囲(-無限大<t<無限大)に渡って積分したものは,その波形の全エネルギーです.
一方,|x(t)|の全時間範囲に渡る積分値が存在するのなら,x(t)はフーリエ変換可能ですが,そのx(t)のフーリエ変換X(f)の絶対値の2乗|X(f)|^2を全周波数範囲(-無限大<f<無限大)に渡って積分したものは,実はx(t)の全エネルギーになるという有名な定理(Parsevalの定理)があります.

ということは,このときの被積分関数|X(f)|^2は単位周波数あたりのエネルギーを表していることになるでしょ.これ(|X(f)|^2)がエネルギースペクトル密度と呼ばれるものです.

ところで,実世界の多くの波形(不規則波形など)は,無限の時間範囲に渡って存在するので,その全エネルギーは一般には無限大となり,上記のエネルギースペクトル密度は定義(計算)できません.

そこで,そのような波形に対しては,|X(f)|^2を全周波数範囲(-無限大<f<無限大)に渡って積分するだけではなく,その積分値の時間平均を考えます.すなわち被積分関数|X(f)|^2/2Tを時間範囲2T(-T<t<T)に渡って積分して,さらにTを無限大にした量を考えます.この量は,単位時間当たりのエネルギーを表しますから,パワーと呼ばれる単位を持ちます.これがパワースペクトル密度と呼ばれるものです.

衝撃波形などは,無限大の時間範囲に渡っては波形が存在しないので,エネルギースペクトル密度を求めることができます.一方不規則波形などは,上述のとおり,エネルギースペクトル密度を求めることはでなくて,代わりにパワースペクトルという量で議論する必要があります.

原理的な話をします.
まず,時間波形x(t)の絶対値の2乗|x(t)|^2を全時間範囲(-無限大<t<無限大)に渡って積分したものは,その波形の全エネルギーです.
一方,|x(t)|の全時間範囲に渡る積分値が存在するのなら,x(t)はフーリエ変換可能ですが,そのx(t)のフーリエ変換X(f)の絶対値の2乗|X(f)|^2を全周波数範囲(-無限大<f<無限大)に渡って積分したものは,実はx(t)の全エネルギーになるという有名な定理(Parsevalの定理)があります.

ということは,このときの被積分関数|X(f)|^2は単位周波数あたり...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q高速フーリエ変換でデータ数が2のべき乗でない時

こんにちは。現在、フーリエ変換について勉強しているのですが、ちょっとわからないことがあったので質問させていただきました。

質問内容は高速フーリエ変換についてで、cooley&tukeyのアルゴリズムを利用すると、データが2の冪乗個のときは計算量をО(NlogN)に減らせる事ができるというものでした。

しかしデータが2の冪乗個でないとき。例えばN=5000くらいのときはデータを切り取って無理やりN=4096(=2^12)みたいな感じにすれば良いんですよね?
やっぱりその時って、N=5000で通常の離散フーリエ変換したときと周波数値に誤差が出ると思うのですが、それはどうやったら計算できるのでしょうか。。。

どなたかご教授していただければ幸いです。

Aベストアンサー

離散フーリエ変換は、信号が周期的であることを前提としています。
離散フーリエ変換でのデータ数Nは、離散時間信号の周期に当たります。変換の結果は線スペクトルとなります。
N=5000がその信号の1周期なのでしょうか。
もしそうならば、4096にすれば、誤差が大きくなるでしょう。
N=5000で変換すべきです。この場合にも高速アルゴリズムが
存在します。#1の方のとおりです。
FORTRANの時代には、パッケージがありました。
NはN=2^m*3^n*5^k*7^Lだったと思います。

もうひとつの考え方は、有限持続時間信号のフーリエ変換としての
適用です。これは、連続スペクトルとなります。データ数Nは
スペクトルの分解能に関係します。サンプリング周波数をNで割った
ものが周波数分解能となります。
実際のデータよりも2倍程度のNを使うことが多いと思います。
データ数が5000ならば、Nは8192とし足りないデータには、
0を詰めます。これならば、2のべき乗のNを選べます。
この場合、逆変換は周期的な拡張が行われることに注意が必要です。

離散フーリエ変換は、信号が周期的であることを前提としています。
離散フーリエ変換でのデータ数Nは、離散時間信号の周期に当たります。変換の結果は線スペクトルとなります。
N=5000がその信号の1周期なのでしょうか。
もしそうならば、4096にすれば、誤差が大きくなるでしょう。
N=5000で変換すべきです。この場合にも高速アルゴリズムが
存在します。#1の方のとおりです。
FORTRANの時代には、パッケージがありました。
NはN=2^m*3^n*5^k*7^Lだったと思...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。


人気Q&Aランキング