
エクセル統計で二標本の母平均の差の検定を行うと、観測値とランク化した値のそれぞれについて、t検定とWelch法による結果が出てきます。
このランク化した値を用いた方法については、具体的にどんな方法を使っているのわからなかったので、サポートに問い合わせたところ下記の回答を得ました。
1. 単純に観測値を順位化した数値を用いて、定義通りの式でt検定やWelchの方法を計算している。
2. 中心極限定理により、観測値の度数に関係なく順位データから計算したt統計量の分布は漸近的に正規分布に近づく。
2についてがよくわからなく、サポートからもはっきりした回答しか得られなかったので質問させていただきます。
観測値の有効数字が大きい場合、順位データはほとんどが度数1になり、正規分布からは程遠い分布になると思います。
このようなケースではt検定やWelch法を用いるのは不適切だと思うのですが、どうでしょうか。
また、正規性を仮定できないケースでは平均値を比較するより、中央値を比較することが多いような気がするのですが、このランク化されたt検定やWelch法というのは、どのようなときに用いることができる統計方法なのでしょうか。
よろしくお願いいたします。
No.1ベストアンサー
- 回答日時:
釣鐘状の分布が描けなければ正規分布でない、
と思っている気配を感じます。
テキトー想像で失礼すが、質問者様は、
サイコロの目のような確率変数が限られた整数しかとらない確率と、
連続量を扱う、たとえば確率変数が0から5の実数をとるような確率が、
ごちゃまぜになっているのではないでしょうか。
もしくはとらえるべき分布が混乱しているかのどちらか。
「データ数が限られていて度数を考えると度数は0か1になる」
を気にし続けると連続量は扱えません。
数直線上の0を狙ってダーツ(のようなもの)を投げて、
正規分布に従ってばらけたところにあたる、
という試行を考えてみてください。
確率変数は、その当たったところの値とします。
数学的無茶な精度で観測できるとしましょう。
冷静に言って、同じ値になることはほぼ絶対にありません。
連続値の世界なので、度数ということ自体変な話ですが、
結果分布はほとんどのところで0、限られた値で回数分の1ですね。
デルタ関数で無理やり結果だけからの確率関数を定義できなくもないかな?
ただ考えるべきは確率密度関数で、
定義に従って、それは正規分布です。
ですが、2回しか投げなければ、
0付近の2つの実数が得られるだけです。でも正規分布なんです。
2つから正規分布を類推しろ、と言っているのではなくて、
正規分布から抽出された2サンプル(2標本)と考えろ、という意味です。
どんな分布(分布A 教科書的には母集団)だろうと、
その分布から2つ以上のデータが得られて(分布B 教科書的には標本の分布)、
その平均値を考えると、平均値が従う分布(分布C)は(ほぼ)正規分布です。
それが中心極限定理そのものです。
ここで分布Aと分布Bと分布Cいう3つの分布が出てきてかなり混乱しやすいので
落ち着いて整理してください。
「観測値の有効数字が大きい場合、順位データはほとんどが度数1になり、正規分布からは程遠い分布」
とおっしゃっているのは分布Bです。
サポートが
「2. 中心極限定理により、...t統計量の分布は漸近的に正規分布に近づく。」
とおっしゃっているのは分布Cです。
分布Bから分布Cをひねりだして分布Aについて議論するのが
統計での検定の世界です
中心極限定理のよくある議論とは議論の順番が一致しないので、
落ち着いて対応させないと、中心極限定理ですよと言われても
なんのことだかわかりにくいものです。
今考えているのは2つの集団の母平均ですよね。
平均ですから正規分布(的なもの)に従います。
同じ母集団かもしれないことを議論しているので、
平均同士を引き算しても正規分布(的なもの)と考えてみます。
ただ、データ数が少なければ、同じ信頼度を語るのに分散は
大き目である必要があるのは直感的にわかりますよね。
ピッタリ正規分布なのではなく、ちょっと補正が必要。
それがt分布議論で、そのことを加味するのが
Welchの自由度部分です。
(ある有効桁数の)実数で得られる観測値を、わざわざランクにわけてから
議論すると、データがその分、観測値の有効桁数を落としたような状態に
なりますので、単にもったいないですが、
計算すればなにがしかの結果が得られます。
アンケートで(賛成、どちらかといえば賛成、どちらかといえば反対、反対)を
3,2,1,0とスコア付けするような意味のことをランクと呼んでらっしゃるのなら、
ちょっと別手法になります。
大変詳しいご回答ありがとうございます。
おっしゃる通り、釣鐘型の分布が正規分布であるとイメージしていました。
連続値であるならばランク化をしなくても厳密にはすべて度数が1か0になるのは言われてみれば全くその通りで、ランク化は「有効桁数を落としたような状態」というのにも納得です。
まだ理解しきれていないところもあるのですが、「分布Bから分布Cをひねり出して分布Aについて議論する」との説明で、前より検定に対してのイメージがクリアになったような気がしました。
正規性が仮定できるのか不明で、ばらつきも非常に大きいような野外観測データを扱っているのですが、ランク化されたものの方が検出力が上がるというか、直感とよく合う結果が得られるように感じています。
今回のようなランク化+パラメトリック検定という手法と、一般的なノンパラメトリック検定(マン・ホイットニーのU検定やBrunner-Munzel 検定など)は、どのように使い分けがなされるべきなのでしょうか。
不勉強で恐縮なのですが、可能であれば再度ご回答いただけると嬉しいです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 統計学の問題です。よろしくお願いします。 ある部品の重量は正規分布に従うとされており,過去の経験から 1 2023/01/19 03:36
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 統計学 統計検定2級の過去問について 1 2023/01/04 16:40
- 統計学 統計学の質問【帰無仮説】 B大学の卒業生の平均年収について調査するため、100人の卒業生を無作為に選 1 2023/05/25 23:36
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 統計学 どの統計を使えばいいのか教えてください(EZ-Rを使用) 5 2022/10/11 13:28
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
検量線の決定係数について
-
線形なグラフとはひとくちに言...
-
エクセルのグラフから半値幅を...
-
下の対数表示のグラフから低域...
-
最小二乗法を反比例の式を元に...
-
データ点を線で結ぶ場合と結ば...
-
統計学の基本的なことについて...
-
物理学実験のグラフの描き方に...
-
片対数グラフで…
-
対数グラフ用紙に収まらない場...
-
回帰分析の信頼区間、予測区間...
-
パイロットサンプルって何ですか?
-
両対数グラフの使い方について...
-
心理学の統計について
-
インチ定規は違法ですが、目盛...
-
標準偏差の分母にルートをかけ...
-
誤差曲線
-
同じ母集団からサイズnの標本を...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
エクセルのグラフから半値幅を...
-
検量線の決定係数について
-
下の対数表示のグラフから低域...
-
線形なグラフとはひとくちに言...
-
パイロットサンプルって何ですか?
-
最小二乗法を反比例の式を元に...
-
アンケートの集計分析の基礎(...
-
心理学の統計について
-
変化率のみで、有意差の検定は...
-
エクセルの統計でχ二乗検定の結...
-
グラフの"eye guide"について
-
【統計】有意に「高い」?「低...
-
統計について
-
片対数グラフで…
-
理科のグラフで、直線と曲線の...
-
一元配置分散分析のp値が0になる
-
死傷者数と死者数の違いって何...
-
統計学の質問【帰無仮説】 B大...
おすすめ情報