統計初心者の質問です。
コマツナの2つの品種で収穫物の重さ(葉重)に差があるかどうか検定したいとします。実験計画としては、ほ場を8区画に分け、ここに両品種4反復の完全無作為化法で植え付けます。各区画には50株が植え付けられていますが、ここから20株をランダムに選んで調査対象にするとします。つまり各品種について20株×4反復=80株について収穫物のデータが得られることになります。
さて、ここでt検定を行う場合、1対の葉重について検定することになりますが、この場合のデータとは各反復の平均値4つ同士の検定なのか、それとも前収穫物80株同士の検定なのか、どちらが正しいのでしょうか。
これが果樹となると施肥試験で果重を比較する場合、施肥の影響は樹体全体に及びますので、1樹40果を収穫してその樹体の果重の平均値を求め、施肥改善区樹5樹、慣行施肥区5樹の平均値同士で比較するといったことになると思うのですが(40果×5樹=200果の果重同士では検定しないのでは?)。
統計のテキストをいろいろ調べてもリンゴ20個同士とか、マウス10頭同士とかの単純な事例ばかりで、この質問のような事例に合った回答がみつかりません。どなたか明確に教えてくださいませんか。
No.1ベストアンサー
- 回答日時:
圃場を8つに分けてどの区画をどの品種に対応させるかをランダムに決めたのは、育成環境の違いの影響をなるべく消すためですよね。
本来なら、一株ごとにどっちの品種を植えるかをランダムに選びたいところだけど、そんなの到底管理できないから、いわば「次善の策」としてこういうことをやった。というわけで、「環境要因についてはランダマイズされている」という仮定のもとで統計解析するなら、「収穫物80株同士の検定」で宜しいでしょう。しかし同時に、「同じ品種について、4つの区画のどれに植えたかによる違いは、どの程度か」を確認しなくちゃ。もし、品種による違いに比べて区画による違いが大きいのなら、「影響をなるべく消す」操作がうまく行っていない恐れが多分にあるわけですから、品種同士の検定だけから結論を出すわけにはいかない。
「影響をなるべく消す」操作がうまく行っていない場合には、「どの区画に植えたか(8次元のベクトルで、例えば第2区画に植えたら(0,1,0,0,0,0,0,0)と表す)」と「どっちの品種か(2次元のベクトルで表されます)」を同時に両方考慮した解析を考える必要がありますけれども、比較対象(同じ区画で別の品種を植えた結果)が欠測しているわけですから、「不完全データの統計解析」法を使って頑張るしかない。(品種による違いが大きくないと、意味のある結果を出すのにN数が足りないかもです。)さらには「区画と品種には相性がある」という交絡要因がある恐れもあります。(区画1,2,3は他に比べて風が強くて、品種1は風が好き、品種2は風が嫌い、てな話です。)
一般に、実験やっちゃってから、さてこのデータをどうしよう、ってのはダメです。実験を計画する段階で、何を要因と想定し、どう解析して、何が言える予定なのか、そのためには何をどう測るか、ということを考えておくことが重要。例えば、「各区画のいろんな特性を測った」データや、「いくつかの区画で、一株ごとにどっちの品種を植えるかをランダムに選んだ」という予備的なデータが少数でもあったなら、探索的なデータ分析をやって、何か発見できるかもしれない。(逆に言えば、これらの話についてはすでに検討は終わっている、ということであれば、単に「影響をなるべく消す」操作が概ね上手くいった、という確認だけすれば良いってことです。)
No.3
- 回答日時:
2種の袋、5本の樹木、繰り返し数30の場合ですね。
これは、樹木がブロック因子となります。乱塊法の解析になります。
詳しくは、ネットかテキストで・・・。
No.2
- 回答日時:
stomachman先生がおっしゃるように、8つの圃場をランダムに決めたのであれば、収穫物80株同士の検定になります。
一方、圃場1つ1つに何らかのバイアスがあると考えられる場合は、2品種間の効果の差を求めるのは大変難しいです。
これは、The 8 Schools Problem (Rubin(1981))と呼ばれるマルチレベルモデルの問題と同じです。
https://pluto.coe.fsu.edu/svn/common/rgroup-shin …
この問題は、Stanというベイズのソフトの最初の演習問題として取り上げられることが多いので、結構知れ渡った問題です。このリンク先にデータ構造のグラフがあります。それを見ればイメージしやすいと思います。
先生を含めお二人から有益なご指導をいただきました。心よりお礼申し上げます。また別件で質問することがありましたら、よろしくお願い致します。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 統計学 統計学の質問【帰無仮説】 B大学の卒業生の平均年収について調査するため、100人の卒業生を無作為に選 1 2023/05/25 23:36
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 統計学の問題です。よろしくお願いします。 ある部品の重量は正規分布に従うとされており,過去の経験から 1 2023/01/19 03:36
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 【統計】効果検証としてのT検定・F検定 5 2022/10/21 11:08
- 統計学 統計学の質問【帰無仮説】 高校の新学習指導要領では、統計的仮説検定の基本的な考え方が必修単元となった 5 2023/05/23 21:00
- 統計学 統計学の質問【帰無仮説】 W大学のP学部において、自宅通学者の比率にについて調べたい。 P学部から1 8 2023/05/25 23:28
- 統計学 t検定を繰り返してはいけない理由について教えて下さい。 2 2022/05/15 12:37
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
心理機能診断をしたのですが、...
-
エクセルのグラフから半値幅を...
-
対応のあるt検定の結果の書き方
-
心理学の統計について
-
関数における平行移動の式y-q=f...
-
検定統計量の値がマイナス
-
【統計】有意に「高い」?「低...
-
こんにちは!今日中に締め切り...
-
検定公差を教えてください!
-
t検定の結果の書きかた
-
エクセルでランダム関数で乱数...
-
検定統計量の問題について
-
両側検定と片側検定のp値の違い
-
統計で、有意水準を、0.01...
-
統計学が分かりません!詳しい...
-
脳波(EEG)の周波数は0.5~60Hzで...
-
二項分布B(n,p)の中央値(メデ...
-
エクセルの統計でχ二乗検定の結...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
下の対数表示のグラフから低域...
-
心理機能診断をしたのですが、...
-
エクセルのグラフから半値幅を...
-
検量線の決定係数について
-
脳波(EEG)の周波数は0.5~60Hzで...
-
心理学の統計について
-
検定統計量の値がマイナス
-
数Ⅰのグラフ問題について質問で...
-
統計について
-
応答で層別した場合の検定について
-
ポアソン回帰でのカウントデー...
-
至急お願いします!ラインウィ...
-
片対数グラフで…
-
最小二乗法を反比例の式を元に...
-
[Excel] リストからの無作為抽出
-
ブラック・ショールズ方程式を...
-
エクセルでランダム関数で乱数...
-
複数の集団の全体平均が0より有...
おすすめ情報
お二人から有益なアドバイスをいただきました。ありがとうございました。平均値同士を変数に用いることは不適切ということですね。また区画間の変動についてもご指摘いただきました。ただ農業実験の場面では、生育差があることが予想される作物を1個体ずつランダムに植え付けることは不可能で、それぞれ一定面積の群落を形成させて、周縁部以外からサンプリングするという方法をとります。その群落としての代表値を同士で検定することが不適切なのかどうかという確認をしたかったということになります。
それでは後半でおまけのように触れた果樹の場合はいかがでしょうか。2種の果実袋が糖度に及ぼす影響の違いを1樹あたり各袋で30果、5樹ずつを用いて比較する場合、1樹の平均値同士でt検定という設計はいかがでしょう。この場合の反復は独立した樹体ということになりますが、それでも150果同士でt検定なのでしょうか。