1反復に複数データがある場合のｔ検定のやり方とは？

Question

統計初心者の質問です。
　コマツナの2つの品種で収穫物の重さ（葉重）に差があるかどうか検定したいとします。実験計画としては、ほ場を8区画に分け、ここに両品種4反復の完全無作為化法で植え付けます。各区画には50株が植え付けられていますが、ここから20株をランダムに選んで調査対象にするとします。つまり各品種について20株×4反復＝80株について収穫物のデータが得られることになります。
　さて、ここでｔ検定を行う場合、1対の葉重について検定することになりますが、この場合のデータとは各反復の平均値4つ同士の検定なのか、それとも前収穫物80株同士の検定なのか、どちらが正しいのでしょうか。
　これが果樹となると施肥試験で果重を比較する場合、施肥の影響は樹体全体に及びますので、1樹40果を収穫してその樹体の果重の平均値を求め、施肥改善区樹5樹、慣行施肥区5樹の平均値同士で比較するといったことになると思うのですが（40果×5樹＝200果の果重同士では検定しないのでは？）。
　統計のテキストをいろいろ調べてもリンゴ20個同士とか、マウス10頭同士とかの単純な事例ばかりで、この質問のような事例に合った回答がみつかりません。どなたか明確に教えてくださいませんか。

stomachman · Accepted Answer

圃場を8つに分けてどの区画をどの品種に対応させるかをランダムに決めたのは、育成環境の違いの影響をなるべく消すためですよね。本来なら、一株ごとにどっちの品種を植えるかをランダムに選びたいところだけど、そんなの到底管理できないから、いわば「次善の策」としてこういうことをやった。
　というわけで、「環境要因についてはランダマイズされている」という仮定のもとで統計解析するなら、「収穫物80株同士の検定」で宜しいでしょう。しかし同時に、「同じ品種について、4つの区画のどれに植えたかによる違いは、どの程度か」を確認しなくちゃ。もし、品種による違いに比べて区画による違いが大きいのなら、「影響をなるべく消す」操作がうまく行っていない恐れが多分にあるわけですから、品種同士の検定だけから結論を出すわけにはいかない。

「影響をなるべく消す」操作がうまく行っていない場合には、「どの区画に植えたか（8次元のベクトルで、例えば第2区画に植えたら(0,1,0,0,0,0,0,0)と表す）」と「どっちの品種か（2次元のベクトルで表されます）」を同時に両方考慮した解析を考える必要がありますけれども、比較対象（同じ区画で別の品種を植えた結果）が欠測しているわけですから、「不完全データの統計解析」法を使って頑張るしかない。（品種による違いが大きくないと、意味のある結果を出すのにN数が足りないかもです。）さらには「区画と品種には相性がある」という交絡要因がある恐れもあります。（区画1,2,3は他に比べて風が強くて、品種1は風が好き、品種2は風が嫌い、てな話です。）
　一般に、実験やっちゃってから、さてこのデータをどうしよう、ってのはダメです。実験を計画する段階で、何を要因と想定し、どう解析して、何が言える予定なのか、そのためには何をどう測るか、ということを考えておくことが重要。例えば、「各区画のいろんな特性を測った」データや、「いくつかの区画で、一株ごとにどっちの品種を植えるかをランダムに選んだ」という予備的なデータが少数でもあったなら、探索的なデータ分析をやって、何か発見できるかもしれない。（逆に言えば、これらの話についてはすでに検討は終わっている、ということであれば、単に「影響をなるべく消す」操作が概ね上手くいった、という確認だけすれば良いってことです。）

kamiyasiro · Answer

２種の袋、５本の樹木、繰り返し数30の場合ですね。
これは、樹木がブロック因子となります。乱塊法の解析になります。
詳しくは、ネットかテキストで・・・。

kamiyasiro · Answer

stomachman先生がおっしゃるように、8つの圃場をランダムに決めたのであれば、収穫物80株同士の検定になります。

一方、圃場１つ１つに何らかのバイアスがあると考えられる場合は、2品種間の効果の差を求めるのは大変難しいです。

これは、The 8 Schools Problem (Rubin(1981))と呼ばれるマルチレベルモデルの問題と同じです。
https://pluto.coe.fsu.edu/svn/common/rgroup-shiny/Bayesian/Schools8Stan.nb.html

この問題は、Stanというベイズのソフトの最初の演習問題として取り上げられることが多いので、結構知れ渡った問題です。このリンク先にデータ構造のグラフがあります。それを見ればイメージしやすいと思います。

1反復に複数データがある場合のｔ検定のやり方とは？

圃場を8つに分けてどの区画をどの品種に対応させるかをランダムに決めたのは、育成環境の違いの影響をなるべく消すためですよね。

２種の袋、５本の樹木、繰り返し数30の場合ですね。

stomachman先生がおっしゃるように、8つの圃場をランダムに決めたのであれば、収穫物80株同士の検定になります。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング