dポイントプレゼントキャンペーン実施中!

統計初心者の質問です。
 コマツナの2つの品種で収穫物の重さ(葉重)に差があるかどうか検定したいとします。実験計画としては、ほ場を8区画に分け、ここに両品種4反復の完全無作為化法で植え付けます。各区画には50株が植え付けられていますが、ここから20株をランダムに選んで調査対象にするとします。つまり各品種について20株×4反復=80株について収穫物のデータが得られることになります。
 さて、ここでt検定を行う場合、1対の葉重について検定することになりますが、この場合のデータとは各反復の平均値4つ同士の検定なのか、それとも前収穫物80株同士の検定なのか、どちらが正しいのでしょうか。
 これが果樹となると施肥試験で果重を比較する場合、施肥の影響は樹体全体に及びますので、1樹40果を収穫してその樹体の果重の平均値を求め、施肥改善区樹5樹、慣行施肥区5樹の平均値同士で比較するといったことになると思うのですが(40果×5樹=200果の果重同士では検定しないのでは?)。
 統計のテキストをいろいろ調べてもリンゴ20個同士とか、マウス10頭同士とかの単純な事例ばかりで、この質問のような事例に合った回答がみつかりません。どなたか明確に教えてくださいませんか。

質問者からの補足コメント

  • お二人から有益なアドバイスをいただきました。ありがとうございました。平均値同士を変数に用いることは不適切ということですね。また区画間の変動についてもご指摘いただきました。ただ農業実験の場面では、生育差があることが予想される作物を1個体ずつランダムに植え付けることは不可能で、それぞれ一定面積の群落を形成させて、周縁部以外からサンプリングするという方法をとります。その群落としての代表値を同士で検定することが不適切なのかどうかという確認をしたかったということになります。
     それでは後半でおまけのように触れた果樹の場合はいかがでしょうか。2種の果実袋が糖度に及ぼす影響の違いを1樹あたり各袋で30果、5樹ずつを用いて比較する場合、1樹の平均値同士でt検定という設計はいかがでしょう。この場合の反復は独立した樹体ということになりますが、それでも150果同士でt検定なのでしょうか。

      補足日時:2021/10/05 22:10

A 回答 (3件)

圃場を8つに分けてどの区画をどの品種に対応させるかをランダムに決めたのは、育成環境の違いの影響をなるべく消すためですよね。

本来なら、一株ごとにどっちの品種を植えるかをランダムに選びたいところだけど、そんなの到底管理できないから、いわば「次善の策」としてこういうことをやった。
 というわけで、「環境要因についてはランダマイズされている」という仮定のもとで統計解析するなら、「収穫物80株同士の検定」で宜しいでしょう。しかし同時に、「同じ品種について、4つの区画のどれに植えたかによる違いは、どの程度か」を確認しなくちゃ。もし、品種による違いに比べて区画による違いが大きいのなら、「影響をなるべく消す」操作がうまく行っていない恐れが多分にあるわけですから、品種同士の検定だけから結論を出すわけにはいかない。

 「影響をなるべく消す」操作がうまく行っていない場合には、「どの区画に植えたか(8次元のベクトルで、例えば第2区画に植えたら(0,1,0,0,0,0,0,0)と表す)」と「どっちの品種か(2次元のベクトルで表されます)」を同時に両方考慮した解析を考える必要がありますけれども、比較対象(同じ区画で別の品種を植えた結果)が欠測しているわけですから、「不完全データの統計解析」法を使って頑張るしかない。(品種による違いが大きくないと、意味のある結果を出すのにN数が足りないかもです。)さらには「区画と品種には相性がある」という交絡要因がある恐れもあります。(区画1,2,3は他に比べて風が強くて、品種1は風が好き、品種2は風が嫌い、てな話です。)
 一般に、実験やっちゃってから、さてこのデータをどうしよう、ってのはダメです。実験を計画する段階で、何を要因と想定し、どう解析して、何が言える予定なのか、そのためには何をどう測るか、ということを考えておくことが重要。例えば、「各区画のいろんな特性を測った」データや、「いくつかの区画で、一株ごとにどっちの品種を植えるかをランダムに選んだ」という予備的なデータが少数でもあったなら、探索的なデータ分析をやって、何か発見できるかもしれない。(逆に言えば、これらの話についてはすでに検討は終わっている、ということであれば、単に「影響をなるべく消す」操作が概ね上手くいった、という確認だけすれば良いってことです。)
    • good
    • 1

2種の袋、5本の樹木、繰り返し数30の場合ですね。


これは、樹木がブロック因子となります。乱塊法の解析になります。
詳しくは、ネットかテキストで・・・。
    • good
    • 1
この回答へのお礼

最初にいただいたご回答を含め、有効なご指導を賜りました。お礼申し上げます。

お礼日時:2021/10/06 22:05

stomachman先生がおっしゃるように、8つの圃場をランダムに決めたのであれば、収穫物80株同士の検定になります。



一方、圃場1つ1つに何らかのバイアスがあると考えられる場合は、2品種間の効果の差を求めるのは大変難しいです。

これは、The 8 Schools Problem (Rubin(1981))と呼ばれるマルチレベルモデルの問題と同じです。
https://pluto.coe.fsu.edu/svn/common/rgroup-shin …

この問題は、Stanというベイズのソフトの最初の演習問題として取り上げられることが多いので、結構知れ渡った問題です。このリンク先にデータ構造のグラフがあります。それを見ればイメージしやすいと思います。
    • good
    • 0
この回答へのお礼

先生を含めお二人から有益なご指導をいただきました。心よりお礼申し上げます。また別件で質問することがありましたら、よろしくお願い致します。

お礼日時:2021/10/06 22:07

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!