泣きたいです。
誰か助けていただけるかたいませんか。

統計処理を勉強し直し中ですが、今までの実験データの変動係数(CV)を計算してみたら、大きい方で40%にまで達してしまっています。

一年あまりも取り組んで集めてきたデータです。
どういう風に処理(?)、或いは解釈すれば良いでしょうか。

もしかして、0からやり直すしかないかと思うと、時間もないし、おしまいです.......

このQ&Aに関連する最新のQ&A

A 回答 (8件)

人工気象機での栽培結果ならまだ理解できますが・・・・


今いえること。
・特定要因のみの違いならCVの必要性はありません。
・一気に時系列の分析手法を使うのではなく、個々に統計解析をしてください。
(試験が読みきれないのですが、まさか、A区、B区の処理期間は一緒なのでしょうから)
・なぜサンプリング数が最小で5個なんでしょう?統計処理をするなら20は必要、マキシマムでも10
(つい最近、課題研究でサンプリング数5個で処理してきた学生にだめだしをしました。
どうも何回か書いた自由度はご理解なされないような・・・)

とにかく学生さんならここでどうのこうの言うより指導教官と相談してください。
(統計処理に対する質問というより、すでに論文のまとめ方の範疇です。)
    • good
    • 0

ごめんなさい。


何をしたいのか・・・何と何を比較したいのかまったくわからない。
データの記載なんですが・・・・
同時期に生育した2つの区を見るのでは無くて、別々の時期に作物を育てたデータ比較
なのでしょうか?

統計学は基本的に特定条件のみ異にした2群の比較が基本です。
多変量とか多重分析でやらないで2つの群で同一時期に栽培したものを分散分析してみなさいと
アドバイスしようとしたのですが・・・・
やり方が読めません。
(そもそも担当教官(?)と実験設計を検討しましたか?)
それも平均を比較しているし・・・

この回答への補足

>何と何を比較したいのか
Aとb 二つの処理により作物のある成分がどういう経過で、どう変動するのかを見るものです。
>同時期に生育した2つの区を見るのでは無くて、別々の時期に作物を育てたデータ比較
なのでしょうか?
同時期に育てたものに同時に二通りの処理するのがベストですが、条件の制限もあるし、同時だと二つの処理はお互いに干渉されるので、別々の時期に行うしかありませんでした。ただ、生育条件はきちんとしていて、温度など外界の干渉を殆ど受けません。

作物を対象とした実験ではこんなふうに処理するのが良くある事だと思い込んでいました。

補足日時:2009/05/21 22:44
    • good
    • 0

自分の学生だったら一言、まともな設計しないで実験計画を組むからだ!


と一喝してしまうのですが・・・
まず、どんなデータをどのように処理しましたか?
比較した元データとサンプル数

CVを使ったのであれば、平均値が違うものの比較ですよね?

平均値が異なるもの同士の散らばりを比較するには標準偏差をそのまま用いたのでは
効果がない。標準偏差を算術平均値で割る必要がある。こうして求めた相対的散布度
を変動係数といい CV で示す。

生物統計学で気をつけさせているのは実験計画を組む段階で
・サンプリング数とサンプル方法は良く考える。
・実験前にデータが予測できないものは統計処理は出来ない。
(極論ですが・・・・)

苦言を言えば、「まともに統計が理解できなくてもパソコンが処理してしまうから
理解していなくても統計処理を使う学生が多い。」恩師の言葉でした。
    • good
    • 0
この回答へのお礼

>一喝してしまうのですが・・・
まさに一喝されてしまわれるものです。が、早速内容補足をさせていただきます。
      実験日 処理前 1週間後 2週間後 3週間後
  一回目 1月  10 10 10 8
A処理区
  二回目 2月 10 10 10 5
  合計 20 20   20 13

  一回目 4月  10 15   15 15
A処理区
  二回目 5月 10 15   13 13
  合計 20 30   28 28
表中の数字は分析した本数です。一本から一個のデータが取れます(比較する成分)。n=13-30
A区で、処理前と処理後の平均値a0,a1,a2,a3,(Mean±SE、n=13-20)をTukeyの多重比較を行いました。作物は切り取って分析するので、対応ないと見なした。
B区で、b0,b1,b2,b3(Mean±SE、n=20-30)を多重比較しました。
両区の間はa1とb1をa2とb2をそれぞれ(一元配置分散分析を行い分散が等しいかどうか判断してから)t検定を行いました。
実は、CVだけではなく、この検定方法も問題ないかと不安です。

お礼日時:2009/05/21 12:16

処理方法について何も語られていないところをみると線形分布として処理されているのだと思いますが、


どういったデータとの相関を取られていますか?
相関を取るデータは別のものの方が良い、理屈で考えて指数関数の方が良い、なんてことはありませんか?

当方統計学は10年以上前に単位取りのために学んだだけですので
これ以上の回答は出来ませんが・・・。

ちなみに農業の経験(実家が農家です)から言わせていただくと、
田畑の端か真ん中か、だけでも害虫・害鳥の被害が違うので
一株単位で比較するのは意味無いんじゃないか、と思います。
    • good
    • 0

作物ならばバラつきがでるのが当たり前です



同じ作物1つ1つ微妙に遺伝子が違うので良く効くのもあれば効かないのもあります

そのまま処理しても問題無いです


毎回数本を任意に選択
単にサンプル数の不足によるバラつきです

個体サンプル本数が少ないだけの話です


これが数百本あれはほぼ正確な傾向はでますが

この前段階のサンプル研究ですから大まかな傾向が判れば良いのです

傾向から本格的に研究する必要性があるのか無いのかが重要なことです

これを判断するですね
    • good
    • 0
この回答へのお礼

再びご回答ありがとうございます。

急いで読ませていただきました。
とりあえずほっとしています(ちょっとだけだけど)。

すべての実験を0からやり直すしかないとなると、正直、いろんな意味で無理です。

もう一つ良かったら教えてください。

>単にサンプル数の不足によるバラつきです

きちんとした研究者でしたら、(学術誌に投稿するレベル)このサンプル数をどれぐらいにしなきゃいけない等のラインとかあるでしょうか。

また、極端に外れた値はやはり検定をした上で外すかどうかを判断し、データを処理し直すべきだと思われますでしょうか。

よろしく御願いします。

お礼日時:2009/05/20 12:18

統計処理以前の問題です



バラつき大きい原因は

ミスがどこかにあるからです

・補正処理のしわすれ
・測定環境が毎回変わる
・使う測定器の誤差が大きい物を使用している
・使う測定器が毎回違う
・測定器が壊れている(校正がされてない)
・測定器の取り扱いミス
・人為的なミス
  測定レンジを間違えて読む
  記載ミス
  
・正しい測定方法をしてない
・サンプル事態の取出しが不適切
・ノイズの測定など誤測定
など沢山あります


とんでもないデータが数%ならばこれは測定ミスをして処理するしか無いですね


他には
温度補正を掛ける必要があるのに抜けている
などもありますね

回答願います

何を測定したんですか

どんなふうに

データ分布はどうなってます


以上即答宜しくです
    • good
    • 0
この回答へのお礼

早速のご回答ありがとうございます。

特に機械を使ってのデータではなく、化学分析して得られたデーターです。
インキュベートに育てた作物に、AとBの二種類の処理を行い、作物のTTという成分変動に及ぼす影響の違いを見ました。
栽培は数回行い、毎回数本を任意に選択し、処理を行いました。栽培環境はきちんとしていたとおみます。当初からデータのバラツキに気になっていたが、作物だし、処理も違うし、特にどうかしようとしませんでした。

たった今統計の本を読んで、著しく小さかったり大きかったりしたデータは標本から外せる?とかいてあります。
とにかく混乱しています。

お礼日時:2009/05/20 11:35

結果を決め込んでのデータ取りでしたか…


得てしてそんな結果が待っているもんです

データをそのまま受け入れることをお奨めします
変動係数が大きいのであれば、そのデータを取得した時間/日時を含めて、その前後で起きている事象を考察すればOK
「本来、こうならなければいけない」と分かっているならば、意図しないデータが取得されたことを喜ぶべきです
とても貴重なデータですよ
    • good
    • 0
この回答へのお礼

早速のご回答ありがとうございます。

たしかに或る程度は予測した結果通りのデータだったんです。
ただ、バラツキは大きかったのは気にはなっていたが、統計的な処理がきちんと行われていなかったため、そのまま結論を出してしまいまい、主張してしまっています。

今になり、もうどうしようもない悔しい気持ちです。はやく勉強していれば......

お礼日時:2009/05/20 11:40

ある個所だけであれば、測定方法の間違い。


特定個所以降であれば、上記に加えて、何らかの環境変化(農学だから)があった。
但し、後者の場合にはそれを立証する必要がある。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q標準偏差について詳しい方お願いします

お世話になります。
標準偏差は平均からのばらつき・・とききますが、「標準偏差が大きい」「小さい」という、その目安がわかりません。

たとえば、50人の集団で平均年齢30歳、標準偏差1.2だったらどうでしょうか?

また、平均年齢が同じぐらいでも、標準偏差が1.0と10.0と違う2つの集団についていろんなデータを比べると、何か問題がありますか?

どちらかでもいいので、わかるかたがいましたらおねがいいたします。

Aベストアンサー

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率では10~50歳になります)ということです。

逆に、例えばテストの点などを考えますと、同じ60点でも平均65点、
標準偏差5、の場合と平均70点、標準偏差10の場合では、どれだけ
違うか直接には比較出来ません。これらを「平均50、標準偏差10」
に換算して比較するのが「偏差値」の考え方です。
(上記の場合、どちらも同じ偏差値40になります)

ということで標準偏差は、ばらつきの度合いを平均値と同時にチェック
する時に使う値です。標準偏差の違う集団を直接に比較するかどうかは
その母集団の性質によって違いますよ。

参考URL:http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率...続きを読む

Qバラツキを考慮して平均を補正したい

会社でちょっとした統計処理をしていて、
バラツキを考慮して平均を補正するという作業をしたいのでが、、、
なかなかうまくいきませなん。

例1) a1=2, a2=2, a3=2
例2) b1=-1, b2=0, b3=7

例1)a1~a3の平均と、例2)b1~b3の平均はどちらも"2"です。
しかし、例2)はb3だけが突出していて印象的には"2"よりも若干低めの、0~1ぐらいに補正したいのです。
しかし、補正をするための数学的根拠が見つけられないのです(そもそも無いのか?)。

私のつたない知識ですと、バラツキを現す手法としては標準偏差が思い当たりますが、
例1)の標準偏差=0
例2)の標準偏差=3.56
なので、これを利用して何とかならないか、、、などなど考えています。
平均値をバラツキを考慮して補正する、数学的根拠のある方法は存在するのでしょうか。

Aベストアンサー

#3です.

まず.「補正」という考え方は捨てた方がいいと思います.
この種のデータの扱いにはいろいろあります.

1.例2の「7」を捨てる
 質問にも書かれているように,データの出所から考えて「7」はおかしいのだというのであれば,これを捨てます.残ったデータは,「-1と0」ですから,平均をとれば「-0.5」になりますね.
この場合は,「7」を捨てる理由が必要です.
1)異常値として扱う
測定ミス,記入ミスなどは,「異常値」と呼びます.
本来は,原因を追究して値を書き直さなければなりません.例えば,7ではなく,0.7だったとかいうことです.
異常値の場合には,3個のデータのうちの最大値だけを捨ててしまうのは,誤ったやり方です.
2)外れ値として扱う
これは,異なる母集団が混ざってしまった場合です.
例えば,「1と0は20代の人の答え」「7は50代の人の答え」であって,明らかに集団が違う場合には,2個のデータと1個のデータに分けてしまって構いません.
ですから,-1と0の平均をとって,答え「-0.5」として構いません.

2.本当に補正(というかどうか?)できないのか?
実はできないことはありません.
ただし,事前に分布が分かっていることが必要です.
世の中には「二段階推定法」などというのもありますが,「確率紙」を使ってみるのも手でしょう(どちらも分布の仮定が必要です).
いま,データが3個ありますから,それぞれのデータが全体の何パーセントの位置なのかを計算します.
-1は3個の中の1番目ですから,1/(3+1)=0.25,
0は3個の中の2番目ですから,2/(3+1)=0.5
7は使いません.
この2点を確率紙に打点し,確率紙に書いてある通りに線を引くと平均などが求まります.

3.その他の注意
3個のデータで平均をとってもあまり意味ありませんね.
10個あるのなら,最小値,最大値を捨てて,8個で計算してもいいのではないかと思います.

#3です.

まず.「補正」という考え方は捨てた方がいいと思います.
この種のデータの扱いにはいろいろあります.

1.例2の「7」を捨てる
 質問にも書かれているように,データの出所から考えて「7」はおかしいのだというのであれば,これを捨てます.残ったデータは,「-1と0」ですから,平均をとれば「-0.5」になりますね.
この場合は,「7」を捨てる理由が必要です.
1)異常値として扱う
測定ミス,記入ミスなどは,「異常値」と呼びます.
本来は,原因を追究して値を書き直さなけ...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。


人気Q&Aランキング

おすすめ情報