私は一種の臨床系の仕事をしているのですが、ある試験の
データから「標準偏差」「変動係数」「Zスコア」を算出
することになりました。しかし、それぞれの計算式は知っ
ているのですが、それらの意味がまったくわからないため
膨大なデータのどの数値を使って計算を行えばよいのか、
算出された値をどう評価すればいいかがわかりません。
私自身は高卒の、それも数(1)も終了していない学力なので
す。どなたか「中学生でもわかる統計学」を私に教授して
いただけないでしょうか?

このQ&Aに関連する最新のQ&A

A 回答 (5件)

統計学の書物を読んでも、専門用語や独特の言い回しが多く、非常に理解しにくいものですよネ。


標準偏差というのは、データのグループ全体でのバラツキを示すものと考えればよいでしょうネ。標準偏差が大きいほど、データのバラツキが大きいということです。標準偏差の3倍を平均値に加えたものと、平均値から引いたものの範囲に通常97%のデータが入ると考えます。これは、実際に得られたデータは、例えば、15,18,20,23,28といった数値であったとき、これは個々の点としての数値ではなく、15~28の範囲に分布している数値グループであると考えるからなのです。血液検査の正常値などはこの数値幅ですネ。
変動係数は標準偏差が平均値の何%を占めるかということで、客観的に標準偏差の大きさを示すものです。動物実験や臨床試験では、標準偏差の値が平均値よりも大きくなり、変動係数が100%を超えることも珍しくありません。とんでもなく大きな数値が出ても、驚かないで、過去の同様のデータを参照されるのがよいでしょうネ。
Zスコアはデータと平均値の差の間に標準偏差値がいくつ入るかというものですネ。標準偏差や変動係数は得られたデータグループ全体の傾向を見るものですが、それに対して、このZスコアは個々のデータがグループ内で、どのような位置付けになるかを知ることができるものです。偏差値や知能指数はこのZスコアの応用ですネ。
ご理解いただけましたでしょうか?
以上kawakawaでした

この回答への補足

ご返答ありがとうございました。
おかげさまで「なんとなく・・・」分かったような気がします。この連休中にちょっと数字と格闘してみることにします。今までは手も足も出なかったものですから。
Zスコアについてなのですが、手元の資料に「2以下であれば合格」という記述があるのですが、これはたとえば
「-3」でも合格なのでしょうか?それとも絶対値で「-2~+2の範囲」を合格とするのでしょうか?
すみません、良く分からない質問で。
ご意見を聞かせていただけるとうれしいです。

補足日時:2001/01/06 16:51
    • good
    • 0

 統計処理は手段に過ぎません。

何を知りたいのか、何を証明したいのか、その仮説を明確にすることが最も重要です。初めは漠然とした仮説しか出来ませんが、データをいろいろな条件別に分類してヒストグラムでプロットしてみたり、二つのスコア(湿度と収量のような)を散布図にしてみたりして、何か「単なるランダム変動ではない法則性のようなもの」を探す作業が必要です。何らかの目的があってデータを取ったのでしょうから、狙いも必然的に絞られる筈です。こうして、考えを洗練して幾つか明確な仮説を作ります。(「項目Aと項目Bは無関係である」「項目Aと項目Cは比例関係A = a B + b である」というような仮説ですね。)
 仮説が出来たら、これを検定する。単なる偶然なのか、本当に関係があるのかを統計的に判定する訳です。なお医療分野ではごく少ないデータから尤もらしいことを述べる必要が生じるので、色々な難しい統計理論を適用することが多いのですが、あんまり感心しません。むしろ比較的簡単な理論をきちんと適用することが重要です。具体的処理方法については、再度質問されたら良いでしょう。
 さて、解析の結果を念頭に置いて再びグラフなどを描いてみると、新しい仮説に思い至ったり、場合によってはデータを取る項目やデータの取り方を変更する必要が生じることもあります。例えば、A = a B + b という仮説の係数a,bが分かったとすると、(a B + b - A)をプロットしてみることで、より精密な仮説が出てくるかも知れません。それを検証するには、データをもっと定期的に取らなくちゃ、ということも起こる。
 ともかく、まずはデータをExcelか何かできちんと整理し、記録することですね。手入力は間違えやすいので、二人で読み合わせを行います。また一見どうでも良いような付帯データでも、貴重な情報を含む場合があるので、できるだけコード化して入力しておくことがお勧めです。(これはkawakawa教授が既に仰ってますね。)
    • good
    • 0
この回答へのお礼

再々ありがとうございます。
なるほど、仮説や目的が明確でないと意味がないわけですね(当たり前でしょうが)。
おかげ様で、「標準偏差」等が何を意味するのか、どう利用できるかが漠然とはしていますが、分かったような気がします。目的を正確に把握して統計学を利用できるよう、がんばります。
おかげ様でなんとか報告書が作成できそうです。
本当にありがとうございました。
また、どうにもならない時はよろしくお願いします。

お礼日時:2001/01/07 00:16

再登場です。

補足を拝見しました。
Zスコアは正の数であれば、データの方が平均値より上にあるということで、負の数であれば、データは平均値に満たないということですよネ。
ということは、個々のデータが理論値に近い場所でまとまっていることを期待する実験などの場合、絶対値で捉えられるのがよいということになります。ただし、評価自体は正か負かを念頭に考えなければ、そのデータのグループ内での位置付けがわからなくなりますから記録はきちんと残しましょうネ。
補足も拝見しました。
方法としては、製造日毎、或いはロット毎、バッチ毎の生産量をグラフにプロットしていきます。そしてそのグラフには理論収量を中心に標準偏差の3倍幅の上下の幅を持たせた範囲を示します。そして、全データがその範囲内に入っていれば、とりあえず統計的には現在の生産方法で97%の精度を保っていることが確認できます。
また、機械毎、作業員毎、曜日毎、天候毎などの様々なグループ分けをして、それぞれについて同じように処理します。そうすると、条件による変動という重要なデータを得ることができるようになります。本来はここから『検定』を行っていくのですが、まずは、この段階をこなすことでしょうネ。
今はエクセルを使えば、簡単に処理できますので、データ入力と、それに附随する項目の設定に全てがかかっています。
たくさんの生データは本当は宝の山なんですヨ。様々な処理を施して、解析を命じた上司を驚かせてください。
頑張ってくださいネ。
以上kawakawaでした
    • good
    • 0
この回答へのお礼

再々ありがとうございます。
具体的に説明していただけたおかげでなんとか行動を起こす(計算する)段階まで、たどり着けそうです。
会社である以上、時間に余裕があるわけではないですが、自分なりに精一杯努力して、報告書を提出して、出来れば来年以降の叩き台を作成できればと思います。
また、壁に突き当たった時にはアドバイスいただけると感謝感激!です。
本当に助かりました。ありがとうございました。

お礼日時:2001/01/07 00:01

kawakawa教授の丁寧な回答がありますので、体験談(??)を少し・・・。


小生も学校卒業してから初めて統計処理を学び、大変苦労しました(笑)??でも、繰り返し実際問題に当たって周囲の先輩に教えを請っていかれることしかないと思います。焦らずに1歩ずつ学ばれる事をお勧めします。

初歩的な統計の本は勉強されている事と思いますが、他の質問でも紹介したのですが、必要であれば補足お願いします。
    • good
    • 0
この回答へのお礼

ご返答ありがとうございました。
お恥ずかしい話、我が職場でこのようなデータ処理をするのは初めての試みでして、何をするにしても手探りの状態です。
でも、ご指摘のように焦らず学習してひとつひとつこなしていこうと思います。
本については、検索をかけた際に参考にさせて頂きました。また、つまずいた時にはよろしくお願いします。
ありがとうございました。

お礼日時:2001/01/06 16:34

> それぞれの計算式は知っているのですが、


> 膨大なデータのどの数値を使って計算を行えばよいのか
「どの数値」というところに引っかかりました。どうやら単にデータが渡されただけ、というのではないご様子ですね。計算式が分かっていながら計算が出来ない理由は、そこにあるのでは?
もう少し具体的な状況を補足なさってはいかがでしょうか。

この回答への補足

ご返答ありがとうございました。
お言葉に甘えて補足させていただきます。
例え話なのですが、Aの機械に1キロの原料を入れた場合、製造される製品は800グラムであると理論上はわかっているのですが、実際の製造工程において、毎回800グラム製造されるわけではなく、750であったり、830であったり・・・です。このようなデータを何百と渡され、単純な回収率でなく統計として処理する、というのが現在の状況です。
こんなにたくさんの数字に囲まれるのは初めてですよ。
関数電卓さえ持ってない人間なのに(笑)。

補足日時:2001/01/06 16:35
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q統計の変動係数について

あるn個のデータがあります。その標準偏差s(a)と、変動係数CV(a)を求めます。
次に、n個のデータすべてに10を足し、足された後のデータの標準偏差s(b)と、
変動係数CV(b)を求めたとします。

この場合、標準偏差の値は、s(a)=s(b)となりますよね。
でも、変動係数はCV(a)>CV(b)となると思います。

「変動係数は平均値などが異なっている場合に、ばらつきを比べられるようにしたもの」
という参考書の説明でした。
でも、上の条件でのばらつきは”感覚的に”同じだと思えてしまうのですが、係数としては差が出ます。

どのように考えれば良いのでしょうか。

Aベストアンサー

「標準偏差」は絶対的なもので、グラフを平行移動しても変わりません。グラフの形は変わりません。
 従って、「10cm分右にずれただけという物」の「標準偏差」としてのばらつきは変わりません。平均値が右にずれた分、相対値としての「変動係数」は変わります。No.2の例に示したように。

 「変動係数」は相対的なもので、これを比較のために動かすのは、グラフの移動ではなく、左右方向の縮尺を変えることに相当します。平均値の位置を右に10cmずらすと、全体が右方向に延びます。平均値の位置を左方向にずらせば、全体が左方向に縮まります。そんなイメージでしょう。

 いずれにせよ、「標準偏差」と「変動係数」は別なものです。一方は一定でも他方が変わり、同じように変化するということはありません。
 No.2の例のように、「標準偏差」が一定でも平均値によって相対誤差は変化しますし、相対誤差(%で表わした精度)が一定なら、平均値によって「標準偏差」の絶対値は変化します。

Q分数の計算が出来ないのです。やり方を教えていただけないでしょうか?

分数の計算が出来ないのです。やり方を教えていただけないでしょうか?

Aベストアンサー

あってますよ。
x-550=-0.1(x+550)
10を掛けて小数を無くしましょう。計算しやすくするポイントです。
10(x-550)=-(x+550)
10x-5500=-x-550
11x=4950
x=450
となります。

Q変動係数(SD/平均)を有意差検定してよいか?

統計の初心者です。
例えば、次のような場合

減塩指導後の平均血圧の変化
(減塩指導で平均血圧が下がるだけでなく、血圧の変動も
小さくなったといいたいのですが)


(指導前と指導後で7日連続、朝の血圧を測定)
指導前7日間のデータ(mean±SD)、指導後7日間のデータ
から変動係数を算出

被験者A 変動係数 6%(指導前の7日間:平均血圧(mmHg)のSD/mean)
→4%(指導後の7日間)、
被験者B 変動係数 8%→6%
被験者C、D、E、、、

指導前の変動係数(A, B, C, D, E, F/ 6%, 8%, ,,,)→指導後 (4%, 6%,,,,)

指導前と指導後の変動係数をpaired-Tで有意差検定するのは
認められるでしょうか。

統計に詳しい方、ご教示をお願いします。

Aベストアンサー

No.1&2です。

「変動」であっても、それが「同じ計測量を複数回計測したときのバラツキ(ランダム誤差)」なのか、血圧の「最大値、最小値の幅」とか「血圧の24時間の変動範囲」というようなそれ自体に「意味のある値」なのかによって、取り扱いが変わるでしょう、というのがNo.1&2の趣旨です。

 No.2に書かれた「大の幅(一番高い日と低い日の差)で評価する方法」というのも、「一番高い日と低い日の差」という量が、その裏にあるメカニズム・要因を的確に表すパラメータであれば、その変化を評価する意味はあると思います。
 ただ、そこに示された例では、
  患者A (10mmHg (指導前の7日間では最大の日100mmHg、最低の日 90mmHg)
  →指導後8mmHg (最大の日98mmHg, 最低の日 90mmHg)
は、そもそもの計測値が
  指導前の7日間では最大の日 100mmHg ± 10mmHg
           最低の日 90mmHg ± 9mmHg
  指導後の最大の日98mmHg ± 9.8mmHg
      最低の日 90mmHg ± 9mmHg
という誤差を持っているのであれば、指導前後に「差がある」とは言えないでしょう。「誤差範囲内」ですから。

 これが、例えば「変動幅」というパラメータに着目して、
  指導前の変動幅:10mmHg ± 1mmHg
  指導後の変動幅:8mmHg ± 0.8mmHg
というように言えれば、「1σ程度の差はある」「ある程度の差はある」といえるでしょう。(一般に、検定で「信頼度95%で有意差あり」と判定するには、1.96σ以上の差が必要ですが)

No.1&2です。

「変動」であっても、それが「同じ計測量を複数回計測したときのバラツキ(ランダム誤差)」なのか、血圧の「最大値、最小値の幅」とか「血圧の24時間の変動範囲」というようなそれ自体に「意味のある値」なのかによって、取り扱いが変わるでしょう、というのがNo.1&2の趣旨です。

 No.2に書かれた「大の幅(一番高い日と低い日の差)で評価する方法」というのも、「一番高い日と低い日の差」という量が、その裏にあるメカニズム・要因を的確に表すパラメータであれば、その変化を評価する意味は...続きを読む

Q円安、円高、ドル安、ドル高の意味を小学生でもわかるように教えていただけませんか。

円安、円高、ドル安、ドル高の意味を小学生でもわかるように教えていただけませんか。

Aベストアンサー

円とドルの交換レートの話ですから、

「円が高い」=「ドルが安い」
「円が安い」=「ドルが高い」

ということです。

ビッグマックを食べるときに
「ビッグマックが 100円」=「ビッグマックが安い」←→「100円=ビッグマックが1個買える」=「円が高い」
「ビッグマックが 500円」=「ビッグマックが高い」←→「500円=ビッグマックが1個しか買えない」=「円が安い」
というのと同じです。

Q変動係数は正規分布を前提?

変動係数の式にはSDが出てくることから、やはりその適用には正規分布を前提としているのでしょうか?

仮にそうだとしたら、正規分布以外の分布形の場合、変動係数に類似した指標はあるのでしょうか?

どなたか教えてください。

Aベストアンサー

#1です。

> 不適当であると書かれています。

それは使い方によります。例えば非対称な分布で平均±SDのような書き方をしてもたいして意味を成さないのは明らかですし、先の回答にも書きましたが正規分布に従っているとは言えないような分布で平均±SDの範囲に約68%のデータが存在するような意味で用いれば、それは明らかに誤りです。要は正規分布を仮定した場合に成り立つことを仮定できない場合に適用するのが不適当なのです。

また、裾の重い分布で極端に大きいまたは小さい値が出やすい場合には、平均値やSDは中央値や四分位偏差に比べてその影響を受けやすくなりますがが、それが正常なデータ(つまり測定ミスとか記録ミス、他のデータと異質である等の理由で外れ値とはみなせない)である限り平均が位置の指標、SDがばらつきの指標としての意味を持つことに変わりはありません。データの数値が大きいところと小さいところで単純にそのばらつきの大きさだけを比較してよいのか?というところから出てきている変動係数も同様です。

誤解の無いように補足しておくと、これはどんな場合でも平均とSD(あるいは変動係数)だけを参照すれば済むと申している訳ではありません。必要に応じて中央値など他の指標も参照する必要はありますし、これらは何れか一つという択一的なものではなく、互いに不足している情報を補う関係のものであるとご理解ください。正規分布を仮定できないからといって平均とSD(あるいは変動係数)が使えなくなる訳ではないということです。

#1です。

> 不適当であると書かれています。

それは使い方によります。例えば非対称な分布で平均±SDのような書き方をしてもたいして意味を成さないのは明らかですし、先の回答にも書きましたが正規分布に従っているとは言えないような分布で平均±SDの範囲に約68%のデータが存在するような意味で用いれば、それは明らかに誤りです。要は正規分布を仮定した場合に成り立つことを仮定できない場合に適用するのが不適当なのです。

また、裾の重い分布で極端に大きいまたは小さい値が出やすい場合には、平均値...続きを読む

Q高校1年の数学の問題です。 写真の(1)の問題がわかりません すみません、教えていただけますか?

高校1年の数学の問題です。
写真の(1)の問題がわかりません
すみません、教えていただけますか?

Aベストアンサー

(1,5)、(2,10)を元の式y=ax²+bx+4 へ代入すると式が2個できる
・5=a+b+4 ⇒ a+b=1
・10=4a+2b+4 ⇒ 2a+b=3
これを連立させてa,bを求めるとa=2,b=-1

元の式はy=2x²-x+4

Q回収率と変動係数について

ご拝読ありがとうございます。
統計に関する質問です。

ある物質の回収実験で、一方の実験系では回収率が56%で変動係数は13%となり、もう一方は回収率が62%で変動係数が18%となりました。
どちらの実験系が適当であると考えられますでしょうか。理由とともに教えていただけると幸いです。
よろしくお願いいたします。

Aベストアンサー

変動係数が回収した分の統計値とするならば、
一般的には後者の方が信頼性が高いと言えます。
理由は、後者の方がサンプル数が多い(と見られる)から、です。

Q数3の微分の問題です、どうしてもわかりません。どなたか教えていただけないでしょうか。お願いします。

数3の微分の問題です、どうしてもわかりません。どなたか教えていただけないでしょうか。お願いします。

Aベストアンサー

答えは前のかたが書いた通り、
e^(1/e)
です。私なりの解き方ですが、

a^xも、xも、xが増加すると増加する単調増加で、x=0では、a^x>xですね。だから、
y=a^x…(1)
y=x…(2)
(1)と(2)のグラフが交点を持つと、a^x≧xを満たさなくなります。交点がなければ、a^x≧xを満たします。ギリギリなのは、接するときです。
接するということは、(1)=(2)かつ、(1)の微分係数と(2)の微分係数が等しくなるとき。
(1)の両辺をxで微分するのは対数微分を使ってできます。
(1)より、log(y)=xlog(a)↔y'/y=log(a)↔y'=a^(x)×log(a)
よって、
a^x=x…(3)
a^xlog(a)=1…(4)
(3)と(4)の連立方程式を解けば、出てきます。

Q統計。変動係数とは何ですか?

変動係数が、標準偏差を算術平均で割ったものであるということはわかりましたが、なぜ変動係数を出すことで、ばらつきの相対的な比較が可能になるのか、いまいちピンときません。
単位の異なる標準偏差の値を比較することがナンセンスなのはわかりますが、それらを算術平均で割ったら比較可能になる理由を、わかりやすく教えていただけませんでしょうか。

Aベストアンサー

東京と八丈島で、どちらが老人が多いか、という問いで、

 単純に老人の数を数えれば、東京が多い。すなちわ、イメージと離れている。
 実感に近づけるには、老人の人口を地域の人口で割った老人人口割合で比較すれば、八丈島が高い。
 老人人口が標準偏差、人口が平均値、老人人口割合が変動係数、に相当します。

Q相関係数の計算

指数関数

 y = B * e^ax  式(*)

で近似できるデータがあります。
その近似がどのくらい正しいかを調べたいのですが
曲線の相関係数というのが分かりません。そのために
上式の対数を取って直線関係にしました。
相関係数をエクセルで計算できるからです。

ln(y) = ax + ln(B)

この場合の相関係数は、式(*) の相関係数として使えるので
しょうか? 適当な方法があるのだと思いますが
ご存じの方がいらっしゃいましたら教えてください。

Aベストアンサー

私は統計については素人なので直接答えることはできませんが、参考URLのサイトの「統計学関連…何でも掲示板」に質問してみてはいかがでしょうか?統計のプロがかなりいらっしゃるようです。私もちょくちょくお世話になっています。

参考URL:http://aoki2.si.gunma-u.ac.jp/


人気Q&Aランキング