困っています。標準誤差（エラーバー）について教えてください。

締切済

質問者：midori2009
質問日時：2009/01/12 23:28
回答数：4件

統計グラフについての質問させてください。
　変化率の経時的グラフを作っています。ｘ軸に時間、ｙ軸に治療に
よって改善した二つのファクター（症状と検査値）をプロットして
います。
　具体的には、治療開始一日目、母集団の症状のスコアの平均が３→１に減ったとして変化率をスコアの変化÷ベースラインの値；
3-1/3=66.7%と計算しています。検査値も同じように変化率を求めます。
　この場合、グラフに標準誤差のエラーバーをつけることは可能ですか？どのような計算式で求めるのでしょうか？
　卑近な方法ですが、エクセルで標準誤差を自動的に表すことができたのですが、標準誤差の統計的な意味を考えると、変化率だけで、元データの実際値を使わずに求められるのがおかしい気がします。
統計初心者で、質問がわかりにくかったらすみません。どなたか教えていただけますか。これを考えてもう2週間以上経過し、答えがでません。よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

最新から表示
回答順に表示

No.4

回答者： sanori
回答日時：2009/01/22 00:33

＞＞＞

＞一般に、ある事象が「起こる／起こらない」の２通りであって、
＞データの合計値が整数である場合、
＞合計値の標準偏差は、おおむね　√合計値　とすることができます
と書かれていらっしゃいますが、
データの合計値が整数でない場合、たとえばある細胞の活性度合
でパーセンテージ表示や小数点表示されるもの（例、ナントカ細胞活性率が20%→30.4%へ変化）などでは、どうなるのでしょうか？
上記の考え方は適応できますか？

その場合は整数にできませんので、
標準偏差　＝　√合計値
の考え方は適用できません。
生データから標準偏差を求めることになります。

以下、蛇足。

「視聴率は１４．８％」という言い方がありますが、
この場合は、生データは整数なので、
視聴者数の標準偏差　＝　√視聴者数
となります。

実際の視聴率の集計方法は、ベールに包まれているらしいですが、
膨大な世帯数で集計しているわけではないので、
結構誤差があるらしいという話は聞いたことがあります。
小数点以下は誤差の範囲らしいので、０．５％の差とかで、どちらが多いというような議論をしても無意味らしいです。

- 0
- 件

通報する

この回答へのお礼

sanori様
貴重なお時間と労力を使って丁寧にご回答いただき、
本当にありがとうございました。

感謝申し上げます。

今後、ご推薦いただいた関連の本やホームページで
勉強していきたいと思います。

通報する

お礼日時：2009/01/22 01:07

No.3

回答者： sanori
回答日時：2009/01/21 19:28

＞＞＞

実はデータはご推測通り、
患者数と患者全員のスコアの合計しか入手できていないのです。
（レビュー論文のため）

ありゃ。そうでしたか。

＞＞＞
そこで、ご教授いただいた、概算の方法が大変ありがたかったのですが、どうしてそのように概算できるのか、しくみを教えて
いただきたいのです。いろいろ自分で調べてみたのですが、
概算法がどうしても見当たりません（泣）。

かえってご苦労をおかけしてしまったようです。
なんか、申し訳ないです。

最初の回答における
＞全員のスコアの合計が　３４５　→　１２３　（差は２２２）　であるとしますと、
＞標準偏差は、おおむね　√２２２　（　≒１５）　で近似できます。
の箇所がポイントになりますが、
これの大元の考え方は、「二項分布」です。（たぶん高校数学で習うと思います。）
http://ja.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85% …
右の表に書かれている通り、二項分布の分散の理論値は、
Ｖ　＝　ｎｐ（１－ｐ）
です。
ｎが患者数、ｐはスコアが（１個）減る確率、１－ｐは、減らない確立です。

ここで、
ｐが非常に小さいときは、
Ｖ　≒　ｎ・ｐ・１　＝　ｎｐ
となり、
ｐが非常に大きい（１に近い）ときは、
Ｖ　≒　ｎ・１・（１－ｐ）　＝　ｎ（１－ｐ）
となり、
また、ｐの値が１／２　の付近であれば、
Ｖ　≒　ｎ・ｐ・ｐ　＝　ｎｐ^2
となります。

よって、標準偏差（分散の平方根）は、
ｐが非常に小さいときは、
σ　≒　√（ｎｐ）
となり、
ｐが非常に大きい（１に近い）ときは、
σ　≒　√（ｎ（１－ｐ））
となり、
また、ｐの値が１／２　の付近であれば、
σ　≒　√（ｎｐ^2）
となります。

一方、スコアの変化の合計値は、当然ながら、ｎｐ　です。
なぜならば、ｐは、スコアが１個減る確率であるからです。

スコアの変化の合計値をＳと置けば、
ｐが非常に小さいときは、
σ　≒　√（ｎｐ）　＝　√Ｓ
となり、
ｐが非常に大きい（１に近い）ときは、
σ　≒　√（ｎ（１－ｐ））　＝　√（ｎ－ｐＳ）
となり、
また、ｐの値が１／２　の付近であれば、
σ　≒　√（ｎｐ^2）　＝　√（ｐＳ）
となります。

つまり、標準偏差σの見積もりは、大きく分けて３種類あることになります。
しかし、最初の回答では、Ｓの標準偏差は　√Ｓ　とだけ書きました。
それはなぜかと言えば、

√Ｓ、　√（ｎ－ｐＳ）、　√（ｐＳ）　の３種類のうち、
「もっとも厳しく考えた」（つまり、最もσを大きく考えた）ときのσが
√Ｓ　であるからです。

ですから、スコアの変化数の合計Ｓとエラーバーは、
Ｓ　±　√Ｓ
とすべきなのです。

一般に、ある事象が「起こる／起こらない」の２通りであって、
データの合計値が整数である場合、
合計値の標準偏差は、おおむね　√合計値　とすることができます。
今回のご質問のケースでは、１人の患者さんのスコアの変化が１とは限らず２である場合もあります。
しかし、２というスコア変化が１というスコア変化を２回起こしたという考え方をすれば、
結局、同じところに行き着きます。

ちなみに、
なぜ私がこの考え方を知っているかというと、
学生時代に放射能の測定の実験を経験しているからです。
ある時間の間に計測された放射線のカウントがＮ個であるとき、
測定した時間の長さが何であれ、Ｎの標準偏差は　√Ｎ　です。

このサイト
http://www.geocities.jp/ikuro_kotaro/koramu/576_ …
の「【２】ポアソン分布」の中の「［１］稀な現象のモデル分布」
の項もご参照ください。
「この実験で時間Ｔの間に起こる事象の平均回数に関する最良推定値は観察された回数νですが，その誤差は平方根をとって√νとなります．これを「計数実験についての平方根則」と呼びます．」
と書かれています。

ちなみに、ポアソン分布というのは、非常に多くのデータ数がある二項分布に相当します。

＞＞＞
また、この場合、エラーバーは標準誤差ではなく、
標準偏差の方が適当ですか？データの集団はあくまでサンプル集団
なので（世界中の患者さまを集めたわけではないので）、標準誤差を
使うべきかと単純に考えたのですが。

標準偏差の数字の後ろには、「人」という単位がついています。
しかし、グラフの縦軸は、「人」ではなく、「％」つまり割合です。
スコア変化の合計の標準偏差を患者数で割ったものを標準誤差と考えればよいです。
％表示なので、当然、１００を最後にかけることになりますが。

以上、ご参考になりましたら。

この回答への補足

大変わかりやすい御説明何度も誠にありがとうございます。
わたくしのようなど素人でも、何とか理解できました。

申し訳ないのですが、最後にひとつだけ質問させてください。

＞一般に、ある事象が「起こる／起こらない」の２通りであって、
＞データの合計値が整数である場合、
＞合計値の標準偏差は、おおむね　√合計値　とすることができます

と書かれていらっしゃいますが、
データの合計値が整数でない場合、たとえばある細胞の活性度合
でパーセンテージ表示や小数点表示されるもの（例、ナントカ細胞活性率が20%→30.4%へ変化）などでは、どうなるのでしょうか？

上記の考え方は適応できますか？
なにとぞよろしくお願いします。

補足日時：2009/01/21 23:33

通報する

- 0
- 件

通報する

No.2

回答者： sanori
回答日時：2009/01/20 19:44

お礼のお言葉をありがとうございました。

＞＞＞
SE=±SD/√n
SD=√1/nΣ(xi-xmean)二乗
ですよね。
そのあと、どのように考えれば上記の式になるのでしょうか？

前回回答では、
SD=√1/nΣ(xi-xmean)二乗
という式は使っていません。
「患者数」と「患者全員のスコアの合計」の２つだけがわかっている場合の簡易な概算方法を示したものです。

患者全員のスコアのデータがある場合は、

スコア変化の分散　＝　１／患者数　×　Σ（各患者のスコア変化　－　スコア平均）^2

スコア変化の標準偏差　＝　√スコア変化の分散
　＝　√（１／患者数）　×　√Σ（各患者のスコア変化　－　スコア平均）^2

（↑　ここで、√（１／ｎ）　が登場していることに注目してください。）

そして、
＞＞＞変化率をスコアの変化÷ベースラインの値；
＞＞＞3-1/3=66.7%と計算しています。
ということのようですので、
エラーバーを標準偏差の１倍相当にするならば、

エラーバーの片側長さ　＝　スコア変化の標準偏差　÷　ベースラインの値

とします。
パーセントにする場合は、１００をかけます。

＞＞＞また、自分で調べる場合の参考図書などだけでも結構です。

理論から入ると、頭でっかちになるだけで応用が利かない場合が多々ありますので、
実用についてわかりやすく書かれているものがよいと思います。
たとえば、工業のＱＣ（製品の品質管理）に関する本なんかはお勧めです。
工業の製造部門勤務者の多くは高卒ですから、そういった方々でもわかるように書かれているものが多いと思います。

以上、ご参考になりましたら。

この回答への補足

sanori様、今回も教えていただきまして、誠にありがとうございます。
再び補足質問で大変恐縮ですが、質問させてください。

実はデータはご推測通り、
患者数と患者全員のスコアの合計しか入手できていないのです。
（レビュー論文のため）

そこで、ご教授いただいた、概算の方法が大変ありがたかったのですが、どうしてそのように概算できるのか、しくみを教えて
いただきたいのです。いろいろ自分で調べてみたのですが、
概算法がどうしても見当たりません（泣）。

また、この場合、エラーバーは標準誤差ではなく、
標準偏差の方が適当ですか？データの集団はあくまでサンプル集団
なので（世界中の患者さまを集めたわけではないので）、標準誤差を
使うべきかと単純に考えたのですが。

何度もお答えいただき誠に感謝しております。
すみませんが、よろしくお願いいたします。

補足日時：2009/01/21 11:11

通報する

- 0
- 件

通報する

No.1

回答者： sanori
回答日時：2009/01/12 23:54

こんばんは。

スコアの平均　３→１　（差は２）という情報だけでは、エラーバーを立てることができません。
全員のスコアの合計が必要になります。

スコアの合計の平方根が、おおむね、標準偏差になります。
標準偏差を患者数で割れば、おおむね、標準誤差になります。

では、たとえば、
全員のスコアの合計が　３４５　→　１２３　（差は２２２）　であるとしますと、
標準偏差は、おおむね　√２２２　（　≒１５）　で近似できます。

エラーバーの長さを、±標準偏差にすると、
２２２　±　１５
となります。

あとは、変化前のスコアと総患者数で割ればよいだけです。

よって、

変化率　＝　全員の変化数の和　÷　変化前のスコアの和　÷　患者数

±エラーバーの長さ　＝　±√全員の変化数の和　÷　変化前のスコアの和　÷　患者数

となります。
（パーセントにする場合は、それぞれ１００をかけます。）

以上、ご参考になりましたら。

この回答への補足

sanori様
先日は貴重なご回答誠にありがとうございました。
時間が経過してから追加の質問で誠に恐縮なのですが、
satori様に教えていただいた式に、どうしてなるのか
意味がどうしてもわかりませんでした。
SE=±SD/√n
SD=√1/nΣ(xi-xmean)二乗
ですよね。
そのあと、どのように考えれば上記の式になるのでしょうか？
お手数ですが、ご教授いただけますと幸いです。また、自分で調べる場合の参考図書などだけでも結構です。
よろしくお願いします。

補足日時：2009/01/20 10:30

通報する