百分率の統計解析について

Question

百分率の値を従属変数として平均値，標準偏差を
比較し，統計解析しようと考えています．
そのままの値を用いて解析を行ってよいのでしょうか？
あるいは何かに換算する必要があるのでしょうか？

よろしくご教授ください．

ex)
グループ１：12%, 13%, 14%, 15%, 16%, 17%
グループ２：34%, 35%, 36%, 37%, 38%, 39%
の２群に有意差はあるのか？
といった場合を想定しています．

dunnett · Accepted Answer

パーセント値はすべてその精度は等しくないため角変換(Angle transformation)をして正規分布しているような数値に変換します．その後この場合はt-検定で解析します．t-検定は三種類ありますがAspin-Wilchを推奨します．その他の手法では分布を利用しないノンパラメトリック検定（順位和検定）のWilcoxonまたはMann-WhitneyのU検定です．この両者の検出力は同一です．この場合は平均値の検定でなく順位の検定であることに留意してください．

sanori · Answer

＞＞＞＞＞
実は，標準化するためにパーセンテージ化しているので，パーセントを出すいわゆる分母がみんな違った状態です．
だとするともしかすると何らかの演算か重み付けが必要になるのかもしれませんね．




あら、あら、そうですか。
それは悪いニュースです。（笑）


重み付けのやり方を、ただ今、考え中です。
すみませんが、忘れそうなので、まだ途中ですけど投稿しておきます。


１グループのデータの個々が、異なる分母の分数で表されるとします。
計算得意じゃないので、データの数を３個とさせてください。
なお、εは誤差を表す文字です。

３つのデータ：
a1/b1 ±ε1
a2/b2 ±ε2
a3/b3 ±ε3

総平均は、
(a1+a2+a3)/(b1+b2+b3) ±εT

分母b1,b2,b3が分子a1,a2,a3に比べて非常に正確であると仮定する。
（たぶんそうですよね？）

a1の誤差をα1と書けば
(a1±α1)/b1　＝　a1/b1 ±ε1
であるので、
α1＝b1・ε1
同様に
α2＝b2・ε2
α3＝b3・ε3

ここで、分子の合計a1+a2+a3を考える
合計a1+a2+a3　の誤差は、どうなるか？

誤差論では、誤差のあるもの同士を足し算したときの誤差（誤差の伝播という）は、各々の誤差を２乗したものの合計の平方根を取ったものである。
すなわち、a1+a2+a3　の誤差（α）は

α＝√（α1^2+α2^2+α3^2）

したがって、分子の合計は、このように書くことができる。
a1+a2+a3　±α
　＝a1+a2+a3　±√（α1^2+α2^2+α3^2）

さらに、総平均は
(a1+a2+a3)/(b1+b2+b3) ±εT
　＝（a1+a2+a3±√（α1^2+α2^2+α3^2））／(b1+b2+b3)
であるから、誤差のところだけ書けば、
εT　＝　√（α1^2+α2^2+α3^2））／(b1+b2+b3)

ところが、
α1＝b1・ε1、α2＝b2・ε2、α3＝b3・ε3
なので、

εT　＝　√（(b1・ε1)^2+(b2・ε2)^2+(b3・ε3)^2））／(b1+b2+b3)

これで、グループ総合の誤差が表現できました。

さらに「データ数ｎ個」に一般化して書けば
グループ総合の誤差は

εT　＝　｛√（Σ(bn・εn)^2)｝÷ Σbn


・・・と、
いまのところ、ここまでです。
たぶん、このあと、分子のほうのΣの中身を、規格化か何かすればいいような気がします。

引き続き考えますけど、行き詰まったりして（笑）

sanori · Answer

いわゆる「有意差」の検定になります。


ちょっと気になるのですが、
ご質問文にある１２個のデータが全て、例えば
・１００点満点で設問数１００、配点各１点のテスト
・１リットル中の、なんちゃらの濃度
というように、１個１個が互いに「対等」であると仮定すれば、有意差の検定もマニュアルどおりにやればよいのですが、
１個１個が「対等」で無い場合、例えば
・テストの場合、設問数が一定でなく、１問で百点のもあれば１００問で百点満点である場合
・テストの成績で、１グループ６データのうち、５つは同一の受験者Ａで、残り１つだけが受験者Ｂである場合
・水溶液サンプリングで、採取量が一定でなく、桁違いに少なかったり多かったりする場合

このような場合、有意差の検定をどうやるかは、私は分かりません。たぶん何かしらの重み付けとか複雑な計算が必要になると思います。



さて、データ１個１個が「対等」として、以下、進めます。


ちょっとＷｅｂ検索してみましたが、
ここがわかりやすいです。
http://www.shibayagi.co.jp/ia/yuisa.htm

あとは、言葉や考え方の解説にとどめます。

「標準誤差」とか「標準偏差」とかの用語が出てきますが、文章や式を良く見るとわかるように、殆ど計算は同じで、分母がＮであるかＮ－１であるかの違いだけです。

あと、「自由度」という言葉が出てきます。
上述した「Ｎ－１」も、それに関係します。
（上記リンクでの文章で「Ｎ１＋Ｎ２－２」というのがありますが、それはＮ１群の自由度Ｎ１－１とＮ２群の自由度Ｎ２－１との和です）
自由度については、だいぶ前に私がここ（教えてｇｏｏ）で回答したことがあります。わかりやすく書いてありますから。
下記です。
http://oshiete1.goo.ne.jp/kotaeru.php3?q=975496



ｔ分布の考え方による有意差の検定は、一から計算でやろうとすると、とても大変なので、通常は（というか必ず）「ｔ表」（ｔ分布の表）と呼ばれる数値表を使います。
ｔ表は、統計学関係の本・ＱＣ工学の本・それ関係の教科書とかの付録や本文中に載っています。危険率（有意差の判断が間違っている確率）については、たしか、危険率１％のとか５％とか、色んな表があったと思うので、お好きなものを選べば良いでしょう。

私はよく知りませんが、もしかしたら表計算ソフトでもできるかも。

Mathematica · Answer

＞百分率の値を従属変数として平均値，標準偏差を比較し，統計解析しようと考えています．

百分率の値が従属変数？
平均値、標準偏差を独立変数とする？
独立変数と従属変数の意味は理解しているのかな？
比率12%　12/100
    34%  340/1000
では、比率の出し方としては同じだが、Nの数が異なるので、直接比較は出来ないのだが。χ2検定でも有意差は分かるが・・・
補足を願います。

百分率の統計解析について

パーセント値はすべてその精度は等しくないため角変換(Angle transformation)をして正規分布しているような数値に変

＞＞＞＞＞

いわゆる「有意差」の検定になります。

＞百分率の値を従属変数として平均値，標準偏差を比較し，統計解析しようと考えています．

この回答への補足

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング