統計＿重みを計算で出すこと

Question

カテゴリーが４つ（たとえばＡＢＣＤ）あり、Ａの下位分類にa1 a2があるとします。ＢＣＤについてもそれぞれ下位分類がb1 b2、c1 c2、d1 d2のように２つずつあります。
データ総数が７５２９個で、各カテゴリーが次のように分布しているとき、重みを求めるにはどうすればいいのでしょうか。

カテゴリー １系列の実数  割合  重み
  Ａ      a1=121/168    72%    ?
  Ｂ      b1=3200/5459  59%    ?
  Ｃ      c1=653/1418   46%    ?
  Ｄ      d1=172/484    36%    ?

表がうまく表れませんが、「カテゴリー」の下にＡＢＣＤがあり、「１系列の実数」の下にa1=121/168などがあり、「割合」の下に72%などがあり、「重み」の下に？があります。そんな表です。
a1,b1,c1,d1のそれぞれの％が、72%、59%,46%,36%となりますが、その全体に対する重みを計算で出したいのですが、どうすればいいのでしょうか。
上には１系列だけ示しましたが、２系列は略してもわかると思ったからです。ちなみにa2の％は、100-72=28%となりますよね。
うまく説明ができませんが、質問の意味はわかっていただけたでしょうか。よろしくお願いします。

oshiete_goo · Accepted Answer

＃２の補足ありがとうございます．

カテゴリーごとの(数学的)意味が分かっていなかったのですが，補足のおかげで少し前進しました．

例えば，カテゴリーAはBに比べて現れるデータ数が少ないから重要度が低いといった意味ではなく，
「疑問詞」「普通名詞」「代名詞」「名詞節」という種類ごとに「zero形」の出現割合(確率)を比較するという話のようですね．

＃２の考え（試算）では
各カテゴリーごとの割合，72％，59％，46％，36％を単純に平均して53.25％ですが，これにはいちおう意味があって，(カテゴリーを区別しないときの)全使用数中での平均出現確率が53.25％ということです．

そうすると，＃２で書いた形式的試算は次のような意味があります．

全体平均の出現確率（約53％）を基準(0.5＝50％に換算)として，各カテゴリーではそれぞれどのくらい基準(全体平均)よりも出現確率が高いかそれとも低いかの「相対的な重み」を表します．

つまり，＃２によれば
４つの単純平均は，詳しくやると 
M＝53.06％で，
P(a1)／2M＝0.679 （←平均よりもかなり高い）
P(b1)／2M＝0.552 （←平均よりも少し高い）
P(c1)／2M＝0.434 （←平均よりもやや低い）
P(d1)／2M＝0.335 （←平均よりもかなり低い）

というように，単純な絶対的出現確率を見るのでなく，平均的使用率に比べて相対的に現れる率が高いか低いかを見るためのものではないでしょうか．
(補足の値と比べると誤差にしてもややずれが気になりますが，原因は分かりません．いちおう話が正しい信じて進みます．)

例えば全体平均が80％ならば72％は高いとは言えないが，
全体平均が53％ならば72％は高いと言える．
といったように，相対比較のために換算したのではないでしょうか．
ただし，するとなぜ基準を0.5にとったのかは不明です．
（論理的には，平均を１＝100％としてもいい．でもまあ，偏差値も平均を50にとって基準値としますから，ご研究の分野での習慣かも知れません．）

ただし，上の話では全体平均として，４つのカテゴリーを全て対等の重みで扱って，
72％，59％，46％，36％を単純に平均して53.25％
としましたが，もう一つ可能性があって，

各カテゴリーの使用頻度を反映させた加重平均を全体平均の値として採用すると，
(121＋3200＋653＋172)／7529×100＝55.07％
で，これは用例が多いBの値によって主に決まってしまいます．

これを用いると
M＝55.07％で，
P(a1)／2M＝0.654
P(b1)／2M＝0.532
P(c1)／2M＝0.418
P(d1)／2M＝0.323
となります．

これも細かくみるといくらかずれていて，悩ましいです．
ともあれ結論としては，適切な平均値に対する，相対的な重みのようです．
どの平均値を使っているのかはどうぞご検討下さい．

oshiete_goo · Answer

データ総数が７５２９個でそれらが全て対等としてよいのならば

Ａ１を例に取ると
最初から
(121÷7529)×100　[％]
の方が手っ取り早いかも．(72％とかの丸めの誤差の影響を受けないので，その意味でもこれが有利．）

原理的には
(属するカテゴリーの割合)×(カテゴリー中の割合)
＝{(カテゴリーＡのデータ数：168)÷(全データ数：7529)}×(カテゴリー中の割合：72／100)
＝(168×72)／(7529×100)
で，百分率では
168×72／7529　[％]

ともいえます．それを学ばせたい問題？

取り違っていたら補足下されば，見た方が助けてくださるでしょう．

oshiete_goo · Answer

＃１に対する補足によれば，＃１の解釈は全く外れていたようです．
一般的に数学で言う意味での統計的重み（統計的重率）とは違うようです．

問題の出所が分からないのですが，

[１]統計学の学習のための例題なのか，それとも，実際の現象の解析の報告の表なのか．

[２]前者ならば，定義がどこかに書いてないか，または同様の例題（使用例）がないか．

以上ぜひ補足下さい．


なお，無意味とも思われるのですが，
P(a1)＝72.02（％）
P(b1)＝58.62（％）
P(c1)＝46.05（％）
P(d1)＝35.54（％）
この４つの単純平均は
M＝53.06で，
P(a1)／2M＝0.679
P(b1)／2M＝0.552
P(c1)／2M＝0.434
P(d1)／2M＝0.335
です．

誤差を考えてもいくらかずれが大きいですが，
偶然なのかどうか．．．

oshiete_goo · Answer

＃３の補足です．

＞＃２の考え（試算）では 
各カテゴリーごとの割合，72％，59％，46％，36％を単純に平均して53.25％ですが，これにはいちおう意味があって，(カテゴリーを区別しないときの)全使用数中での平均出現確率が53.25％ということです． 

こう書きましたが，
＞(カテゴリーを区別しないときの)全使用数中での平均出現確率
ならば，むしろ＃３で後半に挙げた
M'＝(121＋3200＋653＋172)／7529×100＝55.07％ 
を指すべきで，書き方が雑でした．

要するに，「平均」をするときに
高校野球で言えば
＃２と＃３の前半の議論は１県(原則)１校で甲子園に出られる（カテゴリー同士を対等と見る）．
＃３の後半は，１人１票でカテゴリーに全く関係なく，人口比で重みを決めて出場校数を比例配分する．
といった違いがあります．
どれが「公平か」というと，目的にもよりますので，一概には言えません．

いずれにしても，記述に雑な点がありますので，学術研究で数値を議論されるときはよくよく批判的に吟味してお使いになることをおすすめします．

統計＿重みを計算で出すこと

データ総数が７５２９個でそれらが全て対等としてよいのならば

この回答への補足

＃１に対する補足によれば，＃１の解釈は全く外れていたようです．

この回答への補足

＃２の補足ありがとうございます．

＃３の補足です．

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング