詳しい人求む！

正規分布について

締切済

質問者：こまったちゃん.
質問日時：2024/02/24 12:18
回答数：4件

すこし右に寄ったデータを標準化したときに正規分布化されるのでしょうか？
例えば、平均８０点のテストで９０～１００の人が非常に多く、０～７０までの点数の人がいた場合だと右に山が寄ったグラフになると思うのですが、これを標準化したときに正規分布にならない気がして…誰か教えてください。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

最新から表示
回答順に表示

No.4

回答者：ありものがたり
回答日時：2024/02/24 22:52

「データを標準化」って何やねん？

正規分布を標準化すれば標準正規分布にゃなるが、
正規分布じゃないデータを正規分布にする方法なんてありゃせん。
つか、そんな方法があって、それを施したら、
データの分布が変わってまうやんか。
そんなんでええなら、採取したデータは捨ててもうて、
他所から何か正規分布するデータを持ってきたらええ。
その入れ替えで、「データは正規分布になった」ちゅうことや。

- 0
- 件

通報する

この回答へのお礼

形がそもそも最頻値と平均値が同じのときしか使えないってことですね。
なるほど…ありがとうございます。

通報する

お礼日時：2024/02/25 00:11

No.3

回答者： kamiyasiro
回答日時：2024/02/24 13:37

No.1です。

標準化に用いるσがそもそも違うのです。
すそ野を切断しているデータから求めていますからね。
そんなσで標準化して、正規分布に当てはめても、合わないに決まっています。

本来は、もっと上側にばらついている（実力差が拮抗しているのではなく、大きな実力差がある）状態なんですよ。
100点を越えて正規分布している感じです。

切断部分が見えなくなっているので、統計処理の際は、それを復元して使う必要があるわけですが、それには非常に手間が掛かります。

- 0
- 件

通報する

この回答へのお礼

そうなんですね。切断部分を復元させるとなると面積が変わって中々難しそうですね。。ありがとうございます。

通報する

お礼日時：2024/02/25 00:10

No.2

回答者： stomachman
回答日時：2024/02/24 13:30

「標準化」と仰るのが「平均値を引き算してから標準偏差で割る」というフツウの意味であれば、山の偏りは全く変わらないままです。

もちろん、正規分布とは何の関係もない。

　ところで、ご質問は「偏差値」の計算方法の話だと思われ、その考え方と計算方法は以下の通り。

　「ある未知の変数xは正確に正規分布に従っている。テストはxの大小を測っているには違いないのだが、テストの得点のスケールが一様でないために、xに比例した得点は得られず、その結果、得点の分布を見ると偏っている」という風に考えるのが、いわゆる「偏差値」ってやつです。（ただし、xを安易に「学力」などと呼ぶと誤解を招きかねないんで、要注意です。あくまでこのテストを受けた人の集団だけに関する、このテストだけで測った得点の話にすぎません。）

　偏差値を計算するには、得点の数値ではなく、得点の順位を使います。N人居れば、最高点を取った1番からビリのN番まで、まずは順位をつけてやる。（ただし、たとえば31番〜40番が同点だというのなら、これら10人は全員「35番」であることにします。）
　次に、数表に載っている「正規分布表」を使う。この表は「正規分布の確率密度関数」（あの、左右対称の釣鐘型をしたガウス関数）を表したものではなくて、それを積分した「正規分布の（累積）分布関数」の表です。具体的には、「標準正規分布に従う確率変数xの値がv以上になる確率p」が書いてある。なので、値vに対応する所に書いてある数値pを見れば「xの値がv以上である人はN人中にNp人居る」ということがわかる。
　で、この表を逆に使います。すなわち、「順位がn番の人の得点以上の得点を取った人」はN人中のn人ですから、数値(n/N)が出ているvを探す。そうすると、n番の人のxの値はvだと分かります。こうして（あるいは表計算ソフトで「累積正規分布の逆関数」を使うのでもいいですが）、各人の順位nをその人のxの値へと換算してやるんです。

　その結果得られるN人分のxのデータは、標準正規分布（すなわち、あの左右対称の釣鐘型をした分布で、平均0、分散1）に、当然従うことになります。というわけで、ご質問は「偏差値」の計算方法の話だと思われる理由がご理解いただけたでしょうかね。

　なお、慣習的に学校の成績を指して言われる「偏差値」は、このxを10倍してさらに50を足したもの（つまり、平均50、標準偏差10になるようにしたもの）なんですが、ご質問の目的においては、そんな処理はまったく余計ですね。

- 1
- 件

通報する

この回答へのお礼

なるほど！ありがとうございます。やはり山の形は維持されたままですよね。補足説明もありがとうございます。

通報する

お礼日時：2024/02/25 00:08

No.1

回答者： kamiyasiro
回答日時：2024/02/24 13:28

＞正規分布化されるのでしょうか？

されません。

左に寄った場合、というかゼロ漸近しているデータは対数化というのが定石ですが、そうではない単なるいびつなデータには「ボックスコックス変換」「ジョンソン変換」というのを使います。
最近は後者が一般的に用いられます。

ただし、試験成績のような０～100の範囲のようなデータは、切断（トランケーション）と言って、100点以上の実力の人も100点として観測されてしまいます。
言い換えれば、規格外品を修正して規格内に入れたC国製品のような分布です。

この場合（絶壁で落ちている分布の場合）、統計的な扱いは非常に難しく、これだけで１冊の本が出ているくらいです。

岩崎学(2002)『不完全データの統計学』，エコノミスト社
https://www.amazon.co.jp/%E4%B8%8D%E5%AE%8C%E5%8 …