重要なお知らせ

「教えて! goo」は2025年9月17日(水)をもちまして、サービスを終了いたします。詳細はこちら>

【終了しました】教えて!gooアプリ版

心理実験データをzscore化した上で正規化箱ひげ図をつくってくるように指導教員に指導されたのですが、正規化しないで箱ひげ図にしたほうが複数のデータを比較するのには見やすくてよいと思うのですが変換したほうがいい場合があれば教えていただけると幸いです。

正規化箱ひげ図をつくると各項目の中心が0に揃ったグラフが出力され、各項目間の比較が反対にしにくくなると思うのですが有用性はあるのでしょうか。

「正規化箱ひげ図を作ることで何がわかるグラ」の質問画像

質問者からの補足コメント

  • どう思う?

    kamiyasiroさんの回答とてもわかりやすく参考になりました!

    正規化したヒストグラムと標準正規分布との差異を見ることで、ヒストグラムの区間毎の特徴が確認できそうだと勉強になりました!

    後、比較する項目が多いと一度に全て比較するのはヒストグラムを重ね合わせるよりボックスプロットの方がわかりやすいと思いました。

    補足としてお尋ねしたいのは、ボックスの領域を四分一位から三位の領域(25%-75%をボックス表示する)で図をつくったのでボックスの箱が長いということはプロットされる点の区間が広く分散が大きいと考えていたのですが、正規化したら四分位区分でも標準偏差区分でもボックスを表示したら分散は1になる故にボックスのサイズも同じになるのではと思ってしまいました。これはどこの考えが誤っているかご教授願えませんでしょうか。

    No.1の回答に寄せられた補足コメントです。 補足日時:2019/06/08 15:51

A 回答 (3件)

企業でSQCを推進する者です。



私はメーカーのため、ヒストグラムをつかうことの方が多く、ボックスプロットは使いませんが、正規化は常に行います。それは、σが常に1となることより分布の「いびつさ」が可視化できるからです。

図を掲載して頂いておりますが、箱は正規分布ならば±0.67σの範囲ですから、サンプルBなんかは正規分布かなと分かりますが、サンプルAは尖った分布、サンプルDやEは台形のような(一様分布?)感じであると分かります。

でも、私もこうやって書きながら、そうであればヒストグラムの方が分かるよなあ、と思った次第です。

それと、ひげの長さは一般的には箱の1.5倍を超えず、最大最小値まで引きます。1.5倍を超えるデータがあれば打点します。掲載された図のサンプルAやGはひげが長すぎます。
この回答への補足あり
    • good
    • 0

#1です。


お礼を頂きましたが、その冒頭で気になる言葉があったので、指摘しておきます。
標準正規分布には複数の形はありません。一つだけです。
観測データのとる分布には複数あります。尖ったのやら、太ったのやら、裾野を引いているのやら、です。

キチンと書いておきます。
・平均を0、標準偏差を1に基準化して、10組の観測データが、全て同じ平均、標準偏差になりますが、これらを標準正規分布というのではありません。同じ平均、標準偏差でも、皆まったく形が異なります。
・この形の違いを比較しようとするとヒストグラム、裾野の出方を比較しようとすると箱ひげ図になるかと思います。
    • good
    • 0
この回答へのお礼

標準化された平均を0、標準偏差を1されたグラフと標準正規分布の語用を同一のものだと勘違いしていました。ご指摘ありがとうございます。だいぶグラフに対する理解が深まりました!

お礼日時:2019/06/18 00:12

#1です。

コメント、ありがとうございます。

考え方の留意点ですが、次の『』内が重要です。

 標準偏差あるいは分散を1にする、ということは、大きく裾を引く分布形であっても、『裾野の外れたデータをも含んで』標準偏差が1なのです。これが基準化とか標準化と言われる操作です。(正規化は別の意味でも使うので、ここでは除外します)
 一方、ボックスプロットは、『裾野の外れたデータとは関係なく』分布中心(ボックスプロットではメディアン)まわりの50%データ存在範囲を示します。50%存在範囲が同じであれば、箱のサイズは同じになります。

 ですから、基準化してあると、データの箱の幅によってデータの分布形の違いが分かるのです。もちろんヒストグラムでも分かります。
 基準化してあれば、次のような違いが観察できます。
・メディアンのまわりにデータが集中して出現、ただし大きな裾野も出る→箱の幅が小さい
・メディアンまわりに集中することなく一様に散らばるデータ→箱の幅が大きい

 これは、データ解釈上非常に重要な違いで、
・裾野にパラパラ出るデータは、何か他とは異なる突発的(系統的)理由があるのではないか。
・一様に散らばるデータの散らばり原因は偶発的(偶然的)理由しかないのではないか。

 ケーススタディというのは日本語では逸脱事例研究といいますが、工業の世界のQC活動も一緒で、系統的原因というのは「見逃せない原因」「見過ごせない原因」と言われ不具合対策の検討対象になりますが、偶発的原因というのは「避けられない原因」と言われ、検討しても価値が無いのです。

先生は、暗に「検討対象を絞り込め」とおっしゃったのだと思います。
    • good
    • 0
この回答へのお礼

わかりやすい説明でした。標準正規分布に複数の形があることを留意していなかったことと、正規分布は最頻値と平均値が一致する前提を考慮していなかったことによってボックスプロットの見方を誤っていました。
また、実データでは裾野に外れ値?突発的な値が出ることがあり、それを上下のひげの長さからも系統的理由か偶発的理由が起こっているかの考察をサンプルA,B,C,Dの一様にわたって考察できる点からもボックスプロットの有用性を理解することができました!
ありがとうございました!

お礼日時:2019/06/14 18:55

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!