
No.1ベストアンサー
- 回答日時:
企業でSQCを推進する者です。
私はメーカーのため、ヒストグラムをつかうことの方が多く、ボックスプロットは使いませんが、正規化は常に行います。それは、σが常に1となることより分布の「いびつさ」が可視化できるからです。
図を掲載して頂いておりますが、箱は正規分布ならば±0.67σの範囲ですから、サンプルBなんかは正規分布かなと分かりますが、サンプルAは尖った分布、サンプルDやEは台形のような(一様分布?)感じであると分かります。
でも、私もこうやって書きながら、そうであればヒストグラムの方が分かるよなあ、と思った次第です。
それと、ひげの長さは一般的には箱の1.5倍を超えず、最大最小値まで引きます。1.5倍を超えるデータがあれば打点します。掲載された図のサンプルAやGはひげが長すぎます。
No.3
- 回答日時:
#1です。
お礼を頂きましたが、その冒頭で気になる言葉があったので、指摘しておきます。
標準正規分布には複数の形はありません。一つだけです。
観測データのとる分布には複数あります。尖ったのやら、太ったのやら、裾野を引いているのやら、です。
キチンと書いておきます。
・平均を0、標準偏差を1に基準化して、10組の観測データが、全て同じ平均、標準偏差になりますが、これらを標準正規分布というのではありません。同じ平均、標準偏差でも、皆まったく形が異なります。
・この形の違いを比較しようとするとヒストグラム、裾野の出方を比較しようとすると箱ひげ図になるかと思います。
標準化された平均を0、標準偏差を1されたグラフと標準正規分布の語用を同一のものだと勘違いしていました。ご指摘ありがとうございます。だいぶグラフに対する理解が深まりました!
No.2
- 回答日時:
#1です。
コメント、ありがとうございます。考え方の留意点ですが、次の『』内が重要です。
標準偏差あるいは分散を1にする、ということは、大きく裾を引く分布形であっても、『裾野の外れたデータをも含んで』標準偏差が1なのです。これが基準化とか標準化と言われる操作です。(正規化は別の意味でも使うので、ここでは除外します)
一方、ボックスプロットは、『裾野の外れたデータとは関係なく』分布中心(ボックスプロットではメディアン)まわりの50%データ存在範囲を示します。50%存在範囲が同じであれば、箱のサイズは同じになります。
ですから、基準化してあると、データの箱の幅によってデータの分布形の違いが分かるのです。もちろんヒストグラムでも分かります。
基準化してあれば、次のような違いが観察できます。
・メディアンのまわりにデータが集中して出現、ただし大きな裾野も出る→箱の幅が小さい
・メディアンまわりに集中することなく一様に散らばるデータ→箱の幅が大きい
これは、データ解釈上非常に重要な違いで、
・裾野にパラパラ出るデータは、何か他とは異なる突発的(系統的)理由があるのではないか。
・一様に散らばるデータの散らばり原因は偶発的(偶然的)理由しかないのではないか。
ケーススタディというのは日本語では逸脱事例研究といいますが、工業の世界のQC活動も一緒で、系統的原因というのは「見逃せない原因」「見過ごせない原因」と言われ不具合対策の検討対象になりますが、偶発的原因というのは「避けられない原因」と言われ、検討しても価値が無いのです。
先生は、暗に「検討対象を絞り込め」とおっしゃったのだと思います。
わかりやすい説明でした。標準正規分布に複数の形があることを留意していなかったことと、正規分布は最頻値と平均値が一致する前提を考慮していなかったことによってボックスプロットの見方を誤っていました。
また、実データでは裾野に外れ値?突発的な値が出ることがあり、それを上下のひげの長さからも系統的理由か偶発的理由が起こっているかの考察をサンプルA,B,C,Dの一様にわたって考察できる点からもボックスプロットの有用性を理解することができました!
ありがとうございました!
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
下の対数表示のグラフから低域...
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
検量線の決定係数について
-
死傷者数と死者数の違いって何...
-
統計について
-
エクセルのグラフから半値幅を...
-
フーリエ変換と離散フーリエ変...
-
検定統計量の値がマイナス
-
XRDその他のグラフ作成について
-
グラフが失業率のグラフと似た...
-
物理学実験のグラフの描き方に...
-
グラフの"eye guide"について
-
アンケートの集計分析の基礎(...
-
二次関数のグラフで、切片をど...
-
片対数グラフで…
-
心理学の統計について
-
一元配置分散分析のp値が0になる
-
二次関数y=x二乗−2ax−2a二乗+...
-
ローパスフィルタの遮断周波数...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
下の対数表示のグラフから低域...
-
検量線の決定係数について
-
エクセルのグラフから半値幅を...
-
線形なグラフとはひとくちに言...
-
最小二乗法を反比例の式を元に...
-
【統計】有意に「高い」?「低...
-
死傷者数と死者数の違いって何...
-
曲面z=log(x^2+y^2)のグラフの...
-
片対数グラフで…
-
物理学実験のグラフの描き方に...
-
パイロットサンプルって何ですか?
-
統計について
-
高校 数学 aを実数の定数とする...
-
数3の問題です y=x+cosx 0≦x≦2π...
-
理科のグラフで、直線と曲線の...
-
心理学の統計について
-
データ点を線で結ぶ場合と結ば...
-
正規分布でない対象にウェルチ...
おすすめ情報
kamiyasiroさんの回答とてもわかりやすく参考になりました!
正規化したヒストグラムと標準正規分布との差異を見ることで、ヒストグラムの区間毎の特徴が確認できそうだと勉強になりました!
後、比較する項目が多いと一度に全て比較するのはヒストグラムを重ね合わせるよりボックスプロットの方がわかりやすいと思いました。
補足としてお尋ねしたいのは、ボックスの領域を四分一位から三位の領域(25%-75%をボックス表示する)で図をつくったのでボックスの箱が長いということはプロットされる点の区間が広く分散が大きいと考えていたのですが、正規化したら四分位区分でも標準偏差区分でもボックスを表示したら分散は1になる故にボックスのサイズも同じになるのではと思ってしまいました。これはどこの考えが誤っているかご教授願えませんでしょうか。