プロが教える店舗&オフィスのセキュリティ対策術

エクセルで箱ひげ図を描いたのですが、外れ値の定義について教えてください。

外れ値=四分位範囲の1.5倍を超えた値を外れ値として点で表示。ということですが、例えば第1四分位が75で第3四分位が25の場合、四分位範囲の1.5倍は75となりますが、外れ値は平均値から75以上外れた値、という意味でしょうか?

A 回答 (4件)

#2です。

訂正があります。

誤)今の計算(平均値が50)であれば、75+75=150がひげの限界長になります。平均からは100離れます。



正)今の計算(平均値が50)であれば、75+75=150がひげの限界点になります。平均からは100離れます。
    • good
    • 0
この回答へのお礼

ご丁寧にわざわざの修正ありがとうございます。

お礼日時:2022/06/03 09:17

#2です。



お礼、ありがとうございます。

箱ひげ図は1977年、テューキーが考案しました。比較的最近です。

ひげ端は、「こんなデータは確率的にあり得ないので外れ値とみなそう」という閾値で、正規分布なら±2.7σになっています。

これは、おっしゃるように±3σに近くなるよう、それであっても作図上簡単になるように(1.5倍とかキリの良い数値で可能)、工夫されているのだと思います。

私も箱ひげ図を知った時は、うまく考えたもんだ、と思いました。さすがテューキー先生。
    • good
    • 0
この回答へのお礼

そうでしたか。

私は、これが先にあって、最近の品質管理に3σを採用するようになったのかと思いました。

まぁ、「統計的な品質管理手法」を用いるように(ISO)なってきたのはもっと最近かもしれませんが。
どちらが先かは別にして、統計的には2.7-3σあたりが異常値の閾値ということで私の場合は十分ですのでこれにて締め切らせていただきます。

ありがとうございました。

お礼日時:2022/06/03 10:06

いいえ違います。



ひげ長は「箱端から、」四分位範囲(IQR: Iinterquantile Range は箱の部分を差す)の1.5倍の長さの範囲内にあるデータの最長位置まで伸ばします。

今の計算(平均値が50)であれば、75+75=150がひげの限界長になります。平均からは100離れます。

もし標準正規分布なら、外れ値の確率はどうなるかというと、

箱上端は0.675σ、箱の幅は1.349σですから、
0.6745σ(箱上端)+1.5×1.349σ(箱幅)=2.698σ点が、ひげの限界長となります。

これは、累積確率0.9965点であり、片側0.35% → 両側0.7%の第1種の過誤を考えています。

限界点より外側に打点があれば、0.7%の危険率で外れ値とみなすことになりますが、限界点までひげが伸びることは無く、それより内側のデータまでしか伸びていませんから、打点はおよそ1%危険率で外れ値とみなしていることになります。
    • good
    • 1
この回答へのお礼

詳細なご回答ありがとうございます。
良く分かりました。
当方化学屋で統計はほとんど知識なし。

外れ値の定義の「箱の長さの1.5倍の距離」は箱の端からの距離だったのですね。
どうもひげの端ではないような感じだったので質問させていただきました。

σの説明も良く?分かりました。
正規分布の場合、外れ値は0.27σ外れ、ということですね。
一般的に品質規格が平均値±3σで管理される理由はこの辺りの統計的経験値から来ているでしょうかネ。

お礼日時:2022/06/03 09:16

そう云う事になりますかね。


箱の部分が 全体の 50% ですから (1+0.5)倍で 75%、
下は 50%の (1-0.5)倍で 25% 。
これが ヒゲの部分ですから これを超えた値が 外れ値になりますね。
    • good
    • 0
この回答へのお礼

早々のご回答ありがとうございます。

単純にひげを超えた値で良かったのですね。
>Q3-Q1の1.5倍・・・
と記載されているので、どこから、例えば平均値から50の1.5倍の距離かと思ってしまいました。
実際のグラフでは判断できなかったので質問させていただきました。

お礼日時:2022/06/01 16:54

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


このQ&Aを見た人がよく見るQ&A