電子書籍の厳選無料作品が豊富!

箱ひげ図のヒゲは、上限下限ないのでしょうか?1,5 というのは、聞いたのですが、誤差は大体どれくらいなのでしょうか?教えていただけないでしょうか?ヒゲは、どこまでも延ばせるのでしょうか?

質問者からの補足コメント

  • うーん・・・

    これのことです。
    https://bellcurve.jp/statistics/course/5222.html
    ヒゲの長さが、1,5 というのは、目安であり、1,5とどのくらいの誤差があるのかを知りたいのです。
    noname さんから聞きました。教えていただけないでしょうか?すみません。もし、99人が、80点以上で、一人だけ0点だった場合、0点まで、ひげを伸ばすのか?と言うことです。これについても、教えて頂きたいです。

    No.1の回答に寄せられた補足コメントです。 補足日時:2020/07/25 19:21
  • うーん・・・

    これです。このサイトです。
    https://bellcurve.jp/statistics/course/5222.html
    これは、間違っているのでしょうか?

    No.2の回答に寄せられた補足コメントです。 補足日時:2020/07/25 20:33
  • うーん・・・

    では、なぜ、外れ値があるのでしょうか?教えていただけないでしょうか?すみません。

      補足日時:2020/07/25 20:35
  • うーん・・・

    すみません。ありものがたりさんが言っていることを聞くと、外れ値はないように聞こえるのですが?教えていただけないでしょうか?すみません。

      補足日時:2020/07/25 20:36
  • うーん・・・

    つまり、外れ値というのは、100人いるのに、99人しか考えていないといういい加減なことをする。ということでしょうか?教えていただけないでしょうか?すみません。

    No.3の回答に寄せられた補足コメントです。 補足日時:2020/07/25 20:57
  • うーん・・・

    どの99人とは?例えば、99人が、80点以上で、一人だけ0点で、1人には、目をつぶって後の99人を見るというのも恣意的なのでしょうか?教えていただけないでしょうか?すみません。

    No.4の回答に寄せられた補足コメントです。 補足日時:2020/07/25 21:50
  • うーん・・・

    別集団を検知するのが、難しくなる。というのは、どういうことでしょうか?教えていただけないでしょうか?

    No.7の回答に寄せられた補足コメントです。 補足日時:2020/07/25 22:48
  • うーん・・・

    ±1,52 についている記号は何でしょうか?教えていただけないでしょうか?すみません。

    No.6の回答に寄せられた補足コメントです。 補足日時:2020/07/25 22:51
  • うーん・・・

    別の集団なの連続的に発生しているのか区別がつかなくなるというのは、どういうことでしょうか?
    後、なぜ標準偏差をかけるのでしょうか?教えていただけないでしょうか?すみません。

    No.8の回答に寄せられた補足コメントです。 補足日時:2020/07/25 23:12
  • うーん・・・

    すみません。なぜ、87%になるのでしょうか?箱ひげ図のことです。

      補足日時:2020/07/26 10:25

A 回答 (15件中1~10件)

次の質問の前に書きますが、あなたの質問は同じところをグルグル回っています。



もう一度、図でも描いてみて、自分は何が分かっていて、何が分からないのか。
質問も丸投げしないで、こういう反例が考えられるとか、自分の意見も述べて下さい。
それが、このコーナーの暗黙のルールだと思います。
    • good
    • 0
この回答へのお礼

大変失礼します。違う集団であると言っているのに、連続的にデータが並んでいれば、同じ集団になるのではないか?という酷い勘違いをしてしまいました。返信をいただけて幸いです。私の意見♯13のお礼コメントの文章は、合っていますか?

お礼日時:2020/07/26 11:34

No.4 です。


統計処理は、得られたデータを解釈するために行います。
その統計処理の前に既に、データの一部を「外れ値」として除外する
という解釈が加わっていたら、得られたデータそのものを解釈した
ことにはなりません。
    • good
    • 0
この回答へのお礼

すみません。なぜ、この人は、87%と計算したのでしょうか?箱ひげ図の計算式です。教えていただけないでしょうか?

お礼日時:2020/07/26 13:52

連続的にデータが並んでいれば、裾野と言って、別物とは考えないとはどういうことでしょうか?



身長150cm~170cmの集団(高校のあるクラス)を想像してください。
①全校に観測対象を広げましょう。たぶんその身長範囲を超える人が観測されますよね。でも正規分布のひと山の形のままで裾野を引くのではないでしょうか。これは偶然誤差と言って、観測数を増やせば一定頻度で出てくるサンプルです。
②話を変えます。そのクラスにアメリカの高校のバスケット1チーム分の選手がホームステイでやってきて加わりました。みんな180cm以上です。すると分布は二山に変化します。これは系統誤差といい、なんらかの突き止められる原因のある誤差(外れ値)です。

データ可視化の目的は系統誤差の発見にあるのは言うまでもありません。その判定の考え方は①②に従います。
今回のご質問の回答は①に該当します。
    • good
    • 0
この回答へのお礼

つまり、その例でいうと、150cm〜170cmの集団で、その身長を超える人がいても、正規分布に含めているが、同じ集団(ここでは、学校)でも、従来と変わった、違う集団である。
というのが、正規分布の中の裾野の5%に含まれているということでしょうか?教えていただけないでしょうか?後、なぜ、1.52 なのでしょうか?箱ひげ図の計算式です。どういう値を入れれば、87%になるのでしょうか?計算過程を見せていただけないでしょうか?もし、教えてくれるのなら幸いです。

お礼日時:2020/07/26 11:28

#11です。

嫌がらせでなく、まともな質問だと思えば回答します。

裾野は連続的にデータが並んでいるのですよね?なぜ、従来と変わった、違う集団だと判定するのでしょうか?

いいえ、違います。裾野に着目し、
①連続的にデータが並んでいるのなら、違う集団とは判定しない。
②ギャップがあるのなら、違う集団と考えるのが妥当。
と申し上げています。

それが分かるように、可視化手段である箱ひげ図が作られている。ということです。
言い換えれば、「1.5は目安であり、ヒゲ端はデータが実在する箇所にある。」ということです。
私の回答をよくお読みください。
    • good
    • 0
この回答へのお礼

ですが、あなたは、連続的にデータが並んでいれば、裾野と言って、別物とは考えないとはどういうことでしょうか?すみません。頭が悪くて。もう答えてくれないかもしれませんが、教えてくれるのなら、幸いです。嫌がらせではなく、真面目に質問しているのですが。教えていただけないでしょうか?

お礼日時:2020/07/26 10:36

おはようございます。




170cmまでしか、データがないのに、179cmまで、ヒゲが伸びていたら、仲間だと思ってしまいます。そういうことでしょうか?

はい。そのとおりです。「170cmまでしかデータがないのに、179cmまでヒゲが伸びていたら、180cmの人は仲間だと考える」が妥当でしょう。
ですから、ヒゲの伸ばし方に関する最初のご質問である1.5は目安か?は『データの範囲がきちんと分かるように、1.5倍は目安で、実際にはデータがあるところまでしか伸ばさない』という工夫がされているのだと思います。


信頼区間95%より多めに外すとはどういうことでしょうか?

これも、最初のご質問に関連します。誤差というか第1種の過誤をどれだけ設けるか、というご質問です(難しく書いちゃいました)。
データがもし正規分布に従っていれば、正規分布の山の形状において平均±1.96×標準偏差という範囲に、全体の95%が入ります。この95%の範囲のことを信頼区間と言い、データ解析のとき、そのようなデータは「従来と変わったとは言えない」「違う集団だとは考えにくい」とします。
逆に両側の裾野の5%は、もし同じ集団でも「従来と変わった」「違う集団だ」と判定することになります。これを第1種の過誤と言うのですが、箱ひげ図は第1種の過誤の範囲が大きいのです。なぜなら、
今、データが正規分布に従っていれば、箱ひげ図は中央値±1.52×標準偏差という範囲を図示しています。ここには全体の87%しか入りません。この範囲は「従来と変わったとは言えない」「違う集団だとは考えにくい」という範囲ですが、正規分布で考えたときより狭いですよね。
つまり、逆を言えば、ちょっと多めに「従来と変わった」「違う集団だ」と判定することになりますよね。

私はこの「ちょっと多めに判定する」ことを「信頼区間95%より多めに外す」と書きました。
ご納得いただけましたでしょうか。


あまりにもやり取りが長くなりました。私はこれにて外したいと思います。真摯に考えていただき、ありがとうございました。
    • good
    • 0
この回答へのお礼

すみません。もう一つ答えていただけると幸いなのですが、(もう答えてくれないとは思いますが)、裾野は、連続的にデータが並んでいるのですよね?なぜ、従来と変わった、違う集団だと判定するのでしょうか?教えていただけないでしょうか?すみません。

お礼日時:2020/07/26 09:41

連続的とギャップがあるとは、どういうことでしょうか?なぜ、不明なのでしょうか?



投げ出さずに、図などを描いてみればいかがでしょうか。でもお付き合いしましょう。

まず、外れ値ってどんな値を外れ値って言いますか。集団から離れている値ですよね。
連続的にデータが並んでいれば「すそ野」(テール)と言って、別物とは考えないです。

150cm~170cmの身長の集団に171cmの人が入って来たら、外れ値の人が来たと思いますか。いいえ。仲間だと思います。
では、180cmの人が来たらどうですか。一人浮きますよね。それは、集団と開きがあるからです。それをギャップと言います。

では、180cmの人が来た時に、150cm~170cm集団の範囲が箱ひげ図で表してあり、179cmまでヒゲが伸びていたら、どう判断しますか。

あなたの意見を期待しています。それによってはお付き合いを諦めるかもしれません。
    • good
    • 0
この回答へのお礼

170cmまでしか、データがないのに、179cmまで、ヒゲが伸びていたら、仲間だと思ってしまいます。そういうことでしょうか?教えていただけないでしょうか?すみません。すみません。やっぱりがっかりでしょうか?すみません。

お礼日時:2020/07/26 02:01

#8です。



別の集団なのに連続的に発生しているのと区別がつかなくなるというのは、どういうことでしょうか?

正常データの存在範囲(ヒゲ端)と打点との間が離れていれば「これは別物だ」と分かりますが、データが無いのに1.5倍までヒゲを引っ張たら、ヒゲ端にデータがあるのか無いのか分からないので、打点との間にギャップがあるのか、あるいは連続なのかは不明です。言い換えれば、データが存在するところまでヒゲが伸びていることが分かっていて、そのすぐ隣に打点があれば、その打点って正常データ(ヒゲ端)から連続的して発生していると思いますよね。逆に打点がヒゲ端(データ存在範囲)から離れていれば、明らかに外れ値ですよね。
難しいでしょうか。

なぜ標準偏差をかけるのでしょうか?

えっ。±1.96σって、正規分布の95%範囲の横軸の値ですよ。これはあなたの勉強不足です。ボックス・プロットって、正規分布とかを学んだ後に出てくると思いますが、そこはスルーしていますか。
    • good
    • 0
この回答へのお礼

連続的とギャップがあるとは、どういうことでしょうか?なぜ、不明なのでしょうか?教えていただけないでしょうか?すみません。

お礼日時:2020/07/26 01:24

#7です。



別集団を検知するのが、難しくなる。というのは、どういうことでしょうか?

ヒゲを伸ばすのを箱に近いデータが存在するところまでにとどめておけば、四分位範囲の1.5倍より外の打点はヒゲ端から離れるでしょう。つまり範囲内データと範囲外データにギャップが見られます。
しかし、データが存在しないのに四分位範囲の1.5倍までヒゲを伸ばしてしまうと、その外にある打点とヒゲ端が近くなって、別の集団なのか連続的に発生しているのか区別がつかなくなるという意味です。

±1.52 についている記号は何でしょうか? すみません。小数点はピリオドに変更させてもらいます。

σは標準偏差です。
この回答への補足あり
    • good
    • 0
この回答へのお礼

すみません。信頼区間95%より多めに外すとはどういうことでしょうか?教えていただけないでしょうか?

お礼日時:2020/07/26 01:36

#5です。



ヤバイヤバイ。うっかり間違えていました。②を訂正します。

②データがそれ以上にもあるときは、ヒゲは四分位範囲の1.5倍まで伸ばし、それ以上のデータは打点を打つ。

②データがそれ以上にもあるときは、ヒゲは四分位範囲の1.5倍内にあるデータまで伸ばし、それ以上のデータは打点を打つ。

データが無いのにヒゲを1.5倍まで伸ばしてしまうと、私が#6で書いた「別集団を検知する」ことが困難になりますよね。
この回答への補足あり
    • good
    • 0

#5です。



誤差?について書いていませんでした。
箱ひげ図で外れ値として打点されるものの比率は、標準正規分布で、両側13%くらいです。±1.52σくらいです。
ですから、±1.96σつまり95%信頼区間で考えるより多めに外します。

もともと、ボックス・プロットは中心線は平均値ではなくメディアンですし上下非対称です。正規分布を考えていない=ひと山ではないことが往々にしてあるため、その別集団を検知するため多めに外すことにしているのだと思います。
そういう観点から、ヒゲ端から打点までのギャップに注目すべきです。ギャップが大きければ箱に属する集団から離れていることになります。
この回答への補足あり
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!