No.6ベストアンサー
- 回答日時:
「外れ値」というのは、低い確率で起こる、というよりも
測定ミスとか、データの書き間違いとか、
「本来の確率分布とは違う原理で発生するもの」
と思ってよいです。
(厳密には「区別できない(確認のしようがない)」のですが、実際はそういうものです)
他の人が言っているような
「確率的なデータなので、平均から大きく外れた値も低確率で起こる」
という発想ではありません。
根本的に違います。
>どんなに平均から離れたデータも起こりえる という点です。
>それを除外するのは、データの選り好みでしかありません。
>恣意的であり、統計やデータ分析とは無縁
とか言っている人がいますが、全くの見当はずれです。
データの品質チェック(QC:Quality Control)は、実際のデータを
扱う際の大きな課題です。
外れ値が入ってきてもおかしな結果にならないような方法を見つけることは
統計の大きなテーマです。
そもそも
>どんなに平均から離れたデータも起こりえる
が間違いです。
数学では、微小な確率は、むしろ
「起こりえない」
とします。
正規分布を中学生的に理解した人が
「どんな値でも起こりえるんだ」
って勘違いするのでしょう。
そういうものじゃありません。
No.5
- 回答日時:
> 例えば、1人だけ0点で、後の99人が80点以上みたいな感じのことを外れ値と私は、行っています。
> 正規分布には、外れ値はないのでしょうか?教えていただけませんか?すみません。
同じことを何度も書きたくはないのですが...
> 正規分布のグラフを確認しましょう。 山の裾野が -∞ から +∞ まで広がっていますね。
> 正規分布では、どんなに平均から離れたデータも、低い確率で起こりえるのです。
大切なのは、どんなに平均から離れたデータも起こりえる という点です。
それを除外するのは、データの選り好みでしかありません。恣意的であり、統計やデータ分析とは無縁の発想です。
No.4
- 回答日時:
> 高校数学で習う正規分布は、どんなに沢山のデータを集めても外れ値が出ない場合のみを考えるということですね?ご教授願います。
正規分布のグラフを確認しましょう。 山の裾野が -∞ から +∞ まで広がっていますね。
正規分布では、どんなに平均から離れたデータも、低い確率で起こりえるのです。
データの個数が増えれば増えるほど、極端なデータを得る確率は増えてゆきます。
あなたの言う「外れ値」の定義が不明瞭なので、そのことを
どんなデータでも外れ値ではないのだと言うべきか、外れ値はいつでも出得るのだというべきか
言葉に困るのですが。いづれにせよ、
高校で習う正規分布と統計学でいう正規分布と実務家が扱う正規分布は別のものではありません。
どれも同じ正規分布です。いや、実務家の場合は、統計処理の前に「外れ値を除外」してしまうから
実は正規分布とは別の何かなのかもしれませんが。
例えば、1人だけ0点で、後の99人が80点以上みたいな感じのことを外れ値と私は、行っています。正規分布には、外れ値はないのでしょうか?教えていただけませんか?すみません。
No.3
- 回答日時:
「外れ値」というのは、現実のデータ以前に、頭の中に
こうあるべきと思う分布の形が何かあって、
実際のデータがそれに合わないことが意にそわない
ということを表す表現です。
実務では、現実が予定にそってくれていないと、
データを理論的に正しく取り扱うのが難しいことがあり、
そういう場合に、外れ値をデータから除外してしまったりします。
しかたがないと言えばしかたがないのですが、もはや
統計でも数学でも自然科学でもなくて、実務と慣習だけの話
になってしまいます。「昔からこうやってんだよ」と言うわけです。
何をか言わんや。
正規分布でも、沢山のデータがあれば、外れ値が出るかもしれませんし、出ないかもしれません。高校数学で習う正規分布は、どんなに沢山のデータを集めても外れ値が出ない場合のみを考えるということですね?ご教授願います。
No.2
- 回答日時:
学校で習うのは、あくまで理論だけなので、複雑な実データーではイレギュラーが多くて勉強にならないし、先生も説明ができない部分がたくさんあります。
だから、イレギュラーの無い美しい理想カーブで原理原則だけ習うのです。
それがよく、「学校で習ったことだけでは社会で使えない」と言われるのです。
学校で習うのはあくまで理論、理想的な形だけなので、実践で使うには、実際のデーターをたくさん見てイレギュラー処理をしながら習った理論に当てはめていく必要があります。
そのためにも学校で習う原理原則は重要です。
では、高校数学の正規分布では、すべてのデータを分析する。ということでしょうか?正規分布で、外れ値が出る時は、どんな時なのでしょうか?沢山のデータを集めるといつかは外れ値が出る可能性もあるのではないのでしょうか?出ない場合もあるかもしれませんが。
高校数学では、その出ない場合を考えるということでしょうか?教えていただけませんか?すみません。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計データの「タイル値」とは...
-
社会学的に論じるとはどのよう...
-
ロストジェネレーションと言わ...
-
日本のオフィスの総床面積
-
課題で、ワードで2枚程度という...
-
大学の学術論文で、「ただし、...
-
レポートの指定字数について
-
経済学のレポートで扱いやすい論題
-
昇進論文のを書かないといけな...
-
中2の根拠を吟味してかこうとい...
-
土曜日までに大学のある授業の...
-
論文で引用を書く際著者とは書...
-
期待利得の求め方を教えてくだ...
-
腫脹と腫張の違いは何か?
-
大学で不正行為をした場合、い...
-
レポートで去年の自分のをコピ...
-
大学の課題の提出に3分遅れてし...
-
友達の課題をやってあげたのに...
-
レポートをB51枚程度の字数の...
-
至急教えてください 成績の付け...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計データの「タイル値」とは...
-
社会学的に論じるとはどのよう...
-
統計学:imputed dataset
-
日本で1番暑い日は、例年だと何...
-
推計学で言うところの寄与率は...
-
分散分析結果の論文の載せ方
-
質的データの中央値の求め方
-
これが簡単なのはなんで??
-
自由研究について
-
正規分布について。
-
計算式を教えていただけませんか
-
銀行の実際の資本コスト率は?...
-
データの整理の仕方
-
時系列データをベクトルとして...
-
中央値は偶数?奇数?
-
東京都区部の人口密度あるいは...
-
平均寿命の算出方法
-
染色体異常、ダウン症の年齢別...
-
SDと共分散分析とボンフェロー...
-
児童(小学生)の平均身長・体重
おすすめ情報