No.6ベストアンサー
- 回答日時:
「外れ値」というのは、低い確率で起こる、というよりも
測定ミスとか、データの書き間違いとか、
「本来の確率分布とは違う原理で発生するもの」
と思ってよいです。
(厳密には「区別できない(確認のしようがない)」のですが、実際はそういうものです)
他の人が言っているような
「確率的なデータなので、平均から大きく外れた値も低確率で起こる」
という発想ではありません。
根本的に違います。
>どんなに平均から離れたデータも起こりえる という点です。
>それを除外するのは、データの選り好みでしかありません。
>恣意的であり、統計やデータ分析とは無縁
とか言っている人がいますが、全くの見当はずれです。
データの品質チェック(QC:Quality Control)は、実際のデータを
扱う際の大きな課題です。
外れ値が入ってきてもおかしな結果にならないような方法を見つけることは
統計の大きなテーマです。
そもそも
>どんなに平均から離れたデータも起こりえる
が間違いです。
数学では、微小な確率は、むしろ
「起こりえない」
とします。
正規分布を中学生的に理解した人が
「どんな値でも起こりえるんだ」
って勘違いするのでしょう。
そういうものじゃありません。
No.5
- 回答日時:
> 例えば、1人だけ0点で、後の99人が80点以上みたいな感じのことを外れ値と私は、行っています。
> 正規分布には、外れ値はないのでしょうか?教えていただけませんか?すみません。
同じことを何度も書きたくはないのですが...
> 正規分布のグラフを確認しましょう。 山の裾野が -∞ から +∞ まで広がっていますね。
> 正規分布では、どんなに平均から離れたデータも、低い確率で起こりえるのです。
大切なのは、どんなに平均から離れたデータも起こりえる という点です。
それを除外するのは、データの選り好みでしかありません。恣意的であり、統計やデータ分析とは無縁の発想です。
No.4
- 回答日時:
> 高校数学で習う正規分布は、どんなに沢山のデータを集めても外れ値が出ない場合のみを考えるということですね?ご教授願います。
正規分布のグラフを確認しましょう。 山の裾野が -∞ から +∞ まで広がっていますね。
正規分布では、どんなに平均から離れたデータも、低い確率で起こりえるのです。
データの個数が増えれば増えるほど、極端なデータを得る確率は増えてゆきます。
あなたの言う「外れ値」の定義が不明瞭なので、そのことを
どんなデータでも外れ値ではないのだと言うべきか、外れ値はいつでも出得るのだというべきか
言葉に困るのですが。いづれにせよ、
高校で習う正規分布と統計学でいう正規分布と実務家が扱う正規分布は別のものではありません。
どれも同じ正規分布です。いや、実務家の場合は、統計処理の前に「外れ値を除外」してしまうから
実は正規分布とは別の何かなのかもしれませんが。
例えば、1人だけ0点で、後の99人が80点以上みたいな感じのことを外れ値と私は、行っています。正規分布には、外れ値はないのでしょうか?教えていただけませんか?すみません。
No.3
- 回答日時:
「外れ値」というのは、現実のデータ以前に、頭の中に
こうあるべきと思う分布の形が何かあって、
実際のデータがそれに合わないことが意にそわない
ということを表す表現です。
実務では、現実が予定にそってくれていないと、
データを理論的に正しく取り扱うのが難しいことがあり、
そういう場合に、外れ値をデータから除外してしまったりします。
しかたがないと言えばしかたがないのですが、もはや
統計でも数学でも自然科学でもなくて、実務と慣習だけの話
になってしまいます。「昔からこうやってんだよ」と言うわけです。
何をか言わんや。
正規分布でも、沢山のデータがあれば、外れ値が出るかもしれませんし、出ないかもしれません。高校数学で習う正規分布は、どんなに沢山のデータを集めても外れ値が出ない場合のみを考えるということですね?ご教授願います。
No.2
- 回答日時:
学校で習うのは、あくまで理論だけなので、複雑な実データーではイレギュラーが多くて勉強にならないし、先生も説明ができない部分がたくさんあります。
だから、イレギュラーの無い美しい理想カーブで原理原則だけ習うのです。
それがよく、「学校で習ったことだけでは社会で使えない」と言われるのです。
学校で習うのはあくまで理論、理想的な形だけなので、実践で使うには、実際のデーターをたくさん見てイレギュラー処理をしながら習った理論に当てはめていく必要があります。
そのためにも学校で習う原理原則は重要です。
では、高校数学の正規分布では、すべてのデータを分析する。ということでしょうか?正規分布で、外れ値が出る時は、どんな時なのでしょうか?沢山のデータを集めるといつかは外れ値が出る可能性もあるのではないのでしょうか?出ない場合もあるかもしれませんが。
高校数学では、その出ない場合を考えるということでしょうか?教えていただけませんか?すみません。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 数学 高校の数学Bの、確率分布と統計的な推測の、 正規分布の問題でわからない箇所がございます。問題文が、 2 2022/03/27 20:57
- 数学 以下の数学の問題を教えてください。 確率変数Xは標準正規分布N(0、1)に確率変数Yは平均3のポアソ 3 2022/12/02 19:13
- 統計学 Excelによるサンプルの拡大について 6 2023/08/22 16:03
- 数学 モデルのパラメータの定義がいまいちわかりません。 3 2022/10/11 15:16
- 統計学 統計学 データサイエンスの問題 1 2023/01/22 20:16
- 統計学 統計学の問題 2 2022/07/24 19:57
- 数学 数学B確率についての質問です 確率変数Zが標準正規分布N(0,1)に従うとき、確率P(0=<Z=<0 3 2022/09/11 18:50
- 統計学 標準正規分布表の読み方を教えてください。 2 2023/01/22 15:02
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計データの「タイル値」とは...
-
データのクラスター分析?
-
国別の資本ストックデータ
-
SDと共分散分析とボンフェロー...
-
質的データの中央値の求め方
-
統計学に詳しい方
-
これが簡単なのはなんで??
-
推計学で言うところの寄与率は...
-
新潟県上越市の毎年の降雪量を...
-
携帯電話の年齢別普及率について
-
課題で、ワードで2枚程度という...
-
経済学のレポートで扱いやすい論題
-
レポート用紙に3から4枚書け、...
-
期待利得の求め方を教えてくだ...
-
大学の課題がめちゃくちゃ多い...
-
レポートの指定字数について
-
エクセルでのシグモイドのカー...
-
大学の課題の提出に3分遅れてし...
-
ナッシュ交渉解の求め方について
-
ベイズ完全均衡の信念
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計データの「タイル値」とは...
-
質的データの中央値の求め方
-
社会学的に論じるとはどのよう...
-
分散分析結果の論文の載せ方
-
日本で1番暑い日は、例年だと何...
-
統計学:imputed dataset
-
中央値は偶数?奇数?
-
平均寿命の算出方法
-
四半期データの移動平均について。
-
染色体異常、ダウン症の年齢別...
-
児童(小学生)の平均身長・体重
-
心拍変動におけるリアプノフ指...
-
大阪市の生活廃水量と工業排水...
-
アンケートで無視していい数
-
パキスタンの世帯収入データの...
-
検定:比率データをもちいてシ...
-
定年時の総資産額のデータ
-
新潟県上越市の毎年の降雪量を...
-
日本のオフィスの総床面積
-
携帯電話の年齢別普及率について
おすすめ情報