プロが教える店舗&オフィスのセキュリティ対策術

こんにちは

現在、ある2つのデータの相関関係を調べています。
そのデータを散布図にしたところ、数個はずれ値が確認できました。
これのはずし方をご質問させてください。

はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか?
私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。
しかし、統計的におかしはことはしたくありません。

そこで、話の流れとして、

『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』
 ↓
『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』
 ↓
『いずれにせよ、相関はある』

はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな?と思ったので、ご質問させていただきました。
けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。

A 回答 (2件)

外すかはずさないかは、主観しかありません。


直線から○○以上ズレていたら、何らかの原因で壊れている可能性が高いので、はずすことにする。ただ、予想されるトラブルとしては「実は壊れているのではなく、こういう特性だった」事が判明することです。

ただしこの場合「外してもやっぱり相関はあった」は通用しません。相関から外れたのを削除するのだから、当たり前です。相関が強まるように操作しているのだから。

「相関直線を作成したが、明らかに外れている値を除外することで直線の精度を上げる」事は可能です。
    • good
    • 0

削除する『明確で妥当な理由』があるなら外せます。

例えば、
計測器が壊れてたとか突然停電して正しく測れたのか不明とか。
その場合は当然、その理由に当てはまる「一見正しそうなデー
タ」も全て外す必要がありますが。

『飛んでるデータを選択して外す』というのは絶対にナシです。
それは『不正なデータ操作』に他なりません。これをした瞬間、
質問者さんのデータは全く信用できないモノになりますよ。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!