相関を求める時の、はずれ値のはずし方

締切済

質問者：Qwerty1212
質問日時：2015/01/19 00:59
回答数：2件

こんにちは

現在、ある2つのデータの相関関係を調べています。
そのデータを散布図にしたところ、数個はずれ値が確認できました。
これのはずし方をご質問させてください。

はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか？
私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。
しかし、統計的におかしはことはしたくありません。

そこで、話の流れとして、

『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』
　↓
『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』
　↓
『いずれにせよ、相関はある』

はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな？と思ったので、ご質問させていただきました。
けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

最新から表示
回答順に表示

No.2

回答者： High_Score
回答日時：2015/01/19 05:57

外すかはずさないかは、主観しかありません。

直線から○○以上ズレていたら、何らかの原因で壊れている可能性が高いので、はずすことにする。ただ、予想されるトラブルとしては「実は壊れているのではなく、こういう特性だった」事が判明することです。

ただしこの場合「外してもやっぱり相関はあった」は通用しません。相関から外れたのを削除するのだから、当たり前です。相関が強まるように操作しているのだから。

「相関直線を作成したが、明らかに外れている値を除外することで直線の精度を上げる」事は可能です。

- 0
- 件

通報する

No.1

回答者： shitaba
回答日時：2015/01/19 01:23

削除する『明確で妥当な理由』があるなら外せます。

例えば、
計測器が壊れてたとか突然停電して正しく測れたのか不明とか。
その場合は当然、その理由に当てはまる「一見正しそうなデー
タ」も全て外す必要がありますが。

『飛んでるデータを選択して外す』というのは絶対にナシです。
それは『不正なデータ操作』に他なりません。これをした瞬間、
質問者さんのデータは全く信用できないモノになりますよ。