アプリ版:「スタンプのみでお礼する」機能のリリースについて

データの分析を行っていたところ,同一データの平均値が中央値より倍以上大きくなりました.この原因として,外れ値の存在があったため,代表値には中央値を用い,ノンパラメトリックな方法で分析を進めようと考えました.

そこで,代表値に中央値を選んだ理由を,数値的な基準を用いて説明したいと思うのですが,その基準にはどのようなものがあるのでしょうか.

本などを読むと,歪度などで代表値を選択することが書いているのですが,具体的な数値などの基準が分かりません.

そこで,代表値を選択する際の具体的な基準について教えていただければと思います.また,外れ値が結果に影響を及ぼしているという基準も,もしあれば教えていただきたく思います.

よろしくお願いいたします.

A 回答 (1件)

はじめに確認しますが,データの尺度水準は,間隔尺度以上ですね?


間隔尺度以上の場合に,平均,中央値,最頻値のいずれも用いることができます.
質問の内容に関しては,絶対的な基準は存在しません(森・吉田,1990).
また,他のデータに比べ,どの程度離れていれば,外れ値とみなすかについても明確な基準はありません(吉田,1998).
したがって,どの代表値を用いるかや,どの個別データを外れ値とみなすかについては,主観的な判断に任されているといっても過言ではありません.

ただし,南風原(2002)にあるように,次のように考えることはできると思います(南風原,2002,pp.17-27):

1.代表値の適切さの基準を明確に定義し,それを最大にする値を求めるというアプローチを基本的には,採用する.
2.データがN個あると仮定して,「代表値tと,そこに含まれるN個のデータとの近さ」という基準を,「tと各値との距離の絶対値の総和の小ささ」と解釈する,と考える.
3.このように考えると,その総和を最小にするtが,「データ全体に含まれる各値にもっとも近い」という基準を満たす,適切な代表値ということになる.

なお,外れ値の存在が,測定ミスによるものではなく,正しく測定されたにもかかわらず,他のデータからは,相当はずれた値になったという前提で,この説明は成り立ちます.

また,最近の統計書にはあまり書かれていないようですが,正規分布から外れた値と見なせるかどうかに関して,「棄却検定法」があります.
古い本ですが,岩原(1967)のp.135にその説明が,あります.

数式を記述するのが煩雑でしたので,文章で説明してみました.
文献リストを掲げておきますから,ご覧ください.

森敏昭・吉田寿夫(編著)(1990):心理学のためのデータ解析テクニカルブック.北大路書房.
吉田寿夫(1998):本当にわかりやすい すごく大切なことが書いてある ごく初歩の統計の本.北大路書房.
南風原朝和(2002):心理統計学の基礎-統合的理解のために-.有斐閣(有斐閣アルマ).
岩原信九郎(1967):増補版推計学による新教育統計法.日本文化科学社.
    • good
    • 0
この回答へのお礼

詳しいご回答ありがとうございます.絶対的な基準はないようですね.討論する際に代表値の選定やはずれ値の基準を聞かれますので,何かあればと思ったのですが・・・.ご紹介いただいた文献を読んでみて,再考してみます.ありがとうございました.

お礼日時:2006/03/24 18:34

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!