個人事業主の方必見!確定申告のお悩み解決

こんにちは

現在、ある2つのデータの相関関係を調べています。
そのデータを散布図にしたところ、数個はずれ値が確認できました。
これのはずし方をご質問させてください。

はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか?
私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。
しかし、統計的におかしはことはしたくありません。

そこで、話の流れとして、

『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』
 ↓
『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』
 ↓
『いずれにせよ、相関はある』

はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな?と思ったので、ご質問させていただきました。
けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

外すかはずさないかは、主観しかありません。


直線から○○以上ズレていたら、何らかの原因で壊れている可能性が高いので、はずすことにする。ただ、予想されるトラブルとしては「実は壊れているのではなく、こういう特性だった」事が判明することです。

ただしこの場合「外してもやっぱり相関はあった」は通用しません。相関から外れたのを削除するのだから、当たり前です。相関が強まるように操作しているのだから。

「相関直線を作成したが、明らかに外れている値を除外することで直線の精度を上げる」事は可能です。
    • good
    • 0

削除する『明確で妥当な理由』があるなら外せます。

例えば、
計測器が壊れてたとか突然停電して正しく測れたのか不明とか。
その場合は当然、その理由に当てはまる「一見正しそうなデー
タ」も全て外す必要がありますが。

『飛んでるデータを選択して外す』というのは絶対にナシです。
それは『不正なデータ操作』に他なりません。これをした瞬間、
質問者さんのデータは全く信用できないモノになりますよ。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

QExcelの近似曲線で外れ値(異常値)を除外したい

Excelの近似曲線についての質問です。実験データーを基にしたある散布図についての近似曲線を作りたいのですが、散布図の点の中に明らかに近似曲線に用いるのに不適な外れ値(異常値)があります。このような外れ値(異常値)を除外して他の値のみを用いた近似曲線を作る方法があれば教えてください。よろしくお願いします!

Aベストアンサー

>外れ値(異常値)を除外して
外れ値を別のデータ系列にして、他の値のみの系列を用いた近似曲線を描く
散布図のプロットの色を2つの系列とも同じにする。

QExcelを使ったはずれ値の検定

今、大学の卒論で水平方向でクロロフィル濃度を調べているものです。
私が計測したデータを処理するに当たって、私の主観ではなく根拠のある処理方法にのっとってはずれ値を抽出したいと考えています。
自力で色々と調べた結果、グラブス・スミルノフ検定を用いるのがよいと思ったのですが、Excelの中にはそれに対応した関数がありません。

外部のアドインソフトを用いれば可能なのですが購入するお金もなく困っております。

どなたかよい方法をご存知の方はぜひ教えていただきたいと思います。

※基本的にクロロフィル濃度のみではずれ値を出したいため、二軸のグラフなどは使用することができません。

Aベストアンサー

エクセルの関数に、グラブス・スミルノフ検定がずばり無いだけで、この検定に使う要素はエクセル統計関数にあるAVEDEVやSTDEV・・以下の関数が使えるのではないですか。
一度エクセルの統計関数の名前と機能簡単解説一覧をWEBから打ち出し、どれを使うか考えたら。
ーー
また
ユーザー関数という仕組み(VBA)があるので、順次段階的にそれらの関数を利用してできる(IFで場合分けも出来るが)ものなら、単独関数をまとめた関数を定義できますよ。
VBAの入り口ぐらいは勉強が必要だが。
ーーー
Googleで「グラブス・スミルノフ検定」で照会するのはやってみましたか。
http://software.ssri.co.jp/statweb2/sample/example_17.html
のようなものもあるようだ。

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q回帰線からの外れ値の検定

お世話になります。

分析方法(A法とB法)の比較をしています。
測定濃度が異なる10サンプルを両分析法で分析し,
その結果をプロット(横軸A法,縦軸B法)したところ,
9点はY=Xの直線上に分布するのですが,
(A法での測定値がB法の測定値と非常に近い)
1点のみがY=Xから外れており,
これを加えると信頼区間を含めてY=Xとはなりません。

A法とB法は系統的に異なることのない分析方法であると証明したい
と思っており,この異常値を棄却する根拠が欲しいと思っています。

異常値を棄却する手法でこの1点を外れ値としたいのですが,どのような手法を用いればよいのでしょうか?

お分かりになる方がいらしたら,
教えていただきたくお願いします。

Aベストアンサー

私もだいぶ前に少しかじっただけなのでうろおぼえなのですが
統計的にはそのような外れ値を除く手法が存在します。

参考URLの下のほうにある四分位点を用いるものや「箱ひげ図」
を使ったものがこれに当たります。
基本原理としては回帰曲線に対して標準偏差の任意倍(2とか3とか)
を足し引きした線を描き(ボリンジャーバンド?)、この間から外れた値は外れ値として除去
その後残りのデータで再び回帰分析をするというようなものです。

詳しくは数学系のカテゴリーで再質問することをお勧めします。
あまり力になれず申し訳ない。

参考URL:http://phi.ypu.jp/statlib/l4-2003.pdf

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Qスミルノフ・グラブス検定の有意点算出方法

現在、あるデータの棄却検定を行っております。スミルノフ・グラブス検定の有意点の算出方法について、教えてください。
有意点の式が、
http://aoki2.si.gunma-u.ac.jp/lecture/Grubbs/Grubbs-table.html
に載っていることはこのサイトで知りました。
この式の中の”tα/n”とは何を表すのでしょうか。エクセルで入力する場合、TINV(α*2/n,n-2)という内容になるようなのですが、これとの関係性を教えていただきたいです。
基本的なことで申し訳ありません。

Aベストアンサー

そのサイトに
>tα / n を自由度 n - 2 の t 分布の上側 100α / n% 点としたとき,
ていう定義がちゃんと書いてありますよ。

>TINV(α*2/n,n-2)
ExcelのTINV関数は両側%点を返します。
今は、上側%点を知りたいんで、α*2/nと、知りたい値(α/n)を2倍してあります。

Q相関の強さの表し方

2点質問があります。文系人間ですので、簡単に表現してくれると有り難いです。


1.2つの変数の相関関係の強さがどれくらいかを、説明する場合にどのような方法があるのでしょうか。

2.某サイトで相関関係の強さについて、「相関係数の絶対値の大きさが0.7~1.0だと強い相関、0.4~0.7だとやや相関あり、0.2~0.4だと弱い相関あり、0~0.2だとほとんど相関なし」というものを見つけたのですが、これは統計学的に一般的に言われていることなのでしょうか。何か確認できる書物などをご存知でしたら教えてください。
 

Aベストアンサー

こんにちは.質問順番を入れ替えて回答します.

<2.相関係数の言語的評価>
例えば『心理学のためのデータ解析テクニカルブック』などに書かれています.数値に多少変動はありますが(0.0~0.3などのように),おおよそ一般的な基準です.統計解析法の入門書には大抵書かれています.

(実際には…)
ただ,あるテストで60点をとった場合,その人の能力やテストの難易度によって,その60点に対する評価が変動するように(人によっては「高い」あるいは「低い」点と考える場合がありますね),相関係数の値も本来はそのデータ領域の特性を考えて解釈しなければなりません.この点を相関係数を実務で使う人は十分理解しているので,上記の言語的評価を目安程度に使っています.このためある領域では0.5を高い相関があると解釈することもあれば,同値をあまり関連性がなかったと解釈する場合もあります.

なお,相関係数のイメージ的理解としては,二つの変数ABの場合,変数Aが単独に作業した量と変数Bが単続に作業した量の積の中で,変数ABが一緒に働いたときの作業量の割合と考えてもらうのがいいでしょう(あまりイメージ的理解でもありませんが…).

<1.相関係数の説明>
一般的に相関係数と呼ばれるものはピアソンの積率相関係数です.この相関係数は直線的関係を示していますので,二つの変数の点をプロット図に描くと良いと思います.

== 正・負の「完全:|r|=1」相関図 ==========================

  <正の完全相関:r=1>      <負の完全相関:r=-1>

  │       *        │ *
  │      *         │  *
  │     *          │   *
  │    *           │    *
  │   *            │     *
  │  *             │      *
  │ *              │       *
  └─────────       └────────

  ・正の相関:ある変数が増加(減少)すれば他の変数も増加(減少)
  ・負の相関:ある変数が増加(減少)すれば他の変数は減少(増加)

=============================================================
※図が歪んでいるかもしれないので,上記の図をコピー&貼り付けで適当な文章ソフトに貼り付け,等幅フォント(MSゴシック)に修正して下さい.

上記のように「完全に直線状になっていれば[1]」となります.
なお傾きについては,右上がりか,左上がりかというという大雑把な解釈をする程度に留めてください(傾きの程度も重要な情報ですが,多少数学的知識を入れないと説明できないので).
実際のデータをプロット図に示し,「どの程度直線的か,傾きはどちら向きか」という観点で説明するのはどうでしょうか?

こんにちは.質問順番を入れ替えて回答します.

<2.相関係数の言語的評価>
例えば『心理学のためのデータ解析テクニカルブック』などに書かれています.数値に多少変動はありますが(0.0~0.3などのように),おおよそ一般的な基準です.統計解析法の入門書には大抵書かれています.

(実際には…)
ただ,あるテストで60点をとった場合,その人の能力やテストの難易度によって,その60点に対する評価が変動するように(人によっては「高い」あるいは「低い」点と考える場合がありますね),相関係数の値...続きを読む

Q相関分析の相関係数と重回帰分析の偏回帰係数の違いの説明

実は会社での説明に苦慮しています。
例えば、携帯電話の(1)メーカー/(2)デザイン/(3)機能の(4)購入意向、に対する影響度を見たい、という時に、重回帰分析における偏回帰係数で(1)(2)(3)の(4)に対する影響度を測ろうとしているのですが、「(4)と(1)(2)(3)それぞれの相関の高さで見るのと何が違うのか?」と聞かれてしまい、回答に窮しています。あまり統計に詳しくない人(私もそうですが)に対し、うまく説明する方法はないでしょうか。
どなたかお知恵をいただきたく、よろしくお願いします。

Aベストアンサー

相関分析と重回帰分析の違いは、説明変数を一つとするか複数にするかの違いです。
 目的とするもの(従属変数、数式ではy)に影響するものが、説明変数(数式ではx)です。

 プロ野球を例に取ると、野球はピッチャーだ、といわれます。そこで、過去数年間について、ピッチャーのチーム防御率だけをXとし(説明変数が単数)、その年の順位をyとして、分析するのが単回帰分析です。
 しかし、いくらピッチャーが良くても、打てなければ勝てません。そこで、バッターの打率も考える必要があります。すなわち、チームの防御率をX1、チームの打率をx2、すなわち、説明変数を複数(2つ以上)採り、順位yの推定を行うのが、重回帰分析です。
 このように、単回帰分析よりも、重回帰分析の方が、必ず相関係数が高くなります。すなわち、結果の推定の確実性が増すわけです。相関係数が、1.0になれば、説明変数の事柄だけで、従属変数の事柄が決定できます。すなわち、100%的中します。

 単回帰では、防御率、打率とも、相互の影響は考慮されていません。従って、防御率と打率のどちらが影響力が強いのかは、相関係数から予測はできるものの、決定できません。選手をとる場合、同じ年俸を払うのに、ピッチャーとバッターのどちらを補強したら効果的かは、判断が困難です。
 このとき、どちらの影響が強いかを推定できるのが、重回帰分析です。そのために利用するのが、偏回帰係数ですが、変数の単位に左右されるので、注意を要するところです。

 「単回帰では、(1)(2)(3)のどれが最も効果的かは、判断できません」が答えでしょうか。
 釈迦に説法の点は、ご容赦を。
  

相関分析と重回帰分析の違いは、説明変数を一つとするか複数にするかの違いです。
 目的とするもの(従属変数、数式ではy)に影響するものが、説明変数(数式ではx)です。

 プロ野球を例に取ると、野球はピッチャーだ、といわれます。そこで、過去数年間について、ピッチャーのチーム防御率だけをXとし(説明変数が単数)、その年の順位をyとして、分析するのが単回帰分析です。
 しかし、いくらピッチャーが良くても、打てなければ勝てません。そこで、バッターの打率も考える必要があります。すなわち、チー...続きを読む


人気Q&Aランキング