プロが教えるわが家の防犯対策術!

同じデータについて、ExcelとJMPを使って四分位点求めると結果が異なります。

(例)1, 2, 3, 4, 5, 6, 7, 8, 9, 10
Excel:第一四分位点 3.25 中央値 5.5 第三分位点 7.75
JMP:第一四分位点 2.75 中央値 5.5 第三分位点 8.25

Excelの結果が正しいと考えますが合っていますでしょうか?
また何故JMPは異なるのかご存知の方いらっしゃいましたらお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (6件)

> Excelの結果が正しいと考えますが合っていますでしょうか?



どちらが正しい間違っているというのではなく、統一された定義がないのです。
WikipediaのPercentile(参考URL)のDefinitionをご覧ください。

Rにも離散分布には3通りの方法が、連続分布には6通りの方法がヘルプに記載されています。
これによるとJMPはSPSSと同じ求め方をしているようですね。

参考URL:http://en.wikipedia.org/wiki/Percentile
    • good
    • 2
この回答へのお礼

ご回答頂きありがとうございます。

そうなのですか…。複数の算出法があるのですね。初めて知りました。
というよりもそのことをあまり皆知らない(私の周りだけかもしれませんが…)にも関わらず、論文などで見る分位点では、特に何の手法によるものなのかの記載がないことに違和感を感じます。

追加の質問で申し訳ないのですが、特に断りが無ければ、どちらかの方法ということになるのでしょうか?(私はExcelでの算出法が一般的だと思っています)

お礼日時:2009/09/10 09:30

> 「特に理由がなければExcelの方法を用いれば良い」


> とのことですが、それは何故なのでしょうか?

ANo.2の参考URLのAlternative methodsにあるように、NISTが進める方法で、多くのソフトウェアがそう計算しているというのでは理由になりませんか?
    • good
    • 0
この回答へのお礼

多くがそうしている、つまり一般的ということですね。

いえ十分理由になると思います。
ある値をみて「こういう値なんだな」と皆が思い、解釈が伝わるのであればそれで良いのだと思います。

ただ、どうしてJMPやその他のソフトが違う四分位点の表現を選択しているのかは気になります…。

疑問・疑問ばかりで申し訳ありません。

分かりやすいご回答ありがとうございました。

お礼日時:2009/09/17 01:21

> 追加の質問で申し訳ないのですが、特に断りが無ければ、どちらかの方法ということになるのでしょうか?(私はExcelでの算出法が一般的だと思っています)



No.3の方も書かれていますが、データ数が多ければどれを使っても問題はないでしょう。
特に理由がなければExcelの方法を用いれば良いと思います。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

「特に理由がなければExcelの方法を用いれば良い」
とのことですが、それは何故なのでしょうか?

お礼日時:2009/09/16 11:08

> Rにも離散分布には3通りの方法が、連続分布には6通りの方法がヘルプに記載されています。



なるほど、JMPがSPSSと同じということは:

> quantile(dat, 0.25, type=6)
25%
2.75

とすることでJMPと一致するわけですね。勉強になりました^^
    • good
    • 0
この回答へのお礼

やはりどのような四分位点を使うか選択するんですね。

うーん。

お礼日時:2009/09/16 11:07

分位点のような記述統計量は、元来、


データ数が多く、特徴的な値を取り出して
眺めないと、全体が把握し難いような
標本に対して使うものです。
データ数が多く、隣接するデータの差が小さい
標本では、定義の不統一から来る
分位点のバラツキは、小さくて気になりません。
今回は、たった10個のデータで四分位点を
求めてみたことが、不適切だったのです。

この回答への補足

ご回答ありがとうございます。

確かにn数が多ければ良いのでしょうが、
臨床試験などでは大規模なものでない限り、
せいぜいn数は100名程度というのが現実のところです。

そのような試験結果についてMann-Whitney U testなどで検定を行ったとき、「あれ?ソフトによって四分位点が違う」となり、その差が目立ってしまいます。

補足日時:2009/09/16 10:56
    • good
    • 0

この場合はExcelの結果の方が正しいでしょう。

Rでやってもそのようになりますから。

> dat <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
> quantile(dat, 0.25)
25%
3.25
> quantile(dat, 0.75)
75%
7.75

JMPの結果が異なるのはなぜか、JMPを知っている人でも手順を述べない限り答えるのは難しいでしょう。ただし、こんな簡単な機能(計算)をJMPのプログラマが間違えるとも考えにくいので、うかつな間違いを気づかぬうちに犯しているとか・・・

あるいは四分位点を求めるための方法に、何か特別な工夫がなされている・・・なんてことは考えにくいですね(^_^;)
    • good
    • 0
この回答へのお礼

早速のご回答ありがとうございます。

わざわざ計算して頂きありがとうございました。

今までExcelの方で算出された中央値、四分位点を使っていましたので、少し安心いたしました。

お礼日時:2009/09/10 09:33

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

QMann-WhitneyのU検定をspss統計ソフトを用いて出た語句について教えて下さい

統計についてはまったくの初心者で意味がわかりません。

こちらで回答されているのを見ていたのですが、よくわからないので質問させていただきました。

論文を提出するのに、Mann-Whitneyの検定を用いるのは上司より指導いただき
わかったのですが、ソフトで出た語句について説明できません。

『平均ランク』と『順位和』はどういうふうに理解したらよいのでしょうか??
その二つが出ることにより何を意味するのでしょうか??

       人数  平均ランク  順位和
グループA  15 ___ 32.17___ 482.50
グループB  26 ___ 14.56___ 378.50
合計     41
Mann-Whitneyの検定 p=0.000

論文提出の期限が迫っており大変困ってます。
すみませんが、回答宜しくお願いします。

Aベストアンサー

急いでいるようなので簡単に

それぞれの人に全体としての順位をつけ、

それぞれのグループに含まれる人の
 順位の平均が平均ランク、
 順位の和が順位和
です。

※ 1~41までの順位なので和は861になります。
  482.5+378.5=861
  482.5/15=32.17
  378.5/26=14.56
  です。
※ 同順位のデータがあったときの順位の取り扱いは
  統計ソフトのマニュアルでも見て下さい。

QT検定とMann-WhitneyのU検定の使い分け

ある2郡間の平均値において、統計的に有意な差があるかどうか検定したいです。ちなみに、対応のない2郡間での検定です。

T検定を行うには、ある程度のサンプル数(20以上程度?)があった方が良く、サンプル数が少ない場合には、Mann-WhitneyのU検定を行うのが良いと聞いたのですが、それは正しいのでしょうか?
また、それが正しい場合には実際にどの程度のサンプル数しかない時にはMann-WhitneyのU検定を行った方がよろしいのでしょうか?
例えば、サンプル数が10未満の場合はどうしたらよろしいのでしょうか?

また、T検定を使用するためには、正規分布に従っている必要があるとのことですが、毎回正規分布に従っているか検定する必要があるということでしょうか?その場合には、コルモゴルフ・スミノルフ検定というものでよろしいのでしょうか?

それから、ノンパラメトリックな方法として、Wilcoxonの符号化順位検定というものもあると思いますが、これも使う候補に入るのでしょうか。

統計についてかなり無知です、よろしくお願いします。

Aベストアンサー

結局ですね、適切な検定というのは適切なp値が得られるということなんですよ。適切なp値というのは第1種の過誤と第2種の過誤をなるべく低くするようにする方法を選ぶということなのですね。

従来どおりの教科書には「事前検定をし、正規性と等分散性を仮定できたら、、、」と書いていありますが、そもそも事前検定をする必要はないというのが例のページの話なのです。どちらが正しいかというと、どちらも正しいのです。だから、ある研究者はマンホイットニーのU検定を行うべきだというかもしれませんし、私のようにいかなる場合においてもウェルチの検定を行う方がよいという者もいるということです。

ややこしく感じるかもしれませんが、もっと参考書を色々と読んで分析をしていくうちにこういった内容もしっくり来るようになると思います。

QSPSS17で二項ロジスティック回帰分析を行うには

SPSS統計に関する基礎的な質問です。

SPSSを使って二項ロジスティック回帰分析を行う方法として、「分析」→「回帰」→「二項ロジスティック」を選択するとネットで調べました。
以前使っていたSPSS12ではこのやり方で二項ロジスティックの変数増加法、尤度比で解析していたのですが、SPSS17でやってみたところ、同じようにできず困っています。
SPSS17では「分析」→「回帰」を開くと、「線形」、「曲線推定」、「偏相関最少2乗法」、「順序」の4つしかなく、あちこち探ってみたのですが結局分からずじまいでした。
急いで解析しなければいけないデータがあり、また、SPSS12はもう使えない状況であるため、なんとかSPSS17で対応していかねばと思っております。

どうぞ具体的なやり方をご存じの方がいましたら、ご指南いただけないでしょうか。
宜しくお願いいたします。

Aベストアンサー

SPSSのRegressionアドオンはインストール(購入)されておりますか?

バージョン19でも「分析」―「回帰」―「二項ロジスティック」という手順になっているので,Regressionがインストールされていればver17でも同じやり方でできるのではないかと思います。

※参照URLはIBM SPSS Regressionの紹介ページです。

参考URL:http://www-06.ibm.com/software/jp/analytics/spss/store/stats/pasw_reg.html


人気Q&Aランキング