計算ソフトによる四分位点の違い・・・？？？

解決済

質問者：BioMedStat
質問日時：2009/09/09 17:32
回答数：6件

同じデータについて、ExcelとJMPを使って四分位点求めると結果が異なります。

（例）1, 2, 3, 4, 5, 6, 7, 8, 9, 10
Excel:第一四分位点 3.25　中央値 5.5　第三分位点 7.75
JMP：第一四分位点 2.75　中央値 5.5　第三分位点 8.25

Excelの結果が正しいと考えますが合っていますでしょうか？
また何故JMPは異なるのかご存知の方いらっしゃいましたらお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (6件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： quaestio
回答日時：2009/09/09 23:41

> Excelの結果が正しいと考えますが合っていますでしょうか？

どちらが正しい間違っているというのではなく、統一された定義がないのです。
WikipediaのPercentile（参考URL）のDefinitionをご覧ください。

Rにも離散分布には3通りの方法が、連続分布には6通りの方法がヘルプに記載されています。
これによるとJMPはSPSSと同じ求め方をしているようですね。

参考URL：http://en.wikipedia.org/wiki/Percentile

- 2
- 件

通報する

この回答へのお礼

ご回答頂きありがとうございます。

そうなのですか…。複数の算出法があるのですね。初めて知りました。
というよりもそのことをあまり皆知らない（私の周りだけかもしれませんが…）にも関わらず、論文などで見る分位点では、特に何の手法によるものなのかの記載がないことに違和感を感じます。

追加の質問で申し訳ないのですが、特に断りが無ければ、どちらかの方法ということになるのでしょうか？（私はExcelでの算出法が一般的だと思っています）

通報する

お礼日時：2009/09/10 09:30

No.6

回答者： quaestio
回答日時：2009/09/16 22:03

> 「特に理由がなければExcelの方法を用いれば良い」

> とのことですが、それは何故なのでしょうか？

ANo.2の参考URLのAlternative methodsにあるように、NISTが進める方法で、多くのソフトウェアがそう計算しているというのでは理由になりませんか？

- 0
- 件

通報する

この回答へのお礼

多くがそうしている、つまり一般的ということですね。

いえ十分理由になると思います。
ある値をみて「こういう値なんだな」と皆が思い、解釈が伝わるのであればそれで良いのだと思います。

ただ、どうしてJMPやその他のソフトが違う四分位点の表現を選択しているのかは気になります…。

疑問・疑問ばかりで申し訳ありません。

分かりやすいご回答ありがとうございました。

通報する

お礼日時：2009/09/17 01:21

No.5

回答者： quaestio
回答日時：2009/09/10 22:15

> 追加の質問で申し訳ないのですが、特に断りが無ければ、どちらかの方法ということになるのでしょうか？（私はExcelでの算出法が一般的だと思っています）

No.3の方も書かれていますが、データ数が多ければどれを使っても問題はないでしょう。
特に理由がなければExcelの方法を用いれば良いと思います。

- 0
- 件

通報する

この回答へのお礼

ご回答ありがとうございます。

「特に理由がなければExcelの方法を用いれば良い」
とのことですが、それは何故なのでしょうか？

通報する

お礼日時：2009/09/16 11:08

No.4

回答者： backs
回答日時：2009/09/10 17:36

>　Rにも離散分布には3通りの方法が、連続分布には6通りの方法がヘルプに記載されています。

なるほど、JMPがSPSSと同じということは：

> quantile(dat, 0.25, type=6)
25%
2.75

とすることでJMPと一致するわけですね。勉強になりました＾＾

- 0
- 件

通報する

この回答へのお礼

やはりどのような四分位点を使うか選択するんですね。

うーん。

通報する

お礼日時：2009/09/16 11:07

No.3

回答者： arrysthmia
回答日時：2009/09/10 11:31

分位点のような記述統計量は、元来、

データ数が多く、特徴的な値を取り出して
眺めないと、全体が把握し難いような
標本に対して使うものです。
データ数が多く、隣接するデータの差が小さい
標本では、定義の不統一から来る
分位点のバラツキは、小さくて気になりません。
今回は、たった10個のデータで四分位点を
求めてみたことが、不適切だったのです。

この回答への補足

ご回答ありがとうございます。

確かにn数が多ければ良いのでしょうが、
臨床試験などでは大規模なものでない限り、
せいぜいn数は100名程度というのが現実のところです。

そのような試験結果についてMann-Whitney U testなどで検定を行ったとき、「あれ？ソフトによって四分位点が違う」となり、その差が目立ってしまいます。

補足日時：2009/09/16 10:56

通報する

- 0
- 件

通報する

No.1

回答者： backs
回答日時：2009/09/09 20:38

この場合はExcelの結果の方が正しいでしょう。

Rでやってもそのようになりますから。

> dat <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
> quantile(dat, 0.25)
25%
3.25
> quantile(dat, 0.75)
75%
7.75

JMPの結果が異なるのはなぜか、JMPを知っている人でも手順を述べない限り答えるのは難しいでしょう。ただし、こんな簡単な機能（計算）をJMPのプログラマが間違えるとも考えにくいので、うかつな間違いを気づかぬうちに犯しているとか・・・

あるいは四分位点を求めるための方法に、何か特別な工夫がなされている・・・なんてことは考えにくいですね(^_^;)