ノンパラメトリック検定の多重比較後の有意差を示すアルファベットの付け方

受付中

質問者：さぼ3
質問日時：2024/06/18 19:54
回答数：9件

連続変数についてノンパラメトリック検定の多重比較（steel-dwass）を行った場合の優位差を示すアルファベットの付け方を教えて下さい。

連続変数のパラメトリックな検定の場合は、平均値の大きい順に並べ、以下のサイトに示すような方法でアルファベットがつけられるかと思います。
https://hymd3a.hatenablog.com/entry/2021/05/06/1 …

steel-dwassの場合、中央値の大きい順に並べ、後は上記と同じ考え方でアルファベットをつけるという考え方であっていますか？

ご回答ありがとうございます。
検定対象は、名義尺度や順序尺度ではなく、長さなどの連続変数（比率尺度？）の場合が知りたいです。

分野や人によって、統計は考え方が異なるので、もしかしたら回答者さまの分野ではナンセンスな可能性があるかもしれませんが、私の専攻分野（自然科学系）での場合としてお答えさせて頂きます。

正規分布、等分散が確認されるデータの場合には、tukeyなどの多重比較をし、リンク先のような考え方でアルファベットをつけるのは、一つの方法として一般的かと思います。どの水準間に差があるかを図示する考え方で間違えはないと思います。

私が知りたいのは、連続変数のデータが正規分布でなく、変換をしても正規分布に近づけなかった場合に、ノンパラメトリック検定を行った場合の多重比較後のアルファベットの付け方です。

No.1の回答に寄せられた補足コメントです。補足日時：2024/06/19 09:38
通報する
詳細なご回答ありがとうございます。
おそらく分野が違うとかなり考え方、表記の仕方が違うようです。
アルファベットでどこに有意差（優位差は単なる記述ミスです。すみません。）があるかを示すのは、私の分野の論文などで普通に行われることなのですが、分野が違うとこんなにも伝わらないのかと驚愕しております。
ありがとうございます。

No.2の回答に寄せられた補足コメントです。補足日時：2024/06/19 12:50
通報する
多重比較は、総当たりで行う場合であっております。
アルファベットは、連続変数のパラメトリックな検定の場合には、どのグループとどのグループの平均値等に差があるかを示す記号になりますが、私の分野では普通に使われる表記でして、分野が違うと簡単には伝わらないのかと驚いております。
ご回答ありがとうございました。

No.3の回答に寄せられた補足コメントです。補足日時：2024/06/19 13:03
通報する

通報する

質問の本文を隠す

画像を添付する（ファイルサイズ：10MB以内、ファイル形式：JPG/GIF/PNG）
今の自分の気分スタンプを選ぼう！

あと4000文字

回答を確認する

回答 (9件)

最新から表示
回答順に表示

No.9

回答者： kamiyasiro
回答日時：2024/06/20 18:41

stomachman様

No.4の意図は、「危険だよ」ということだったんですね。

- 0
- 件

通報する

No.8

回答者： stomachman
回答日時：2024/06/20 17:53

No.4では（No.6, 7と同様）添える記号が同じであることを「"同じグループ"的なものを表す印なのかな」と思ったので、そんなの役に立たないばかりか危険だよ、とコメントしたんですが、No.4への質問者氏のコメントで納得し、No.5の回答となりました。

　…というのはさておき、手持ちの資料をいろいろ見てますが、「アルファベットを付け」ているものはまだ見つからんです。何の分野なんでしょうかね。

- 0
- 件

通報する

No.7

回答者： kamiyasiro
回答日時：2024/06/20 11:52

同じグループだと言うのは検定上ルール違反なので、差があるグループを見つけるという議論だとしましょう。

１区から５区まで少しの差で並んでいるとき、隣同士と比較する今の方法だと連続併合が起きます。

クラスター分析では、「生成されたグループの平均」との比較を行いますが、それでも連続併合が起きるので、ウォード法という１対比較が導入されました。

リンクされたHPの方法は、１区と５区まで少しの差で並んでいるとき、１区から併合を始めると全てａグループになるのに、１区と５区は大きく異なる、という事態が起きます。
この事態への対処としてacとかいう新たなグループ作りで対処していますが、それは危険です。
なぜなら５区から併合を始めると、違う結果が生じるからです。

つまり、総当たりだけでは不足で、１２３区と４５区の差の検定とか、考えられる全ての切り分け方の検定が必要になるのです。

リンクされたHPは、それを怠っています。

- 0
- 件

通報する

No.6

回答者： kamiyasiro
回答日時：2024/06/20 11:24

＞どのグループとどのグループの平均値等に差があるか

やはり、群間の比較なんですね。
「長さなどの連続変数（比率尺度？）の場合」の比較って何なのか理解に苦しみましたよ。

さて、
aと同じグループでも、その端っこのものは、bグループにも入るということが起きるので、どのサンプルをaグループの主とするかでそれぞれの所属グループが違ってきますね。

主との比較にしないと、境界が曖昧になります。

両方に入るものは、abとかいう新たなグループを作っているようですが、それは、端っこどおしというか、異端どおしというか、aやbとはギリギリ「差があるとは言えない」というものですよね。

そもそも、帰無仮説とは採択されるものではなく保留されるものであり、保留されたとしても「同等である」とは言えないのに「同じグループである」と言っていることに、大いに違和感を感じます。

分野が違うと、検定の解釈にも違いが出るのでしょうか？

本来、「同じグループ」と見なすには、「差がある」ことを帰無仮説にして積極的にそれを否定しに行かなければなりません。同等性の検定と言います。

- 0
- 件

通報する

No.5

回答者： stomachman
回答日時：2024/06/19 17:11

No.4へのコメントについて。

> 異なる異文字間には、有意差があることを示し、同じ文字が入るもの同士には有意差がない

　なるほど、そういう意味ですか。「異文字」ってのは、2文字くっついていた場合には1文字ごとにバラして考えるんでしょうね。（そうだとしてもやはり、繰り返し申し上げている通り、「有意差の有無をどうやって判定したか」という事情なんぞは全く無関係であるには違いない。なので、ご質問の趣旨がどうにも納得いかないということには変わりありませんが。）

　例えばNo.2にある束のグラフでやってみますと、とりあえずは矢印をたどって繋がっている経路を調べた上で、
　　　1区と2区をつなぐ経路がないので、両者には同じ文字"a"が入る
　　　3区と4区をつなぐ経路がないので、同じ文字"b"が入る。
　　　3区と5区をつなぐ経路がないので、同じ文字"c"が入る。
　　　4区と5区をつなぐ経路がないので、同じ文字"d"が入る。
　　　2区と3区をつなぐ経路がないので、同じ文字"e"が入る。
とやると、
　　　1区は"a"だけに関わるから、「1区(a)」
　　　2区は"a"と"e"だけに関わるから、「2区(ae)」
　　　3区は"b"と"c"と"e"だけに関わるから、「3区(bce)」
　　　4区は"b"と"d"だけに関わるから、「4区(bd)」
　　　5区は"c"と"d"だけに関わるから、「5区(cd)」
と記号をつければ、ご質問の条件は満たしているんじゃないかしらん。

　ところがこれを
　　　1区と2区をつなぐ経路がないので、両者には同じ文字"a"が入る。
　　　2区と3区をつなぐ経路がないので、両者には同じ文字"e"が入る。
　　　3区と4区と5区には互いをつなぐ経路がないので、これらには同じ文字"x"が入る。
と整理し直せば
　　　1区は"a"だけに関わるから、「1区(a)」
　　　2区は"a"と"e"だけに関わるから、「2区(ae)」
　　　3区は"x"と"e"だけに関わるから、「3区(ex)」
　　　4区は"x"だけに関わるから、「4区(x)」
　　　5区は"x"だけに関わるから、「5区(x)」
という風に文字の種類を節約できる。

で、「どうやれば最も少ない種類の文字で済ませられるか」という数学（グラフ理論）のアルゴリズムの問題だと思えばいいのかしらん。言い直すと

　有向グラフのnode全部の集合が「nodeの部分集合 Xであって、Xのどの二つの要素の間にも経路がないようなもの」の和になっていて、かつ、それらの部分集合の個数が最小であるような、部分集合族を構成せよ。

　この例の場合なら、{{1区,2区}, {1区,3区}, {3区,4区,5区}}が答になり、同じ部分集合に属する要素には同じ記号（それぞれ"a","e","x"）が付く。…と、そういう話なのかしらん？

- 0
- 件

通報する

No.4

回答者： stomachman
回答日時：2024/06/19 13:36

> アルファベットでどこに有意差（優位差は単なる記述ミスです。

すみません。）があるかを示すのは、私の分野の論文などで普通に行われること

（私の知る範囲の「自然科学系」では見たことないですが、ま）そうであるんなら、その「アルファベット」の読み方もよくご存知のはず。ならば、その読み方で読んだときに適切になるように「アルファベット」をつければ良いだけの話でしょう。その際には、もちろん（戦績表の場合と同様に）「有意差がある」ことを示すのに使った方法がどうであるかは、（どれも同じ方法でありさえすれば）まるで関係ない。
　…となると、ご質問の意図がわからんですね。

　もっとも、そういう「符号」から一体何が読み取れてどう役に立つんだか、ちょっと想像がつきません。かのblogを見た限りでは、例えば5区と4区に同じ符号が付くと言うんですから、符号は誤解の元（せいぜい強弁の材料）になる以外には意味がなさそうな気がします。

- 0
- 件

通報する

この回答へのお礼

もしかしたら、私の専攻分野が特殊なのかもしれません。確かに、私も他の分野（それでも近しい分野）を専攻していたときは、アルファベットで有意差を示すのを見たことがなかった気がします。
異なる異文字間には、有意差があることを示し、同じ文字が入るもの同士には有意差がないことを示します。グラフや表にアルファベットを付して、どの群同士に有意差があるかを示す方法です。
分野が違うと学術論文の当たり前が違うということで、それぞれの分野の先人達が築いた表記の仕方かと思います。

通報する

お礼日時：2024/06/19 14:43

No.3

回答者： kamiyasiro
回答日時：2024/06/19 11:53

検定の一つ一つは介入群（treat）と対照群（control）とが対象ですよね。

介入群、対照群が正規分布ではないため、ノンパラで行っているのかと。

多重比較は、総当たりで行われているかと・・・。

アルファベットはその各群間の関連の強さに応じて付ける仮のグループ名ではないのですか？

群が名義尺度ではなく、連続値というところが分かりません。

ごめんなさい。お手上げです。

- 0
- 件

通報する

No.2

回答者： stomachman
回答日時：2024/06/19 11:19

そもそも「優位差」なんて用語はない。

（「優位」や「優劣」や「有意差」ならあるけど。）なので「優位差を示すアルファベットの付け方」なるものは、リンク先の著者が勝手に思いついた用語や記法の話に違いない。それだけじゃ意味が分からんので、リンク先を眺めてみました。
　まずは「対照区と比べて有意な差のある範囲をグラフに示したら」が何言ってんだかはっきりしない。そう「示したら」さて一体何がどう嬉しいと言うんだろうか？　さらに「アルファベット(符号)」を付けることでどんな情報を表そうとしていて、どんなご利益があるんだか、こちらもさっぱり分からんですね。符号の用途はどうやら「グラフや別の表に記載する」ということらしいが、それがどういう状況でのどんな目的においてどう使うとどう嬉しいという話なのかも不明。
　つまりこのblogは単なる私的な備忘録に過ぎず、論理的に意味のある文章（ヒトサマに読ませる文章）にはなっていない。ですから、「合ってる」かと尋ねること自体がナンセンスです。（どうしても尋ねるのなら、このblogの著者に訊いてみろ、ってことです。）「アルファベット」を付けてみたところで、誰にも通じないんで無意味（それどころか、「何だこの変な記号？」と問い質されて、答に窮するのは結局ご自分）だからです。

　ところで、blogに「一覧表にした方が良いとの意見もあることは重々承知」と書いてあるのは、おそらくblogの"3"のテーブルのことなのだろう。このテーブルはスポーツのリーグ戦（総当たり戦）の戦績表とよく似ている。5つのチーム（"チーム1区"から"チーム5区"まで）が戦って、＊が入っているマス目は、例えば「"チーム5区"は"チーム1区"に勝った」ということを表し、何も書いてないマス目は例えば「"チーム2区"は"チーム1区"と引き分けた」を表す、と思えばそっくりでしょ。こういう戦績表は野球だろうが将棋だろうがどんな種類の試合かには関係なく作れる。言い換えれば、戦績表を眺めるにあたって、"チーム1区"なるものがどういうシロモノなのか、「勝つ」というのが何がどうなったことを意味しているのか、などはまるで気にする必要がない。だから、勝敗（優劣）が「有意差があること」で決まるという事情はどうでもいいことで、まして、それが連続変数なのかどうか、どんな検定法を使うか、それがパラメトリックなのかどうか、なんて話は全く無視してよろしい。
　ただ、スポーツの戦績表とは際立った違いがある。それは「推移律」が成り立つこと。すなわち「AがBに勝ち、BがCに勝つ」のであれば、試合（検定）をするまでもなく「AがCに勝つ」と決まるという性質がある。（スポーツの試合だと、これは言えない。）この性質を持つ「XがYに勝つ」という関係を数学の用語では「半順序関係(semi-order relationship) 」と呼びます。（集合同士の包含関係 Y⊂Xは、半順序関係の一例。）

　さて、比較的少数の対象の間にある半順序関係を可視化する典型的なやり方は、directed graph（有向グラフ）である「Hasse図」を描くこと。（ただし、ここで言う「グラフ」は数学の用語であり、折れ線グラフとか棒グラフとかの「グラフ」とは全く関係ありませんのでご注意。）どうやるかと言いますと：
● 仮想的に「すべてのチームに勝つ最強チーム」と「すべてのチームに負ける最弱チーム」を追加して考える。こうすると、lattice（束, ソク）という数学的構造になる。束にしておくと、全チームの部分集合S（いくつかのチームを選んだもの）に対して、「Sの構成員のいずれにも勝つ奴はどれか」、「Sの構成員のいずれにも負ける奴はどれか」という問いが必ず答を持つようになって、ナニカと便利である。
●各チームをnode（節点, ノード）で表す。そして
●「XがYに勝つ」をnode Yからnode Xへ向かう矢印で表す。ただし、推移則で導ける矢印は削除する。すなわち、A→B, B→Cの矢印があるとき、A→Cの矢印は描かない。

　並べ方のルールはこれだけなのだが、さらに例えば
● nodeの上下の配置は数値（それが何を意味するかはどうでもいい）の順になるように並べる（左右の配置はテキトーに見やすくなるようにする）
と、矢印がどれも上向きになって、優劣の関係が直感的にわかる。この図には「1区が最弱とは言えない」とか「5区が最強とは言えない」という情報も表現される。というわけで、blogにある関係をHasse図にすると添付図のような感じ。加えて、それぞれの矢印にp値を添えておけば、検定結果の総まとめの図として万全でしょう。

- 0
- 件

通報する

No.1

回答者： kamiyasiro
回答日時：2024/06/19 07:41

検定対象が名義尺度の場合を言ってみえますか？

まず、リンク先の方法は、ひゃまださんという方の個人的見解ではないでしょうか。参考文献もありませんし。

さらに、有意差（×優位差）の図示ではなく、グループ分けしたように思います。対照区がどこかも示されていません。

さらにさらに、この１区２区というのは、順序尺度ではないですねぇ。一見そう見えますが・・・。
ですから、平均値の順に並べ順序尺度的に図示するこの図は間違っていると言えます。
どの水準間に差があるか、という図示方法になっているからです。

しかし、検定は全てのペアで行われています。だから名義尺度であると分かるのですが、名義尺度であればボルツマンマシンのような図にすべきだと思います。