統計初心者です。ANCOVAに関する質問です。

締切済

質問者：天然記念物
質問日時：2024/03/17 09:39
回答数：5件

ある医療系の研究で、仮にA群とB群のBMIを比較したいと思っています。BMIの比較には性別、年齢、既往歴などさまざまな交絡因子が予想され、指導者からANCOVAやロジスティック回帰などを求められています。この場合、目的変数がBMI、説明変数が性別、年齢、既往、AかBか、になるのはなんとなくわかりますが、統計解析で得られた回帰式？が、果たしてA群とB群の比較になるのかがわかりません。
どなたか解説いただけたら大変ありがたいです。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (5件)

最新から表示
回答順に表示

No.5

回答者： kamiyasiro
回答日時：2024/03/20 08:21

No.4です。

No.4は、お互い残差どおしで回帰するのが良いのかなぁ、とも思いました。
すると、偏残差回帰と言って、重回帰と同じ回帰係数が出てきます。
なんか、それでは意味がないですよね。

ただただ、偏残差プロットを見るため、とも考えられます。

指導者の方の意図が読み切れません。

- 0
- 件

通報する

No.4

回答者： kamiyasiro
回答日時：2024/03/18 11:56

No.2です。

No.2の②ロジスティック回帰について、私の考え方がおかしかったので、訂正させて下さい。

No.2の②ロジスティック回帰ですが、A群B群が性別、年齢などと交絡している場合、まずA群B群をそれらの因子でロジスティック回帰します。その残差はそれらの因子の影響を排除した「残りの部分」です。

そこで、その残差とBMIを単回帰すれば良いのではないでしょうか。

その回帰係数が有意であれば、A群B群の切り分けは、性別、年齢によらずBMIの変化に対して意味がある、と言えると思います。

＞回帰結果が果たしてA群とB群の比較になるのかがわかりません。

比較にはなりません。
あなたが線引きしたA群B群（例えば睡眠時間の大小）という名義尺度の回帰係数が有意であれば、睡眠時間がBMIに影響しているということです。
そういう仮説を立てて、研究を行っているのですよね。

もし、調査した集団が小学生と大学生とか、あなたの意思とは関係なく得られた群であれば比較が必要です。
その際は性別、年齢以外の因子を見つけなければなりません。一日のゲーム時間とか、睡眠時間とか、運動量（バイト等の業務を含む）とか・・・。
それが研究です。頑張って下さい。

- 1
- 件

通報する

No.3

回答者： kamiyasiro
回答日時：2024/03/18 03:53

あと、No.1様が用いられた「効果量」は、「effect size」という統計的に定義された語句なので、あのように使うのは宜しくありません。

単に「効果」で良いと思います。

- 0
- 件

通報する

No.2

回答者： kamiyasiro
回答日時：2024/03/18 02:41

①ANCOVA（共分散分析）

BMIに効いている性別、年齢、既往症などの強い支配因子があるとき、通常の回帰分析ではA群B群の効果は変数選択されないと思われます。ANCOVA（共分散分析）は、その効果をはっきりさせるために用いる手段です。
概念図を添付します。

方法は、まずBMIに及ぼす性別、年齢、既往症の回帰モデルを先に作っておき、それを固定します。そこに、名義尺度A群B群を説明変数として加えます。それに伴いフィッティング残差が小さくなります。これを分散分析します。ただし、A群B群が性別、年齢、既往症から影響を受ける場合は使用できません。

②ロジスティック回帰
ロジスティック回帰は、目的変数が二値の場合に用いる回帰ですが、BMIは連続値なので、指導者としては、A群B群を目的変数にすることをお考えなのでしょう。

つまり、A群B群が性別、年齢、既往症などに対して独立ではなく交絡していますと、A群B群がBMIに及ぼす影響をそれらと切り離して観測できません。そこでいったんA群B群を他の因子で回帰して「仮想的な独立変数」に作り変えます。これを「操作変数」と言います。そのうえで操作変数とBMIの回帰を行い、回帰の有意性を検定します。これを操作変数法と言います。

指導者の方は、操作変数法という因果分析を勧めたのであって、ロジスティック回帰はそのステップであると思います。

私は、共分散分析も操作変数法も両方試す価値はあると思います。

あと、標本数が100以上、2～300もあれば、傾向スコア分析を使うという手もあります。

- 0
- 件

通報する

No.1

回答者： stomachman
回答日時：2024/03/17 16:24

実践において重要なところなんで、不完全データの統計解析に関する教科書を探してガッツリ勉強するのが良いと思います。

　ま、概要だけ解説しますと：
　「交絡因子」というのは「A群に入るかB群に入るか」ということと「効果量がいくらであるか」ということとの両方に影響を与えるような因子ですね。で、A群とB群で効果量を比べたい。しかし、これらの群の構成サンプルにはそれぞれ、交絡因子になりそうな「いろんな要因」について違いがある。サンプル数が少ないのでマッチング（両群で「いろんな要因」がほぼ同じサンプルを探してペアにすること）もできない。
　そこで、モデル化をやることにした。たとえば
　　A群の効果量 = f(いろんな要因) + ε
というモデルがA群の効果量をうまく説明できる（すなわち残差εが小さい）のなら、B群の各サンプルについて、それに対応する「「いろんな要因」が同じであるA群の仮想のサンプル」を生成してマッチングできる、という仕掛けです。
　（ただし、たとえば「A群に入るのは体重が大きい人だけ、B群に入るのは体重が小さい人だけ、というルールになっている」なんてことだと、両群を比較しようというのはそもそも無理です。というのは、モデルの f(いろんな要因)を構成するのに使った「いろんな要因」のデータとはかけ離れた値を代入して外挿することによって、仮想のサンプルが生成されることになるわけで、そんなもん、モデルが正しく予想できるはずもありません。）

　さらに「いろんな要因」の影響があまり大きくはないと仮定すると、f(いろんな要因)は「いろんな要因」たちの線型結合（一次式）でソコソコうまくモデル化できるんじゃないだろうか、という期待がある。
　また、効果量が二値（YES/NO)である場合には、連続値を持つ（仮想の）量F（そのサンプルの、効果量と高い相関を持つ特徴を表す量）を
　　F = f(いろんな要因) + ε
で表しておいて、さらに、Fの値によってYESになる確率が決まるようなモデルを当て嵌める（ロジスティック回帰）、という二段構えにする。

　こういうアプローチは、「両群の効果量の差ははっきりしている。その上で、その差が他の要因による見掛けの効果で生じたものではないと言いたい」という場合なら、ま、穏当なやり方でしょう。（「気に入らないサンプルはA群にもB群にも入れずに捨てた」というイカサマをやっていないのなら、ですが。）
　一方、両群の効果量の差がはっきりしないために、いろいろ手を掛けないと違いが出てこないという場合には、結論はうっかり鵜吞みにできない。気に入った結論が出るまで恣意的な「手の掛け方」を試行錯誤で探す「p値seeking」をやったんじゃないの？と疑われてしまうし、どのみち小さな効果量しか出ないんですから、さしたる意義もない。