統計学の直線回帰について質問です(英文)。

締切済

質問者：2w3e4r5t
質問日時：2009/05/24 11:30
回答数：3件

英文で記された以下の統計学的処理についての質問です。
The following groups were tested in linear regression for Y to X:
all animals, all males, all females, all typeA, all typeB, and typeC.
The slopes for type and gender groups were compared by
generalized linear regression.
The assumptions were checked and the following model was fit:

Y～X + gender + type + (gender*X) + (type*X) + (gender*type*X)

The hypothesis of no gender difference in slopes was tested
by the significance of the term “gender*X”,
and the hypothesis of notype difference in slopes was tested
by the significance of “type*X.”

これはタイプA,B,Cのとある動物のオスとメスに関するデータの統計処理の話なのですが、
(イメージとしては白人、黒人、黄色人の男性と女性に関するデータ)
とあるデータYのXに対する相関を、すべての個体群、オスの個体群、メスの個体群、タイプAの個体群、タイプBの個体群、タイプCの個体群内において、
直線回帰(linear regression)で調べた、というのは理解できるのですが、次の一文で、

The slopes for type and gender groups were compared by generalized linear regression.
各タイプ群、各性別群における傾き(回帰直線の傾き!?)は一般線形モデルでテストされた。

とあり、以下、仮説(assumptions)が何やら複雑な線形モデルでチェックされたとありますが、
当方統計学にはあまり詳しくなく、この操作が何を行っているのかわからず、
また、どのような資料を参照すればよいのかもわかりません。
なお、式中の*は、実際には上付き書式になっていました。
さらに、assumptionとhypothesisはどちらも仮設という意味ですが、単なる言い回しでしょうか？
それとも統計学では厳密に区別して使われている言葉なのでしょうか？

以上長文で申し訳ございません、拙い文章と情報量で、解答しにくいかもしれませんが、
分かる範囲で結構ですので、ヒント、アドバイス等よろしくお願い申し上げます。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

最新から表示
回答順に表示

No.3

回答者： ewitqiep
回答日時：2009/05/26 14:14

> "*"の意味は不明です

交互作用項です

- 0
- 件

通報する

No.2

回答者： stomachman
回答日時：2009/05/24 15:18

　generalized linear regressionは「一般線形モデル」じゃなく「一般化された線形回帰」でしょう。

ですが、一体どこがgeneralizedなのかよく分からない。ただの線形回帰にしか見えんのだけど。引用なさった所より前にも、もっと簡単な線形回帰が出てくるようなら、「それに比べて一般化された…」という意味なのかも知れませんし、あるいはもしかすると、(type*gender)などの交互作用の項を含めたことを言ってるのかも。
　ともあれこれは「何やら複雑な線形モデル」というほどのものではない。個体jに関するデータX(j)（これが何だかは書いてありません）をこのモデルに代入したときに、データY(j)（これが何だかも書いてありません）の予想値が得られるただの線形モデル(一次式）です。ただし、式の係数はまだ未知です。また、slopeは、モデルの各項に掛かっている係数(coefficient)のことを指している。（「傾き」と訳さないほうが良いでしょう。「genderがYに与える影響の傾き」なんて意味不明になってしまうから。）ただし、引用なさった式には係数が書いてない。ナント省略されているようで、ちょっと信じがたいが。

　一般に、回帰分析(regression analysis)では、データ＜X(j),Y(j)＞(j=1,2,....,N)を使ってこれらの係数の値を最適に決める、「当て嵌め(fitting)」という計算をします。ここで「最適に」というのは、「どの個体jについても、データX(j)をこのモデルに代入したときに出てくる予想値y(j)（つまり右辺）が、データY(j)（つまり左辺）になるべく合うように」ということです。fittingで算出した各項の係数(slope)は、その項の表す要因がYにどれだけ寄与しているかという影響の強さを表します。

　引用なさった式から考えると「…個体群内において、直線回帰(linear regression)で調べた」のではないでしょう。この線形モデルに全部のデータをいっぺんに突っ込んで、fittingをやって各項の係数slopesを算出したはずです。

　genderの違いの影響を見るにはたとえば「個体jがmaleならgender(j)=0, femaleならgender(j)=1 」と決めて、これを使った項を
y(j) = … + k gender(j) + …
のようにモデルに入れ、その係数kをfittingで決めればいい。だけど、typeは3種類あるからそうはいきません。「個体jがtype Aならtype(j)=0, Bならtyep(j)=1」としたって、type Cにどんな数値を対応させりゃいいのかが決まらないからです。（モデルに「個体jがtypeAに属するとき1、さもなければ0」となる項と、「個体jがtypeBに属するとき1、さもなければ0」となる項を両方入れておけば、この問題は生じません。）
　でも、どうもこのイーカゲンな式の書き方を見てると、個体jがtype Aならtype(j)=0, Bならtyep(j)=1, Cならtype(j)=2、みたいなことをやってるような気がする。もちろん、「type Aを基準として測ったYへの影響の強さは、type Cはtype Bの2倍だ」と言える根拠があればそれで正しいのですけど、その根拠が「赤くてツノが生えてるから」なんてのじゃ駄目で（しかもそれ3倍だろ）、予め検証されていなくちゃいけない。ですが、そんなことやってあるとはちょっと思えないんで、するとtype(j)の値はもう、カンで与えたことになっています。なので、このモデルは定性的なものに過ぎないことになります。
　なお、
> 式中の*は、実際には上付き書式になっていました。
と仰るから、もしかすると「gender* とは上記のgender(j)のこと？」とも思ったんですが、だとすると、
Y～X + gender* + type* + …
になってなきゃおかしいんで、"*"の意味は不明です。

　式からすると、The slopes for type and gender groups were compared by generalized linear regression.は「各タイプ群、各性別群における傾き(回帰直線の傾き!?)は一般線形モデルでテストされた」ということではなくて、typeやgenderやtype*genderの各項のslopeを指しているんじゃないでしょうか。なお、generalized linear regressionは「compared by」（比較の手段）ではありえないから、「by」は文全体に掛かっていると思う。すると、「generalized linear regressionを使って、type および gender groups（に依存する効果をあらわす各項)のslopes(を計算して、それぞれの項のslopes）を比較した。」というほどの意味でしょう。ただ、「比較」として実際に何をしたのかは（引用なさった部分だけからは）不明です。
　
　The assumptions were checked and the following model was fit:におけるThe assumptionsは要するに「モデルは妥当だ（YはこのモデルにXを入れればソコソコの精度で予測できる）」という作業仮設を指していると思われ、定冠詞が付く以上は既出のはずですが、引用なさった中にはないようです。"checked"は曖昧だけど、モデルの予測がどのぐらいデータYと合うかを調べた、というほどの意味でしょう。具体的にはモデルの予測y(j)と実測値Y(j)との関係に関する統計量、たとえば残差二乗和Σ((y(j)-Y(j))^2)だとか、Y(j)とy(j)との相関係数などを調べるんです。（どこか他の所にその結果が書いてあるんでは？）ともあれ「このモデルは妥当だ。他の要因は（あってもYへの寄与がうんと小さく、）ランダムなノイズだと思って無視して良い。」とひとまず判断した（そうしないと先に進めない）。しかし、この判断はfactとまでは言えない。これがassumptionsの指している内容でしょう。

　The hypothesis of no gender difference in slopes was tested by the significance of the term “gender*X”におけるhypothesisは、統計学で言うnull hypothesisを意味します。
　帰無仮説(null hypothesis)「gender*XはYに影響を及ぼさない」を検定(test)する話です。この帰無仮説から「モデルにおいて、ノイズの影響さえなければ、gender*X の項の係数は0である」ことになり、だから実際に計算したslopeの値(0でない）がランダムなノイズによって偶然生じた見かけ上のものなのか、あるいは本当に有意に「0じゃない」と言えるものなのか、を検定する。そのためには「slopeがノイズのせいで偶然こんな値になる確率p」を計算するんです。この計算には、"check"のところで述べた、モデルと実測値とのずれに関する統計量が必要になります。
　その結果、仮に「確率pは非常に小さい値なので、slopeが0でないのは偶然ではないと考えられる」ということになると、hypothesisが否定(棄却)され、従って、「gender*XはYに影響を及ぼす」と結論できます。一方、「確率pは結構大きな値であり、slopeが0でないのは見かけ上のことかも知れない」となると、帰無仮説は否定できない。けれども肯定することもできない。そこで「この調査ではgender*XがYに影響を及ぼすかどうかは分からなかった」というのが結論になります。
　しかし変だな。この文の前半では、帰無仮説 no gender difference すなわち「genderはYに影響を及ぼさない」を検定すると言っているんです。だったら、term “gender*X”だけじゃなくて、term “gender”の係数も見なくちゃいけません。ふつーに考えれば後者の方が重要じゃないでしょうか。なぜこれに言及しない？

　ってわけで、なんだか全体にちょっと怪しい雰囲気を感じるんですが。

- 0
- 件

通報する

No.1

回答者： backs
回答日時：2009/05/24 12:56

> The slopes for type and gender groups were compared by generalized linear regression.

slopeはおっしゃるとおり、偏回帰係数のことでしょう。typeはA, B, Cという3つの水準をもったカテゴリカル型の変数ですね。genderはmale, femaleという2つの水準をもったカテゴリカル型変数。

意味としては「typeとgenderの効果を調べた」ということです。例えば、genderが有意であれば、応答変数Yの変動をうまく説明している変数だということです。言い換えれば、性別によって平均値が違うということです。

ちなみに、Generalized Liner Modelは「一般化線形モデル」と訳されます。一般線形モデルはGeneral Liner Modelです。

>　assumptionとhypothesisはどちらも仮設という意味ですが、単なる言い回しでしょうか？

統計学において、仮説というのは「統計的仮説検定」の概念である帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)のことを指します。単にhypothesisという場合は帰無仮説のことをいっていることが多いです。

それに対してassumptionは「仮定」という意味で使われます。例えば、The t test assumes that come from populations with equal SDs.「標準偏差の等しい母集団から抽出されたものと仮定したt検定」というように。

>　式中の*は、実際には上付き書式になっていました。

とすると、gender*Xはgender^X、gender*type*Xは(gender*type)^XというX乗のモデルを解析したということなんでしょうかね。。。　となると、これは累乗モデルであることを意味していますね。でも非線形とはどこにも書いていないのだから違うのかな？

結果としてgender*Xとtype*Xの項が有意であったことは分かりますが、Xという変数が何なのか私には分かりませんね(^_^;)