英文で記された以下の統計学的処理についての質問です。
The following groups were tested in linear regression for Y to X:
all animals, all males, all females, all typeA, all typeB, and typeC.
The slopes for type and gender groups were compared by
generalized linear regression.
The assumptions were checked and the following model was fit:
Y~X + gender + type + (gender*X) + (type*X) + (gender*type*X)
The hypothesis of no gender difference in slopes was tested
by the significance of the term “gender*X”,
and the hypothesis of notype difference in slopes was tested
by the significance of “type*X.”
これはタイプA,B,Cのとある動物のオスとメスに関するデータの統計処理の話なのですが、
(イメージとしては白人、黒人、黄色人の男性と女性に関するデータ)
とあるデータYのXに対する相関を、すべての個体群、オスの個体群、メスの個体群、タイプAの個体群、タイプBの個体群、タイプCの個体群内において、
直線回帰(linear regression)で調べた、というのは理解できるのですが、次の一文で、
The slopes for type and gender groups were compared by generalized linear regression.
各タイプ群、各性別群における傾き(回帰直線の傾き!?)は一般線形モデルでテストされた。
とあり、以下、仮説(assumptions)が何やら複雑な線形モデルでチェックされたとありますが、
当方統計学にはあまり詳しくなく、この操作が何を行っているのかわからず、
また、どのような資料を参照すればよいのかもわかりません。
なお、式中の*は、実際には上付き書式になっていました。
さらに、assumptionとhypothesisはどちらも仮設という意味ですが、単なる言い回しでしょうか?
それとも統計学では厳密に区別して使われている言葉なのでしょうか?
以上長文で申し訳ございません、拙い文章と情報量で、解答しにくいかもしれませんが、
分かる範囲で結構ですので、ヒント、アドバイス等よろしくお願い申し上げます。
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.2
- 回答日時:
generalized linear regressionは「一般線形モデル」じゃなく「一般化された線形回帰」でしょう。
ですが、一体どこがgeneralizedなのかよく分からない。ただの線形回帰にしか見えんのだけど。引用なさった所より前にも、もっと簡単な線形回帰が出てくるようなら、「それに比べて一般化された…」という意味なのかも知れませんし、あるいはもしかすると、(type*gender)などの交互作用の項を含めたことを言ってるのかも。ともあれこれは「何やら複雑な線形モデル」というほどのものではない。個体jに関するデータX(j)(これが何だかは書いてありません)をこのモデルに代入したときに、データY(j)(これが何だかも書いてありません)の予想値が得られるただの線形モデル(一次式)です。ただし、式の係数はまだ未知です。また、slopeは、モデルの各項に掛かっている係数(coefficient)のことを指している。(「傾き」と訳さないほうが良いでしょう。「genderがYに与える影響の傾き」なんて意味不明になってしまうから。)ただし、引用なさった式には係数が書いてない。ナント省略されているようで、ちょっと信じがたいが。
一般に、回帰分析(regression analysis)では、データ<X(j),Y(j)>(j=1,2,....,N)を使ってこれらの係数の値を最適に決める、「当て嵌め(fitting)」という計算をします。ここで「最適に」というのは、「どの個体jについても、データX(j)をこのモデルに代入したときに出てくる予想値y(j)(つまり右辺)が、データY(j)(つまり左辺)になるべく合うように」ということです。fittingで算出した各項の係数(slope)は、その項の表す要因がYにどれだけ寄与しているかという影響の強さを表します。
引用なさった式から考えると「…個体群内において、直線回帰(linear regression)で調べた」のではないでしょう。この線形モデルに全部のデータをいっぺんに突っ込んで、fittingをやって各項の係数slopesを算出したはずです。
genderの違いの影響を見るにはたとえば 「個体jがmaleならgender(j)=0, femaleならgender(j)=1 」と決めて、これを使った項を
y(j) = … + k gender(j) + …
のようにモデルに入れ、その係数kをfittingで決めればいい。だけど、typeは3種類あるからそうはいきません。「個体jがtype Aならtype(j)=0, Bならtyep(j)=1」としたって、type Cにどんな数値を対応させりゃいいのかが決まらないからです。(モデルに「個体jがtypeAに属するとき1、さもなければ0」となる項と、「個体jがtypeBに属するとき1、さもなければ0」となる項を両方入れておけば、この問題は生じません。)
でも、どうもこのイーカゲンな式の書き方を見てると、個体jがtype Aならtype(j)=0, Bならtyep(j)=1, Cならtype(j)=2、みたいなことをやってるような気がする。もちろん、「type Aを基準として測ったYへの影響の強さは、type Cはtype Bの2倍だ」と言える根拠があればそれで正しいのですけど、その根拠が「赤くてツノが生えてるから」なんてのじゃ駄目で(しかもそれ3倍だろ)、予め検証されていなくちゃいけない。ですが、そんなことやってあるとはちょっと思えないんで、するとtype(j)の値はもう、カンで与えたことになっています。なので、このモデルは定性的なものに過ぎないことになります。
なお、
> 式中の*は、実際には上付き書式になっていました。
と仰るから、もしかすると「gender* とは上記のgender(j)のこと?」とも思ったんですが、だとすると、
Y~X + gender* + type* + …
になってなきゃおかしいんで、"*"の意味は不明です。
式からすると、The slopes for type and gender groups were compared by generalized linear regression.は「各タイプ群、各性別群における傾き(回帰直線の傾き!?)は一般線形モデルでテストされた」ということではなくて、typeやgenderやtype*genderの各項のslopeを指しているんじゃないでしょうか。なお、generalized linear regressionは「compared by」(比較の手段)ではありえないから、「by」は文全体に掛かっていると思う。すると、「generalized linear regressionを使って、type および gender groups(に依存する効果をあらわす各項)のslopes(を計算して、それぞれの項のslopes)を比較した。」というほどの意味でしょう。ただ、「比較」として実際に何をしたのかは(引用なさった部分だけからは)不明です。
The assumptions were checked and the following model was fit:におけるThe assumptionsは要するに「モデルは妥当だ(YはこのモデルにXを入れればソコソコの精度で予測できる)」という作業仮設を指していると思われ、定冠詞が付く以上は既出のはずですが、引用なさった中にはないようです。"checked"は曖昧だけど、モデルの予測がどのぐらいデータYと合うかを調べた、というほどの意味でしょう。具体的にはモデルの予測y(j)と実測値Y(j)との関係に関する統計量、たとえば残差二乗和Σ((y(j)-Y(j))^2)だとか、Y(j)とy(j)との相関係数などを調べるんです。(どこか他の所にその結果が書いてあるんでは?)ともあれ「このモデルは妥当だ。他の要因は(あってもYへの寄与がうんと小さく、)ランダムなノイズだと思って無視して良い。」とひとまず判断した(そうしないと先に進めない)。しかし、この判断はfactとまでは言えない。これがassumptionsの指している内容でしょう。
The hypothesis of no gender difference in slopes was tested by the significance of the term “gender*X”におけるhypothesisは、統計学で言うnull hypothesisを意味します。
帰無仮説(null hypothesis)「gender*XはYに影響を及ぼさない」を検定(test)する話です。この帰無仮説から「モデルにおいて、ノイズの影響さえなければ、gender*X の項の係数は0である」ことになり、だから実際に計算したslopeの値(0でない)がランダムなノイズによって偶然生じた見かけ上のものなのか、あるいは本当に有意に「0じゃない」と言えるものなのか、を検定する。そのためには「slopeがノイズのせいで偶然こんな値になる確率p」を計算するんです。この計算には、"check"のところで述べた、モデルと実測値とのずれに関する統計量が必要になります。
その結果、仮に「確率pは非常に小さい値なので、slopeが0でないのは偶然ではないと考えられる」ということになると、hypothesisが否定(棄却)され、従って、「gender*XはYに影響を及ぼす」と結論できます。一方、「確率pは結構大きな値であり、slopeが0でないのは見かけ上のことかも知れない」となると、帰無仮説は否定できない。けれども肯定することもできない。そこで「この調査ではgender*XがYに影響を及ぼすかどうかは分からなかった」というのが結論になります。
しかし変だな。この文の前半では、帰無仮説 no gender difference すなわち「genderはYに影響を及ぼさない」を検定すると言っているんです。だったら、term “gender*X”だけじゃなくて、term “gender”の係数も見なくちゃいけません。ふつーに考えれば後者の方が重要じゃないでしょうか。なぜこれに言及しない?
ってわけで、なんだか全体にちょっと怪しい雰囲気を感じるんですが。
No.1
- 回答日時:
> The slopes for type and gender groups were compared by generalized linear regression.
slopeはおっしゃるとおり、偏回帰係数のことでしょう。typeはA, B, Cという3つの水準をもったカテゴリカル型の変数ですね。genderはmale, femaleという2つの水準をもったカテゴリカル型変数。
意味としては「typeとgenderの効果を調べた」ということです。例えば、genderが有意であれば、応答変数Yの変動をうまく説明している変数だということです。言い換えれば、性別によって平均値が違うということです。
ちなみに、Generalized Liner Modelは「一般化線形モデル」と訳されます。一般線形モデルはGeneral Liner Modelです。
> assumptionとhypothesisはどちらも仮設という意味ですが、単なる言い回しでしょうか?
統計学において、仮説というのは「統計的仮説検定」の概念である帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)のことを指します。単にhypothesisという場合は帰無仮説のことをいっていることが多いです。
それに対してassumptionは「仮定」という意味で使われます。例えば、The t test assumes that come from populations with equal SDs.「標準偏差の等しい母集団から抽出されたものと仮定したt検定」というように。
> 式中の*は、実際には上付き書式になっていました。
とすると、gender*Xはgender^X、gender*type*Xは(gender*type)^XというX乗のモデルを解析したということなんでしょうかね。。。 となると、これは累乗モデルであることを意味していますね。でも非線形とはどこにも書いていないのだから違うのかな?
結果としてgender*Xとtype*Xの項が有意であったことは分かりますが、Xという変数が何なのか私には分かりませんね(^_^;)
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
ダミー変数だけによる重回帰分析
-
単回帰分析の結果(説明)の書き方
-
回帰分析って何ですか?
-
統計処理についてのアドバイス
-
統計学の問題を回帰直線で解い...
-
単変量解析から多変量解析時の...
-
2変数のばらつき具合をはかる方...
-
【統計 回帰分析 ダミー変数に...
-
エクセルでのシグモイドのカー...
-
課題で、ワードで2枚程度という...
-
統計データの「タイル値」とは...
-
レポート用紙に3から4枚書け、...
-
歴史的背景・歴史的視点とは?
-
単位を懸けた重要なレポートの...
-
学術論文と国際会議プロシーデ...
-
レポートをB51枚程度の字数の...
-
腫脹と腫張の違いは何か?
-
レポートの指定字数について
-
事務の論文について
-
文系レポート 考察の書き方
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
エクセルでのシグモイドのカー...
-
2変数のばらつき具合をはかる方...
-
単回帰分析の結果(説明)の書き方
-
Excel 分析ツールの回帰分析の...
-
ダミー変数だけによる重回帰分析
-
回帰分析の論文の書き方につい...
-
回帰分析で「有意な相関がある...
-
SPSS17で二項ロジスティック回...
-
ロジスティック回帰分析のモデ...
-
共分散分析(ANCOVA)で...
-
【統計 回帰分析 ダミー変数に...
-
回帰分析です
-
エクセル統計での単変量解析の仕方
-
EXCELで線形自己回帰分析どこま...
-
YesかNoの重回帰分析のやり方
-
【統計】テストの弁別力について
-
単変量解析から多変量解析時の...
-
統計方法について
-
EXCELの分析ツールの標準残差とは
-
回帰分析についてわかる方…
おすすめ情報