痔になりやすい生活習慣とは?

量的変数(年齢)とダミー変数(性別)を説明変数とした重回帰分析をする場合(正確には共分散分析でしょうか?),多重共線性を回避するために,解析前におけるデータの「中心化」が推奨されていますが,量的変数の中心化については分かりますが,ダミー変数を中心化する意味はあるのでしょうか?
ダミー変数は中心化すべきなのでしょうか?

また,重回帰分析において中心化する意味として,上述した「多重共線性の回避」以外に何があるのでしょうか?

詳しい方がおられましたら,是非ご教示ください。
よろしくお願いいたします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

 一般論として、最小二乗法(又は最尤法)による線形回帰で、定数項を含むモデルの場合、中心化(元の変数の代わりに、その変数からから平均値を差し引いたものを変数として用いること)は、推計の精度に何の効果もありません。

この場合、多重共線性を回避する効果も、まったくありません。

 中心化の意味があるかもしれないケースとして考えられるのは、次のようなものでしょうか。

  (1) 線形回帰でない場合(交互作用項を用いる場合を含む)
  (2) 最小二乗法や最尤法でない場合
  (3) 定数項を含まないモデルの場合
  (4) 変数の桁数の割に変動が少なくて、中心化した方がコンピュータの桁落ちの可能性や丸め誤差が小さくなる場合

 ダミー変数の場合、(1)のケースは、ちょっと考えにくいことです。(2)のケースは、可能性として挙げましたが、実際に中心化が意味を持つ場合が本当に存在するのか、断言できません。
 ご質問のケースがどのようなものか分かりませんが、もし、(3)や(4)のケースに該当するなら、中心化する意味があるかもしれません。

この回答への補足

ご回答ありがとうございました。

なるほど…
中心化に多重共線性の回避効果はないのですね。

ただ,切片(定数)の解釈をしやすくするため(適正な全体平均の抽出)
中心化はある程度効果的なのかなぁ…と思っています。
が,この場合,質問した通り,「ダミー変数」も中心化すべきなのか
どうかが不明です。

とれる選択肢は以下の3つのように思っています。
(1)ダミー変数は中心化しない(量的変数のみ中心化する)
(2)ダミー変数も中心化する
(3)ダミー変数の「0」を「-1」に置換する
 (要は平均を「0」とするようにセンタリング)

ネットで調べてみると様々な意見があり,(1)も(2)もみられましたが,
論文等では(1)の方法を採用しているものが多いように思えます。

で,結局のところどのようにすればよいのか分からず混乱しております。

もし,アドバイスしていただければお願いいたします。

補足日時:2012/12/18 20:11
    • good
    • 0

 中心化してもしなくても本質的な違いがあるとも思えないので、どの方法をとるかは、結果を解釈するのにどれが分かりやすいか、という程度のことでしょう。


 要するに趣味の問題です。個人的な趣味から言えば、無駄な作業をしない方が論文も短くて済むので、回帰分析では(量的変数を含めて)中心化しない方法を選びます。これまで、その方法で不都合が生じたことはありません。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q線形・非線形って何ですか?

既に同じようなテーマで質問が出ておりますが、
再度お聞きしたく質問します。

※既に出ている質問
『質問:線形、非線型ってどういう意味ですか?』
http://oshiete1.goo.ne.jp/kotaeru.php3?q=285400
結局これを読んでもいまいちピンと来なかった...(--;


1.線形と非線形について教えてください。
2.何の為にそのような考え方(分け方)をするのか教えてください。


勝手なお願いですが、以下の点に留意いただけると大変うれしいです。
何せ数学はそんなに得意ではない人間+歳なので...(~~;

・わかりやすく教えてください。(小学生に説明するつもりぐらいだとありがたいです)
・例をあげてください。(こちらも小学生でもわかるような例をいただけると助かります)
・数式はなるべく少なくしてください。

『そんな条件じゃ説明できないよー』という方もいると思いますが、どうぞよろしくお願いいたしますm(__)m

Aベストアンサー

昨日「線形の方がなんとなくてわかりやすくないですか」と書いたんですが、やっぱり理系の人間らしく、もうちょっときちんと説明してみます。昨日は数式をなるべく出さないように説明しようとがんばったんですが、今日は少しだけ出しますが、勘弁してください。m(__)m(あと、長文も勘弁してください)


数学的にはちょっとここまで言えるかわかりませんが、自然界の法則としては、「線形」が重要な意味を持つのは、xの値が変化するにつれて変化するyがあったときに、

(yの増加量)/(xの増加量)=A(一定)

という規則が成り立つからです。

xやyの例としては昨日の例で言う例1だとxがガムの個数、yが全体の金額、例2だとxが時間、yが走った距離です。

この規則が何で役に立つかというと、式をちょっと変形すると、

(yの増加量)=A×(xの増加量)・・(1)

ということがわかります。つまり、Aの値さえわかれば、xが増えたときのyの値が容易に推測できるようになるわけです。


ここで「Aの値さえわかれば」と書いていますが、この意味を今から説明します。

自然界の法則を調べるためには何らかの実験を行います。例えば、りんごが木から落ちる運動の測定を行います。
ここから質問者様がイメージできるかわかりませんが、りんごは時間が経つにつれて(下に落ちるにつれて)落下するスピードが速くなるんです。今、実験として、1秒ごとにりんごのスピードを測定したとします。そしてその結果をグラフにプロットしていくと、直線になることがわかります。(ここがわかりにくいかもしれませんが、実際に実験を行うとそのようになるのです)

数学の問題のように初めから「時速100kmで走る」とか「1個100円のガム」とかいうことが与えられていれば直線になることはすぐにわかります。
しかし、自然界の法則はそうもうまくいきません。つまり、実験を行ってその結果をプロットした結果が直線状になっていたときに初めて「何らかの法則があるのではないか」ということがわかり、上で書いた「Aの値さえわかれば」の「A」の値がプロットが直線状になった結果、初めてわかるのです。

そして、プロットが直線状になっているということは、永遠にそうなることが予想されます。つまり、今現在はりんごが木から落ちたときしか実験できませんが、その結果を用いて、もしりんごが雲の上から落としたときに地面ではどのくらいのスピードになるかが推測できるようになるわけです。ここで、このことがなぜ推測できるようになるかというと、(1)で書いた関係式があるからです。このように「なんらかの法則があることが推測でき、それを用いて別の事象が予言できるようになる」ことが「線形」が重要だと考えられる理由です。

しかし、実際に飛行機に乗って雲の上からりんごを落としたらここで推測した値にはならないのです。スカイダイビングを想像するとわかると思いますが、最初はどんどんスピードが上がっていきますが、ある程度でスピードは変わらなくなります。(ずっとスピードが増え続けたら、たぶんあんなに空中で動く余裕はないでしょうか??)つまり、「線形から外れる」のです。

では、なぜスピードが変わらなくなるかというと、お分かりになると思いますが、空気抵抗があるからなんですね。(これが昨日「世の中そううまくはいかない」と書いた理由です)つまり、初めは「線形」かと思われたりんごを落とすという実験は実際には「非線形」なんです。非線形のときは(1)の関係式が成り立たないので、線形のときほど容易には現象の予測ができないことがわかると思います。


では、非線形だと、全てのことにおいて現象の予測が難しいのでしょうか?実はそうでもありません。例えば、logは非線形だということをNo.5さんが書かれていますが、「片対数グラフ」というちょっと特殊な形のグラフを用いるとlogや指数関数のグラフも直線になるんです。つまり、普通のグラフでプロットしたときに「非線形」になるため一見何の法則もないように見えがちな実験結果が「片対数グラフ」を用いると、プロット結果が「線形」になってlogや指数関数の性質を持つことが容易にわかり、それを用いて現象の予測を行うことが(もちろん単なる線形よりは難しいですが)できるようになるわけです。


これが私の「線形」「非線形」の理解です。つまり、

1) 線形の結果の場合は同様の他の事象の推測が容易
2) 非線形の場合は同様の他の事象の推測が困難
3) しかし、一見非線形に見えるものも特殊な見方をすると線形になることがあり、その場合は事象の推測が容易である

このことからいろいろな実験結果は「なるべく線形にならないか」ということを目標に頑張ります。しかし、実際には先ほどの空気抵抗の例のように、どうしても線形にはならない事象の方が世の中多いんです。(つまり、非線形のものが多いんです)

わかりやすいかどうかよくわかりませんが、これが「線形」「非線形」を分ける理由だと思っています。

やっぱり、「線形の方がなんとなくわかりやすい」くらいの理解の方がよかったですかね(^^;;

昨日「線形の方がなんとなくてわかりやすくないですか」と書いたんですが、やっぱり理系の人間らしく、もうちょっときちんと説明してみます。昨日は数式をなるべく出さないように説明しようとがんばったんですが、今日は少しだけ出しますが、勘弁してください。m(__)m(あと、長文も勘弁してください)


数学的にはちょっとここまで言えるかわかりませんが、自然界の法則としては、「線形」が重要な意味を持つのは、xの値が変化するにつれて変化するyがあったときに、

(yの増加量)/(xの増加量)=...続きを読む

Q文中で英語が斜めに表記されているのはなぜ?

いつも大変お世話になっておりますm(_ _)m
どうぞよろしくお願い申し上げます。

文中に、よく部分的に斜めになっている言葉がありますが、どういう場合に斜めにするのでしょうか?
固有名称や強調という以外に、何かの定義のようなものはあるのでしょうか?

Aベストアンサー

活字が斜めに打ちだされるのは斜体(イタリック)と呼ばれます。日本語ではあまり用いられないようです。一般的な使用パターンが見受けられます。また、学術雑誌などの場合、基本的に一般的な使用法に準ずる形で、投稿マニュアルによって使用箇所が厳密に定められていることがあります。

一般的な使用法については、英語版のWikipediaを参考にしますと、次のようになります。
http://en.wikipedia.org/wiki/Italic_type
・語句の強調。
・書名、雑誌名、新聞名。これに対して、ある本がいくつかの章や論文/記事からなるとき、各章や各論文/記事の名前を挙げる際には、立体(まっすぐのもの)で書かれます。ウェブサイトの引用などおそれに準じます。
・船の名称。
・外国語。
・単語をとりあげるとき。たとえば、
・新しく専門用語などとして導入するとき。
・生物の2名法。おおまかにはドメイン>界>門>綱>目>科>属>種の順に分類が細かくなりますが、属および種のみ斜体で書きます。科以上の名前は立体で書きます。
・物理量や数学の変数として用いられる記号。

そのWikipediaのページにも書かれていますが、いくつかよく知られた規則があります。

(1) 文全体が斜体になっているとき、その中でまた斜体を使わなければならないときは、立体に戻ります。たとえば、『The complete capuchin: The biology of the genus Cebus』という書名だと、書名なので斜体で書かなければなりません。一方、この書名のなかに含まれているCebusという語は生物の属名(オマキザル属)なので、これも斜体で書かなければなりません。結果、The complete capuchin: The biology of the genusまでは斜体で、Cebusは(斜体の斜体ということで、戻って)立体となります。

(2) タイプライターや手書きで原稿を書くときは、下線を引いて印刷時にそこが斜体になることを指示します。e-mailなど下線もイタリックも使えない場合は、> < や * * などを使うようです。

なので、固有名詞だからといって必ずしも斜体になるわけではありません。上で挙げた例でも、投稿マニュアルによっては、斜体でない場合があります。全体的にいって、使用する場面はかぎられています。また、基本的に活字の話なので、手書きには立体も斜体も関係ありません。

活字が斜めに打ちだされるのは斜体(イタリック)と呼ばれます。日本語ではあまり用いられないようです。一般的な使用パターンが見受けられます。また、学術雑誌などの場合、基本的に一般的な使用法に準ずる形で、投稿マニュアルによって使用箇所が厳密に定められていることがあります。

一般的な使用法については、英語版のWikipediaを参考にしますと、次のようになります。
http://en.wikipedia.org/wiki/Italic_type
・語句の強調。
・書名、雑誌名、新聞名。これに対して、ある本がいくつかの章や論文/...続きを読む

QEXCELの分析ツールの標準残差とは

EXCELの分析ツールで回帰分析(一次回帰分析)をしますと、残差について標準残差というものが出てきます。数字を見ると残差の定数倍になっているようですが、これは何を計算しているのでしょうか?EXCELのヘルプを見ても出てまいりません。

Aベストアンサー

以下のURLを参考にしてみてください。

  http://www.f.waseda.jp/ksuga/econome2.pdf

  http://atiboh.sub.jp/t07kaikibunseki.html

「標準残差」は「誤差を誤差項の標準偏差で割った値」です。

Q切片あり回帰と切片なし回帰

実務で回帰分析を使う必要に迫られています。
初歩的な質問ですみません。。

切片ありで回帰したり、切片なしで回帰したりと場合によるようですが、使い分けってどういう意味があるのですか?

切片ありで回帰してR2を算出したり、回帰係数の推計の場合は切片なしでやったり。。

初級のテキストではその辺に焦点を当てた説明が見当たらなかったため質問させていただきました。

どういった議論の範疇なのか、など勉強のヒントだけでもかまいませんのでよろしくお願いいたします!

Aベストアンサー

実務でということは、Excelでもお使いになるのでしょうか。
(x,y)のデータが複数あり、それをグラフ上にプロットしたときにx,yの間に直線関係が認められるか否か、そのひとつの判断のひとつとして、回帰計算があります。

切片のあり、なしの選択は、理論的にx=0のときy=0になると考えられる母集団(データの集まり)であれば切片なし、x=0のときy=0にはならない、或いはその関係がよくわかっていない母集団であれば、切片ありにすると良いでしょう。

例1.1gあたり10mm伸びるというバネがあり、重さ(x)と伸び量(y)の関係を調べてグラフにしてみた。 これは理屈から考えて、重さゼロのときは伸びゼロですから、切片なしで回帰した方がよいでしょう。

例2.東京都内に住む、100組の夫婦について、夫の年収(x)と妻の年収(y)の関係を調べて、グラフにしてみた。 この場合、夫の収入がゼロのとき、妻の収入もゼロなんて根拠はどこにもありませんから、切片ありで回帰すると良いでしょう。

ご参考まで。

Q内生変数と外生変数の意味

マクロ経済学を勉強中なのですが、
いきなり説明もなしに内生変数と外生変数という単語が出てきました。

投資需要は単純化のために外生変数とおく
政府支出や税収といった政策変数も外生変数
政策変数は外生変数とおき、内生変数をとき、政策変数の変化が内生変数にどのような変化をもたらすのか

こんな文章がでてきてまったくもって意味がわかりません…
どうかわかりやすく教えてください。

Aベストアンサー

ごく簡単にいえば、外生変数とは経済モデルを作る人が数値を自由に設定できる「前提条件」にあたります。内生変数とは、前提条件の下で作られた経済モデル(連立方程式)を解いて得られる「未知の変数」という意味です。

高校数学でやった、連立方程式でXの値に適当な数字を入れるとYの値がどうなるか、といったことを難しく言っているだけです。マクロ経済学の初歩ということであれば、IS-LMモデルによるマクロ経済モデル等でしょう。一番簡単なモデルはたとえば以下のようなものです。

YD=C+I+G-T:総需要
C=C(Y):消費関数
I=I(r):投資関数
G=一定:政府支出
T=一定:税収
M/P=L(r,Y):通貨需要関数
YS=F(L):総供給関数
YS=YD:需給均衡条件
P=一定:一般物価水準(一定)

C:消費、I:投資、M:マネーサプライ、r:金利、L通貨需要、
L:雇用量

上記の方程式群を、外生変数を右辺に集め、内生変数(未知変数)について解くことになります。上記ではIは金利と所得の関数となっていますが質問のようにIを外生変数にすればさらに簡単になります。経済学的には、外生変数(政策変数)をいろいろ操作することで、Y(所得)がどう変わるのか、ということが一番関心事です。したがって、Gの変更(政府支出の操作=財政政策)やMの変更(マネーサプライの操作=金融政策)の効果を見ていることになります。

ごく簡単にいえば、外生変数とは経済モデルを作る人が数値を自由に設定できる「前提条件」にあたります。内生変数とは、前提条件の下で作られた経済モデル(連立方程式)を解いて得られる「未知の変数」という意味です。

高校数学でやった、連立方程式でXの値に適当な数字を入れるとYの値がどうなるか、といったことを難しく言っているだけです。マクロ経済学の初歩ということであれば、IS-LMモデルによるマクロ経済モデル等でしょう。一番簡単なモデルはたとえば以下のようなものです。

YD=C+...続きを読む

Qカイ二乗検定と下位検定 SPSS

質問文が長く、そして多く大変恐縮ですが、自分でいろいろ調べていてもなかなか解答が見つかりません。どなたかアドバイスをお願いしますm(_ _)m

回答パターンが4つある質問(例えばア・イ・ウ・エ)をして、それぞれに対して得られた回答数が期待度数を有意に上回っているかを検定するのはカイ二乗ですよね?

では下位検定としてア・イ・ウ・エのどれがどれを(有意に)上回っているかを調べるためには、観測度数を目で見るだけはダメですか?竹原卓真(2007)「SPSSのススメ」(p.202)には「ライアンの方法」や「ボンフェローニの方法」が下位検定の方法として紹介されています(確立した手法ではないようですが)。

ボンフェローニは分散分析の下位検定で多重比較をする際などに有意確率の補正をする方法だと思っていました。SPSSで上記のようなデータを用いてカイ二乗検定を行った後にボンフェローニ法を使った下位検定をするにはどうしたらいいのでしょうか?どこのタブをクリックしてもボンフェローニの「ボ」の字も出てきません。シンタックスの入力が必要ですか?またテューキーは使えますか?

よろしくお願いしますm(_ _)m

質問文が長く、そして多く大変恐縮ですが、自分でいろいろ調べていてもなかなか解答が見つかりません。どなたかアドバイスをお願いしますm(_ _)m

回答パターンが4つある質問(例えばア・イ・ウ・エ)をして、それぞれに対して得られた回答数が期待度数を有意に上回っているかを検定するのはカイ二乗ですよね?

では下位検定としてア・イ・ウ・エのどれがどれを(有意に)上回っているかを調べるためには、観測度数を目で見るだけはダメですか?竹原卓真(2007)「SPSSのススメ」(p.202)には「ライアンの方法...続きを読む

Aベストアンサー

こんにちは。

既にご存じの通り「『二条件の有意差検定』を単純に繰り返す」ことに問題がありますが,多重比較法とは,これを「何らかの工夫を行う」ことによって使用可能にする方法の【総称】です。この工夫の方法として,(1)有意水準を調整するタイプ,(2)多重比較用に調整された確率分布を使うタイプ,(3)統計量を調整するタイプに分類することができます。
ボンフェローニ法は(1)の直接有意水準を調整するタイプのことですが,有意水準を調整するのでよいので,お馴染みの分散分析の後の多重比較の他にも,順序尺度データに対する要因分析(クラスカル・ウォリス検定)の後の多重比較にも,そしてχ2検定の後の多重比較にも使える非常に汎用性の高いものです。

さて,ボンフェローニ法はどのような比較ペアを設定するかによって有意水準の計算結果が異なります。多くの場合は総比較を行いますので,

 個別の調整された有意水準=全体の有意水準÷全ての比較ペア

となります。しかし,これは「事前にどのような比較ペアをするか」決まっていない場合です。よって,何らかの「明確な根拠」(○○という理由により,多重比較によって検討を行いたい比較は△△だ)がきっちりと示せるのであれば,全ての比較ペアをするひつようはありません。もし3ペアだけであるならば,

 個別の調整された有意水準=全体の有意水準÷3(必要なペア数)

によって計算されるものでも何ら構いません。

ただし,重要なので繰り返しますが,あくまでも「明確な根拠」を提示できる場合のみです(何となくの思いつきでは駄目で,かなりの理論武装,下手をすれば先行研究を引用しながら,をしなければなりません)。この辺りで,上手く根拠を示せない&面倒という理由により,本当は実際に調べたいのは総比較ペアではないけれども,仕方ないので総比較ペアで検討を行う,という状況はごろごろあります。

こんにちは。

既にご存じの通り「『二条件の有意差検定』を単純に繰り返す」ことに問題がありますが,多重比較法とは,これを「何らかの工夫を行う」ことによって使用可能にする方法の【総称】です。この工夫の方法として,(1)有意水準を調整するタイプ,(2)多重比較用に調整された確率分布を使うタイプ,(3)統計量を調整するタイプに分類することができます。
ボンフェローニ法は(1)の直接有意水準を調整するタイプのことですが,有意水準を調整するのでよいので,お馴染みの分散分析の後の多重比較...続きを読む


人気Q&Aランキング