今だけ人気マンガ100円レンタル特集♪

心理学の学生で調査系のゼミに今秋から配属になりました。早速、残差分析について調べることになったのですが、なかなか初心者向けの本に残差分析が載っておらず、理解にてこずっています。
インターネットのサイトも調べてみたのですが、理論は載っていても、どのような手順を踏んで値を求めるのかまでは見つけるに至りませんでした。ちなみに手元にある資料は田中敏先生の「実践データー解析」です。
お勧めの本や、残差分析についての紹介のあるサイトをご存知の方がいらっしゃいましたら、ご紹介いただけないでしょうか?宜しくお願いいたします。

このQ&Aに関連する最新のQ&A

A 回答 (1件)

こんにちは。

クロス表分析としての残差分析でよろしいでしょうか?

そうであるならば,内田治著の「すぐわかるExcelによる統計解析」の第五章「第5章 分割表に関する解析」において,Excelで実行する場合の手順の解説がされています。

残差分析とは大雑把に言うと,各セルごとに

    実測値-期待値
 z=─────────
      √期待値

の計算式を使って算出されたZ統計量を利用して,そのセルが特徴的であるかを分析する手法です。zは標準正規分布に従うので,z>1.96以上であれば,p<0.05において有意な特徴を持つセルである……などと判断するわけです。

ただし,上記の計算式で算出される残差は「標準化残差」と呼ばれるものです。この数値でも構わないのですが,もう少し検定力を高めたものとして,「調整化残差」というものを求めることもできます(とはいえ,劇的に両者に大きな変化はないと思いますが……)。

参考URL:http://www.amazon.co.jp/exec/obidos/ASIN/4489006 …
    • good
    • 5

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q検定結果の読み方(調整済み残差)

ある研究報告を読んでいて、検定結果の読み方について疑問があるので質問します。

(1) X2(1)=137.297,p=0.000
(2) X2(2)=34.510,p=0.000
(3) X2(2)=0.045,p=0.978

という、3つの検定結果が表示されている場合で、カッコ内は調整済み残差らしいのです。それぞれ、どのように違いを理解すればいいでしょうか。

調べたところによると、調整済み残差は、p<0.05水準で1.96以上でないと統計的貢献度?がないらしいので、(1)は、Χ二乗検定では相関が認められそうだが、残差が1なので有意だとはいえない、(2)はいえるという理解でよろしいのでしょうか?((3)はそもそも、p値が有意でない)

また、一般的に、Χ二乗検定の結果を出す時は、調整済み残差も一緒に表示する方が、望ましいものなのでしょうか?

どうぞ、よろしくお願いします。

Aベストアンサー

確認してほしいのですが、その注記は本当に(1)~(3)のカッコ内を指しているのでしょうか?
その研究報告を見ないことには、正確なことは言えませんが、(1)~(3)の表記からカッコ内は自由度以外には考えにくいのですが・・・

(1)~(3)のカッコ内を自由度として、等号の右辺の数値以上の値がでる確率を計算してみると、
(1) 1.038334e-31
(2) 3.208106e-08
(3) 0.9777512
となり、(1)~(3)のp値ともあっています。

調整済み残差が3つとも整数なのも、絶対ないとはいいませんがあまりないと思います。

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

QEXCELの分析ツールの標準残差とは

EXCELの分析ツールで回帰分析(一次回帰分析)をしますと、残差について標準残差というものが出てきます。数字を見ると残差の定数倍になっているようですが、これは何を計算しているのでしょうか?EXCELのヘルプを見ても出てまいりません。

Aベストアンサー

以下のURLを参考にしてみてください。

  http://www.f.waseda.jp/ksuga/econome2.pdf

  http://atiboh.sub.jp/t07kaikibunseki.html

「標準残差」は「誤差を誤差項の標準偏差で割った値」です。

Qカイ2乗検定結果の書き方

卒業論文作成中です。
2*2のカイ2乗検定をしました。
結果を論文に載せたいのですが、書き方が分かりません。
クロス表を書くのかどうか、また何をどの位置(クロス表の下?)に書けばいいか、教えてください。

Aベストアンサー

本文中にも、表の下にも

 ・自由度
 ・検定統計量(カイ自乗値)
 ・p値

を書くべきでしょう。よく見かける p < .05 とか、あるいはアスタリスク(*)だけとかはおススメしません。表中に分かりやすくするためにアスタリスクを書くのはよいことですが、必ずp値を記載しましょう。

Qカイ二乗検定と下位検定 SPSS

質問文が長く、そして多く大変恐縮ですが、自分でいろいろ調べていてもなかなか解答が見つかりません。どなたかアドバイスをお願いしますm(_ _)m

回答パターンが4つある質問(例えばア・イ・ウ・エ)をして、それぞれに対して得られた回答数が期待度数を有意に上回っているかを検定するのはカイ二乗ですよね?

では下位検定としてア・イ・ウ・エのどれがどれを(有意に)上回っているかを調べるためには、観測度数を目で見るだけはダメですか?竹原卓真(2007)「SPSSのススメ」(p.202)には「ライアンの方法」や「ボンフェローニの方法」が下位検定の方法として紹介されています(確立した手法ではないようですが)。

ボンフェローニは分散分析の下位検定で多重比較をする際などに有意確率の補正をする方法だと思っていました。SPSSで上記のようなデータを用いてカイ二乗検定を行った後にボンフェローニ法を使った下位検定をするにはどうしたらいいのでしょうか?どこのタブをクリックしてもボンフェローニの「ボ」の字も出てきません。シンタックスの入力が必要ですか?またテューキーは使えますか?

よろしくお願いしますm(_ _)m

質問文が長く、そして多く大変恐縮ですが、自分でいろいろ調べていてもなかなか解答が見つかりません。どなたかアドバイスをお願いしますm(_ _)m

回答パターンが4つある質問(例えばア・イ・ウ・エ)をして、それぞれに対して得られた回答数が期待度数を有意に上回っているかを検定するのはカイ二乗ですよね?

では下位検定としてア・イ・ウ・エのどれがどれを(有意に)上回っているかを調べるためには、観測度数を目で見るだけはダメですか?竹原卓真(2007)「SPSSのススメ」(p.202)には「ライアンの方法...続きを読む

Aベストアンサー

こんにちは。

既にご存じの通り「『二条件の有意差検定』を単純に繰り返す」ことに問題がありますが,多重比較法とは,これを「何らかの工夫を行う」ことによって使用可能にする方法の【総称】です。この工夫の方法として,(1)有意水準を調整するタイプ,(2)多重比較用に調整された確率分布を使うタイプ,(3)統計量を調整するタイプに分類することができます。
ボンフェローニ法は(1)の直接有意水準を調整するタイプのことですが,有意水準を調整するのでよいので,お馴染みの分散分析の後の多重比較の他にも,順序尺度データに対する要因分析(クラスカル・ウォリス検定)の後の多重比較にも,そしてχ2検定の後の多重比較にも使える非常に汎用性の高いものです。

さて,ボンフェローニ法はどのような比較ペアを設定するかによって有意水準の計算結果が異なります。多くの場合は総比較を行いますので,

 個別の調整された有意水準=全体の有意水準÷全ての比較ペア

となります。しかし,これは「事前にどのような比較ペアをするか」決まっていない場合です。よって,何らかの「明確な根拠」(○○という理由により,多重比較によって検討を行いたい比較は△△だ)がきっちりと示せるのであれば,全ての比較ペアをするひつようはありません。もし3ペアだけであるならば,

 個別の調整された有意水準=全体の有意水準÷3(必要なペア数)

によって計算されるものでも何ら構いません。

ただし,重要なので繰り返しますが,あくまでも「明確な根拠」を提示できる場合のみです(何となくの思いつきでは駄目で,かなりの理論武装,下手をすれば先行研究を引用しながら,をしなければなりません)。この辺りで,上手く根拠を示せない&面倒という理由により,本当は実際に調べたいのは総比較ペアではないけれども,仕方ないので総比較ペアで検討を行う,という状況はごろごろあります。

こんにちは。

既にご存じの通り「『二条件の有意差検定』を単純に繰り返す」ことに問題がありますが,多重比較法とは,これを「何らかの工夫を行う」ことによって使用可能にする方法の【総称】です。この工夫の方法として,(1)有意水準を調整するタイプ,(2)多重比較用に調整された確率分布を使うタイプ,(3)統計量を調整するタイプに分類することができます。
ボンフェローニ法は(1)の直接有意水準を調整するタイプのことですが,有意水準を調整するのでよいので,お馴染みの分散分析の後の多重比較...続きを読む

Q3群間の検定について(カイ二乗検定→事後比較)

A 群、B 群、C 群の 3 群をカイ二乗検定により同時に比較し、少なくともどれかの群は多の群と異なることが分かったとします。

その後それぞれの群間(A vs B、B vs C、C vs A)で再びカイ二乗検定を行い、A 群のみが B、C 群と異なることが分かった、といった解析を行いました。

このような解析方法は統計学的に妥当なものでしょうか(間違った方法ではないでしょうか)?
なお、それぞれの群間での対比較の際はボンフェローニ法により有意水準を補正してあります。

Aベストアンサー

サンプルサイズが極端(例えば A は 2 つしかデータがない、など)でなければ、妥当だと思いますよ。

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q割合の差の検定について教えて下さい

統計学初心者です。割合の差の検定について教えて下さい。

χ2乗検定を行えば、2x2の分割表の場合、各群での割合の差について検定できる事は理解しております。

2x3、2x4の分割表の場合、どの群との関係に差があるのか、明確にわかる検定はあるのでしょうか?
    イベント有り イベントなし
薬剤A  10     15
薬剤B  30     38
薬剤C  78     10
薬剤D  90     29
などの場合です。薬剤A、B、C、Dの間のどこかに違いがある事は、χ2乗検定で言えるかと思いますが。各群の中で(ex;薬剤Aと薬剤B、薬剤Cと薬剤D)違いあると言える検定はあるのでしょうか?

教えて頂けると幸いです。

Aベストアンサー

http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/cross_table_analyse.htmにあるクロス表における多重比較のk*2分割表のコンテンツを見ればよろしいかと。

要するに、カイ自乗検定を繰り返し行っても良いけど、設定する有意水準はその度に調節しなさいよ、ということです。

Q統計処理:複数回答の群間比較方法について

若年者群(250人)と高齢者群(300人)で「健康教室」に関する情報源に関する調査をしています。

「新聞・テレビ・雑誌・本・インターネット・友人・地域講座…など10項目」から「健康」に関する情報を得ているものを選んでください、と言う質問を複数回答(多重回答?)可能として実施しました。

インターネット
若年(208人=83%)・高齢(154人=51%)

雑誌
若年(123人=49%)・高齢(94人=31%)

地域講座
若年(32人=12%)・高齢(198人=66%)

と回答があった場合、例えばインターネットと回答した割合が若年者群と高齢者群で有意な差があるかどうかの比較は行えますか?また、行えるとすれば、どのように行うのが適切でしょうか?教えてください。

他にも質問しており集計しているのですが、それらは単一回答としているので、群間でカイ二乗検定を行いました。この項目に関しては複数回答(一人がいくつ選んでも良い)なので、カイ二乗検定が行えないのかと思って、単純集計にしているのですが、何か方法はないのか?と思っています。

SPSS等は持っておらず、エクセルで処理しています。

よろしくお願いいたします。

若年者群(250人)と高齢者群(300人)で「健康教室」に関する情報源に関する調査をしています。

「新聞・テレビ・雑誌・本・インターネット・友人・地域講座…など10項目」から「健康」に関する情報を得ているものを選んでください、と言う質問を複数回答(多重回答?)可能として実施しました。

インターネット
若年(208人=83%)・高齢(154人=51%)

雑誌
若年(123人=49%)・高齢(94人=31%)

地域講座
若年(32人=12%)・高齢(198人=66%)

と回答があった場合、例えばインターネットと回答した割合が若...続きを読む

Aベストアンサー

        インターネットと回答した 回答しなかった
若年者群      w            x
高齢者群      y            z
で集計すjれば、カイ二乗検定でも大丈夫です。
選択肢の数だけ検定することになりますが。

ところで、

> 若年者群(250人)と高齢者群(300人)

群別でなく年齢でそれぞれの年齢がわかっていれば、主成分分析をしてみるというのも良いかもしれませんね。

参考URLの
タコでもわかる主成分分析
の第2章の事例3とか参考になるかと思います。

参考URL:http://home.a02.itscom.net/coffee/takoindex.html


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング