人に聞けない痔の悩み、これでスッキリ >>

質問紙調査を行ったのですが、
質問項目に対する回答にどのくらいの信頼性があるのかを
求めたいのですが、エクセル関数は何を使うと良いのでしょうか?
エクセル(EXCEL2003使用)で出来るα係数の求め方を教えて下さい。

このQ&Aに関連する最新のQ&A

A 回答 (1件)

    • good
    • 1
この回答へのお礼

ありがとうございました。
参考になりました。
お礼が遅くなっしまってスミマセンでした。

お礼日時:2009/10/01 18:18

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qα係数について教えてください。

SPSSを使用して因子分析(バリマックス回転 最尤法)を行いました。3つの因子が抽出されたのですが、各因子の信頼性を検討する為に、クロンバックのα係数を求めようとしています。

そこで質問なのですが、

(1) α係数を求める時は、プロマックスでも、バリマックスでも良いのでしょうか?
(2) α係数を求める時は、因子ごとに求めるのでしょうか(一般的なのでしょうか)?
(3) 逆転項目を削除しなければα係数の値が低くなる(そうでない項目と打ち消し合う為)とネット上で読みましたが、逆転項目とは何でしょうか? ← これについては、例を挙げて項目を説明していただくと助かります。

以上 3点、ご教授ください。よろしくお願いします。

Aベストアンサー

卒業論文の研究で因子分析を行っておられるのでしょうか。

一般論としてですが、研究を開始される前に、どのような統計手法を用い、どういう計算をどのように行うか(具体的には、統計パッケージソフトの使用法になるのかも知れませんが)などについて、きちんと準備して取り掛かることが重要です。
また、指導教員の先生に相談されることが原則ですので、この点についてもご承知ください。

1.Cronbachのα係数
1)α係数と因子の回転方法
これは、信頼性を求めたい項目を用いて算出しますので、因子の回転方法には関連はしないはずです。

2)α係数の意味
また、α係数は、同一尺度内の項目群について、一貫しているかどうか(つまり、同じような項目に対して、同じように反応しているかどうか)を確認するもので、内的整合性(内的一貫性)の指標となります。
したがって、因子ごとや、尺度であれば、下位尺度ごとに求めることが、概念的には基本かと思います。
もちろん、尺度全体を通して求めることも可能です。

2.逆転項目
1)逆転項目の説明
ここでいう「逆転」とは、ある調査項目について、対象者に回答を求める時と、結果を整理するときとでは、数値の評価を逆転させることをいいます。
例えば、
「あなたは、自分を神経質な方だと思いますか」という質問があり、それに対して、質問紙上では、「1.そうだ  2.ややそうだ  3.ややそうではない  4.そうではない」という選択肢から1つ選んでもらうのに対して、得点化するときには、「そうだ……4、ややそうだ……3、ややそうではない……2、そうではない……1」と、回答時とは逆に数値化することが挙げられます。

2)逆転項目とα係数
既存の尺度を用いているなど、あらかじめどれが逆転項目か分かっているときには、因子分析やα係数の算出仁崎だって、数値を逆転処理しておかないと、α係数は低くなります。

3)逆転項目の見つけ方
逆転項目があらかじめ分かっていない場合であっても、因子分析を実施した結果、因子負荷量が正ばかりの中に、1項目だけ負の負荷量の項目が混じっているという場合、その負の負荷量を示す項目は、逆転項目とみなし、数値の逆転処理をして、再度計算した方がよいでしょう。

以上は、例えば、
http://psy.isc.chubu.ac.jp/~oshiolab/teaching_folder/datakaiseki_folder/09_folder/da09_02.html
などにも説明があります。

ご参考までに。

卒業論文の研究で因子分析を行っておられるのでしょうか。

一般論としてですが、研究を開始される前に、どのような統計手法を用い、どういう計算をどのように行うか(具体的には、統計パッケージソフトの使用法になるのかも知れませんが)などについて、きちんと準備して取り掛かることが重要です。
また、指導教員の先生に相談されることが原則ですので、この点についてもご承知ください。

1.Cronbachのα係数
1)α係数と因子の回転方法
これは、信頼性を求めたい項目を用いて算出しますので、因子の回転方法に...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q因子分析の因子負荷量について

因子負荷量がよくわからないのですが、負荷量が大きいということは、その項目の重要度も大きいということでしょうか?
その因子をより説明している、と聞いた気もするのですが、説明している、というのがよくわからないんです…

5件法で聞いて5が多かったり1が多かったりすると
大きくなったりするのでしょうか?

寄与率についても曖昧な知識しかありませんので、わかりやすく教えていただけるとありがたいです。

Aベストアンサー

bon-chanさん,こんにちは.意欲的に統計法の質問をされていますね.
正統的説明はtem546さんがされていますので,その中継ぎとして,不正確ですがもう少し初心者向けの説明をしたいと思います.

因子分析を単純に言ってしまえば,「複数の変数を,更に少数の【類似した】変数群にまとめるための【視点】を提供する」となります.
例えば次の相関行列を参考にして,「科目A~D」の五つの変数を,類似したもの同士をまとめる際の視点は何かを探ります.

  ── 科目ABCDEの相関行列(架空):1 ────────
       科目A  科目B  科目C   科目D  科目E
   科目A  1.00   -0.34   0.98   -0.44   -0.24
   科目B -0.34   1.00  -0.34   0.53   0.63
   科目C  0.98   -0.34   1.00   -0.35   -0.32
   科目D -0.44   0.53  -0.35   1.00   0.54
   科目E -0.24   0.63  -0.32   0.54   1.00
  ─────────────────────────────

かなり露骨な相関行列なので因子分析を使わなくとも何とかなります.この相関行列を,数値が低いものを消して,あれこれ並べ替えてみると,

  ── 科目ABCDEの相関行列(架空):4 ────
       科目A 科目C 科目B 科目D 科目E
   科目A 1.00  0.98
   科目C 0.98  1.00
   科目B         1.00  0.53  0.63
   科目D         0.53  1.00  0.54
   科目E         0.63  0.54  1.00
  ─────────────────────────

となり,「科目A&C」と「科目B&D&E」という二つの「視点」がみつかりました.この「視点」こそが,因子分析における「因子」です.

因子分析の本来の目的は「因子は何個あるのか?」を探ることでした.無論,一番上の相関行列を見て,「いや,例え相関係数が0.6であっても,両者は違うんだっ!」とこだわりさえすれば「科目B&D&E」は同じ因子にはならないでしょう.この辺は分析者の主観によります.
やがて因子分析を使う人達は,「因子は何個?」という目的だけに満足できずに「それぞれの因子の【内容】についても知りたい」という少し贅沢な要求を出してきました.

この要求は統計を実践で使う人から提出されたものですが,理論家からすれば「それは本来の使い方じゃないから厳密には内容を特定は出来ないんだがなあ」と思わせるものです.とはいえ,理論家は実践家に対してアドバイスを与えます.「因子負荷量に注目すれば因子の内容を(ある程度)特定できるよ(,絶対的じゃないけどね)」と.

一番最初の相関行列を因子分析にかけます.

  ─────────────────────────
     主因子法・バリマックス回転後の因子負荷量
           因子1  因子2  共通性
       科目A -0.20   0.98  1.00
       科目C -0.20   0.97  0.98
       科目B  0.84  -0.17  0.74
       科目D  0.75  -0.29  0.65
       科目E  0.87  -0.09  0.77
       固有値  2.12   2.01
       寄与率 42.36% 40.26%
     累積寄与率 42.36% 82.62%
  ─────────────────────────

このような結果になります.この因子分析結果では二因子解を採用しています.
因子負荷量とは何か? 少し間違った言い方をすれば「因子と項目との間の【相関係数】」……そう考えてもらって構いません.少なくとも直交回転における因子分析ではこの考えはそれほど間違っていないと思います(正確な解釈はtem546さんの説明を参考にして下さい).

では上記の結果から「因子1」と「因子2」の内容を特定しましょう.このままでは特定化できないので以下の情報を提供します(なお上記データは全て架空です).

・科目A:数学 科目C:理科
・科目B:英語 科目D:国語 科目E:社会

いま,「因子2」というのは「数学と理科」科目の項目と,非常に関係が強い(高い相関係数).因子負荷量からそれが読みとれますね? 因子負荷量というのは「重要度」というよりは「関係の強さ」と考えてもらった方が分かりやすいと思います.
因子というのは,関連する複数の項目(数学と理科)に「共通する要素」なわけですから……数学と理科の共通の要素とは何でしょうか? まあどのような名称を与えるかは分析者の命名センスにかかっていますので,ここでは「理系的学力」とします.結果,「因子2=理系的学力」となります.同様に「因子1=文系的学力」となるでしょう.

とりあえず,因子負荷量に関して,使い方に関連した部分だけ簡単に説明させてもらいました.以上の説明を読んでもらって,改めてtem546さんの説明を読んで下さい.私が誤魔化している部分をより正確に説明していらっしゃいます.

最後に,一番最初の相関行列からの説明でわかるように,因子分析というのは「相関係数」を元にしています.
相関係数というのは御存知の通り,一つの変数がどうこうではなく,【二つの変数間の関係】を示しています.

>5件法で聞いて5が多かったり1が多かったりすると
>大きくなったりするのでしょうか?

【直接的には】なりません.
あくまでも二変数関係に注目するものですから,一つの変数が5に集中したからといって因子負荷量が大きくなったりするわけではありません.
ただし……ある変数Aがたいてい5であり,別の変数Bがたいてい5である場合,「AとBとには同じ5になろうとする関係だ」となります.この意味で間接的に「5が多ければ……」因子負荷量が大きくなることがあるかもしれません(これは自分で考えてみて下さい).

bon-chanさん,こんにちは.意欲的に統計法の質問をされていますね.
正統的説明はtem546さんがされていますので,その中継ぎとして,不正確ですがもう少し初心者向けの説明をしたいと思います.

因子分析を単純に言ってしまえば,「複数の変数を,更に少数の【類似した】変数群にまとめるための【視点】を提供する」となります.
例えば次の相関行列を参考にして,「科目A~D」の五つの変数を,類似したもの同士をまとめる際の視点は何かを探ります.

  ── 科目ABCDEの相関行列(架空):1 ─────...続きを読む

Q統計で、有意水準を、0.01あるいは、0.05に決める意味は?

統計で、有意水準を、0.01あるいは、0.05に決める意味が
わかりません。分析する人によって決められると思うのですが、何を基準に
きめればよいのでしょうか?

あと、t検定とは、どんな検定の仕方なのでしょうか?よろしくお願いします。

Aベストアンサー

◇0.05と0.01の使い分けについて

 一般的には 0.05 (危険率5%)を使います。

 理由は、工業製品の場合、多数の集合体から少数をサンプリングして
 カタマリが合格するか?または違いがあるか短時間に判断を
 下す(スクリーニングする)ことが要求されます。 
  また、正確な結果を求めるには、それ相応のデータ数を採る必要
 ありますが、それには時間と労力が掛かります。
 従いまして、費用対効果を念頭におき、危険率を決めます。
 
 大抵の場合、危険率5%の有意差検定にて済みます。
 但し、要求が厳しい場合とか、測定結果の差が大きい場合には
 1%でも検定して結果を記載します。

◇t分布表にて判断する適用範囲;下記条件の場合 t分布を使います。

<< 適用条件 >>
 ロットが異なる2つのサンプル群の標準偏差が未知な場合。
<< 適用範囲 >> 
 1.サンプリングして得られた平均値の差に違いがあるか?判断する場合。
 2.平均値の範囲を推定する(区間推定)場合。

例)ある製品を条件を変えて製造した場合、2つの集合体(カタマリ)
   ができる。そこから各30ケづつサンプリングして平均値を求める。
   この平均値に違いがあるか判断する場合に t分布を使います。

 一般的な工業製品は、全数検査しないうえ、これから作るモノの品質を
 予測しながら保証しければなりません。この場合にはt分布を使うわけです。
 
 一方、サンプル全数を測定して標準偏差が分かっている場合は、
 正規分布表にて有意差検定します。
 つまり、母集団の標準偏差が既知(キチ)の場合、正規分布表を使います。

◇その他
 ご参考まで、既にご存知であろうと思いますが・・・
・0.05 とは危険率 5%という意味で, 確率 5%の割合で間違った
 判断を下す事があるという事です。 
・検定結”判果にて ”有意差が無い”ということは ”同じである"という事
 ではありません。 このデータだけからでは断が下せない”と
 いうだけです。
                       以 上
                  

◇0.05と0.01の使い分けについて

 一般的には 0.05 (危険率5%)を使います。

 理由は、工業製品の場合、多数の集合体から少数をサンプリングして
 カタマリが合格するか?または違いがあるか短時間に判断を
 下す(スクリーニングする)ことが要求されます。 
  また、正確な結果を求めるには、それ相応のデータ数を採る必要
 ありますが、それには時間と労力が掛かります。
 従いまして、費用対効果を念頭におき、危険率を決めます。
 
 大抵の場合、危険率5%の有意差検定にて済みま...続きを読む

Qバリマックス回転って?

バリマックス回転って簡単に言うとなんですか?
分かりやすく教えていただけると幸いです。
どうかお願いしますm(_ _)m

Aベストアンサー

専門家じゃないので、感覚的に理解していることを書いてみます。

 因子分析の回転は、2因子をイメージするのが一番分かりやすいです。2因子だと軸が2つなので、x軸とy軸の、小学校や中学校でよく見たグラフのイメージです。あるいは相関を出す時の、散布図でもいいです。とにかく2次元のグラフをイメージします。で、何が回転するかというと、そのグラフのx軸とy軸が交わっているところ、つまり一般の0になっているところを中心に、ぐるっと円回転します。もし因子分析をやったことがあるなら、一般に回転後のほうが負荷量が大きくなっているのを見たことがあると思います。ここでまた相関の散布図をイメージしてください。この散布が右上に集まっているとします。その時に軸が45°くらい時計回りに回転したら、軸と散布がすごく近づきますよね?(というか、散布の中を軸が通ることになるかな)。これが回転の原理です。負荷量は軸との距離のことですので、軸が回転してデータの散布位置に近づくほうが、負荷量は大きくなります。
 それからバリマックス回転などの直交回転と、斜交回転の違いですが、普通、グラフではx軸とy軸が90°で交わっています。このx軸とy軸を直角にしたまま回転させるのが直交回転です。斜交回転ではx軸とy軸が直角でなくてもいいとします。だからx軸とy軸はそれぞれ別に動いて、負荷量が最適になるような位置に回転します。

 あと蛇足ながら、私は因子分析を習う時、まずは斜交回転をするように言われました。バリマックスがよく目にする方法はありますが、因子間の相関があるかどうかは、確かめてみないと分かりません。検証もせずに、はじめから因子間相関はないとして直交回転をすることには?です。因子間相関が高かったとしても、実際にその因子の間に相関があるのかは別問題ですが、まずは因子間相関を確かめることで、新たな知見を得られることもあるはずです。


勉強するのなら、

ユーザーのための心理データの多変量解析法―方法の理解から論文の書き方まで
山際 勇一郎 (著), 田中 敏 (著)

が良かったです。

専門家じゃないので、感覚的に理解していることを書いてみます。

 因子分析の回転は、2因子をイメージするのが一番分かりやすいです。2因子だと軸が2つなので、x軸とy軸の、小学校や中学校でよく見たグラフのイメージです。あるいは相関を出す時の、散布図でもいいです。とにかく2次元のグラフをイメージします。で、何が回転するかというと、そのグラフのx軸とy軸が交わっているところ、つまり一般の0になっているところを中心に、ぐるっと円回転します。もし因子分析をやったことがあるなら、一般に回転後の...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Q統計: クロンバックのα これは?

アンケートなどの質問紙を作成する場合、5段階尺度とかで自分でオリジナルで質問項目を作成した場合、その妥当性・信頼性を検討しなければならないのですか???

そしてそれは、クロンバックのα という係数で判断するものなのですか?
もしそうなら、係数がどれくらいの値があれば妥当だと判断していいのでしょうか?
あと、プレテストで一度試してクロンバックαが高かったからその質問を本番でするものなのでしょうか?

Aベストアンサー

基本的な考えとしては信頼性と妥当性の検討をするべきなのでしょう。

クロンバックのα係数の値は0.8以上ならば信頼性が高いとしていますが,これは経験的な基準なので0.76だったからこの質問は使えないというものでもありません(その辺りは研究者の判断に委ねるしかない)。

予備試験でクロンバックのα係数が高かったのであれば,本試験でそれを採用するのは当然の事かと思います。そもそもそのような質問項目を削除する理由が見当たらないと考えられますが?

Q最も妥当な相関関係の判断は?

相関係数を使って相関関係の有り無しを判断するのに、基礎統計の本によってその基準はマチマチです。ある本によればr=0.5なら弱いながらも相関はあるとの判断基準でした。ところがある人の話では実務上「相関関係あり」と判断するのは、R^2>=0.5のときなのだそうです。これを単相関係数に直せばr>=0.7ですから上記内容とはかなり数値の乖離があるように思います。絶対的な正解はないと思いますが、このことについてどのような判断をするのが一番妥当なのでしょうか?

Aベストアンサー

サンプル(x,y)の個数が10個でR=0.5というのと、サンプル数10000個でR=0.5というのでは、全然話が違いますよね。Rの値にどのぐらいの誤差があるかをチェックするのが検定です。最も簡単なのは、「ホントはR=0のものが、ランダムなばらつきのせいで偶然R=0.5に見えているという可能性の確率」を計算する検定。(Happy_Hackさんが仰ってるのはこのへんの話です。)

さて、サンプル数が十分多くて、それでもR=0.5だとします。あるいはR=0.7でもいいや。ともかくRの値はかなり正確であるとする。
その値がどういう意味を持つのかをご質問になっているんだと思いますが、これは、仰るとおり「絶対的な正解はない」。相関をどう利用したいのかに依るんですよ。

 大抵の応用は:「xを見ただけで、yを推定したい。」というもの。
 この意味では大抵、R=0.7程度では全然使い物になりません。R=0.95から先がやっと使える感じ。R=0.5なんて無相関と言い切ってしまいたい位のものです。R=0.5の散布図を見てご覧なさい。R=0の場合と幾らも違わない。それで推定したyはほとんどでたらめに近いんですよ。
 それでも「yをごくおおざっぱに知りたい。」という応用もないとは限らない。これだったらR=0.7程度でも無意味とまでは言えない。
 さらに、「個々の推定値がまるで間違っていても良いから、統計的に多少とも良い推定であれば可。」たとえば賭を繰り返す場合の有利な張り方の研究、みたいなもの。そういう時には、0.5でも0.05でも平均して勝率が少しでも上がるんだから、意味があるでしょう。

 なお、「xはyに多少とも影響を与えているのか?」という問いに答えるのが目的なら、「ホントはR=0のものが、ランダムなばらつきのせいで偶然R=0.5に見えているという可能性の確率」こそが極めて重要ですよね。相関係数そのものは、ついでに出してみましたみたいなもの。どうだって良い。
 同様に、「x,yのどっちが、zに対してより大きい影響を与えているのか」という場合、しかしそればかりかxとyの間にも相関がありうるので、多変量解析(因子分析)として扱うべきですね。その一部として相関係数が現れます。それだけ。

サンプル(x,y)の個数が10個でR=0.5というのと、サンプル数10000個でR=0.5というのでは、全然話が違いますよね。Rの値にどのぐらいの誤差があるかをチェックするのが検定です。最も簡単なのは、「ホントはR=0のものが、ランダムなばらつきのせいで偶然R=0.5に見えているという可能性の確率」を計算する検定。(Happy_Hackさんが仰ってるのはこのへんの話です。)

さて、サンプル数が十分多くて、それでもR=0.5だとします。あるいはR=0.7でもいいや。ともかくRの値はかなり正確であるとする。
その値がどういう...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング