統計初級者?ぐらいの者です。
基礎的な回帰、重回帰分析ぐらいまでならいちおう(クリック統計学レベルで…)理解しているのですが、いろいろと実作業をやっていて、わからなくなったので質問させていただきます。
さて、
調査の中身自体は全く違いますが、実際に次のような分布のデータがとれました。
--------------------------------
【取得できたデータの概要】
--------------------------------
家族の人数と、現在の生活に対する平均満足度に対するアンケートを5000人に行ったとして、
■A. 生活満足度×家族の人数の相関
まず、家族の人数と、生活満足度を、シンプルにピアソンの相関係数で測った場合、-0.16程度しか出てきませんでした。5000人で、-0.16であれば、弱い相関は確実にあり、p値も、0.001以下になりました。
ただ、調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。
■B. 平均生活満足度×家族の人数の相関
また、少しデータの見方を変えて、家族人数が1人の時、2人の時、でそれぞれ、生活満足度の平均をとってやったとします。(この場合の「平均」はシンプルに算術平均をとりました。)
1人の時の平均生活満足度:4.5 (n=1500)
2人の時:4.4 (n=1000)
3人の時:4.3 (n=1400)
4人の時:4.2 (n=600)
5人の時:4.1 (n=300)
6人の時:4.0 (n=200)
7人の時:3.9 (n=100)
というようなことが、わかりました。
このとき、
「平均生活満足度」と、「家族の人数」で、
相関をとればキレイに「-1」になるかと思います。
回帰曲線も、キレイな線が引けます。
----------------------------
【質問の本題】
----------------------------
質問の本題は、B.平均生活満足度×家族 の分析のほうになります。
B.の分析で、確かにキレイな数字は出てくるのですが、
こういった形で、分析をしてしまうと、
実際には、5000人のデータを取得しているにも関わらず、
300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。
それぞれのサンプル数が、500人いる場合とで、
サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、
この場合、どのような処理を行うのが適切なのでしょうか。
ご指導お願い出きましたら幸いです。
よろしくお願いいたします。
No.1ベストアンサー
- 回答日時:
> 実際には、5000人のデータを取得しているにも関わらず、
> 300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。
同じ平均が出てきたら、確かに同じ回帰曲線が得られるでしょうが、人数が多いなりの価値があります。
例えば、家族人数が一人のときの生活満足度の分布が平均がμ、分散がσ^2とします。
家族人数が一人の場合で5000人のデータが集まれば、平均生活満足度の分布の分散は(σ^2)/5000ですし、300人のデータなら(σ^2)/300です。
平均生活満足度の信頼性はそれだけ上がります。
(調査のコストに見合うかどうかは別にしてます)
> それぞれのサンプル数が、500人いる場合とで、
> サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、
> この場合、どのような処理を行うのが適切なのでしょうか。
サンプル数というよりサンプルサイズ(標本の大きさ)というべきですが、サンプルサイズが大きい場合は正規分布等に近似できることがありますので、その結果、検定方法が異なるように見えるだけです。
お礼遅くなりました。
非常によくわかりました。(そして、自分が何をわかっていなかったかがわかりました…!)
ありがとうございます。
No.3
- 回答日時:
以下は、回答でありません。
回答は、 ANo.1 さんや ANo.2 さんでほぼ完結していると思います。ただ、ご質問にいくつか気になることがあったので、突っ込ませてください。統計は、数学以上に常識的感覚が重要なので。なお、「調査の中身自体は全く違いますが」とあるので、本当は生活満足度と家族人数の調査でないのかもしれませんが、生活満足度と家族人数の話とします。調査の中身を抜きにして適切な分析手法を語るのは難しいです。
1 「調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。」について
この評価には、違和感があります。生活満足度を規定する要因は様々で、仮に家族人数が要因の1つだったとしても、説明力が小さいだろうということは、容易に想像されます。その前提で眺めると、相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。
なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。
2 分析手法について
「生活満足度と家族人数に関係があるか?」という問題意識ならば、回帰分析が普通の手法だと思います。説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。
また、回帰分析を行うにしても、直線的な関係でないかも知れないので、家族人数そのものを説明変数にするのでなく、家族人数2人、家族人数3人、家族人数4人以上のそれぞれに応じたダミー変数を説明変数にするのがよさそうです(多重共線を防ぐため家族人数1人に対応するダミー変数は使わない)。サンプルサイズが 5,000 もあるので、説明変数を 1 個から 3 個に増やしても、たいした支障はないでしょう。
3 Bのデータについて
このデータは、かなり怪しいです。こんな綺麗なデータなら、どんな検定方法を使っても、ほぼ確実に有意と判定されるでしょう。統計的に有意と判定される典型的なケースとして、次のものがあります。
(1) 生活満足度と家族人数に何らかの関係がある。
(2) 偶然性を壊す何らかの恣意的操作が行われた。
B については、 (2) が疑われます。「生活満足度」は具体的にどんな文言で質問したのか、それが定性的な回答を求めていたのならどのように数値化したのか、どんなサンプリングをしたのか、捏造はないか、等をチェックする必要がありそうです。
4 年齢等をコントロールする必要
チェックの上で生活満足度と家族人数に統計上の関係が確認されたとしても、因果関係があるなどという結論に飛びついてはいけません。一般に、生活満足度も家族人数も年齢と相関があることが知られています。最低限、年齢をコントロールした分析が望まれます(年齢も説明変数に加えるなど)。できれば、仕事、収入、資産、健康状況、配偶関係、居住地などもコントロールすべきでしょう。
統計に未熟な人間に対する、とても丁寧なコメントをいただき感謝です。
>調査の中身を抜きにして適切な分析手法を語るのは難しいです。
仰るとおりです。いろいろと、前提の話を変えてしまって申し訳ありません。
>相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。
なるほど。調査自体はまったく違うのですが、同じ内容の調査だとすれば、おっしゃられることはその通りだと感じました。
>なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。
申し訳ありません…
ただ、統計学び中の身分ですと、そもそも、「知りたいことが最もよく分かる」ための統計手法に何と何があるか、というバリエーションも十分理解できていない状況ですので、正攻法のバリエーションと、邪道な分析手法のいじり方の差もわかっていない段階です。
>説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。
ありがとうございます!
そうなんですね。勉強になります。
>それぞれに応じたダミー変数を説明変数にするのがよさそう
おお!ダミー変数ですか…!使ったことがないのですが、ダミー変数はよくよく考えて使わないと、それこそ、邪道っぽい感じがするのですが…、よくよく調べてやってみたいと思います!ありがとうございます。
>3 Bのデータについて
あー、これはわざわざツッコミをいただいてすみません。
話をわかりやすくするために、数値をやたらときれいにしてしまいました。
実際のデータは、きれいな右下がりのデータではあるのですが、もうちょっとバラけています。
サンプリングには、かなり気をつけて無作為抽出に近づけるようにしたのですが、それでもサンプリングバイアスがいくつか問題があることがわかり、どのぐらいサンプリングバイアスがきつくかかっているかどうかを、確認中です。
その上で…
>4 年齢等をコントロールする必要
なのですが、他にも説明変数を取得していますので、事後的になってしまいますがですが、統制群をつくって処理することができそうです。
というか、ご指摘をいただいて、そうだよな、本当にそのとおりだよな…と思いながら、再度、処理をしようと思えてきました。
ご指摘あらためて感謝です。
No.2
- 回答日時:
回帰分析がお分かりになるということなので、ならば、x=「家族の人数」、y=「生活満足度」として、5000個のデータを全部使って一次式
y = ax + b
による回帰分析をしてみて下さいな。(これならA, Bの区別は無用ですし、x=1の場合とx=7の場合のnの違いもきちんと織り込まれます。)そして、係数a, bが従う分布の分散を計算します。
次に、5000個あるデータのうちから50個をランダムに抽出して、同じことをやってみます。すると、サンプルが多いとaやbの分散が小さくなることが分かるでしょう。
いや、もっと簡単な例で考えるのが良いかな?
同じモノの重さをn回測定したデータt[j](j=1,2,…,n)があるとします。ただしt[j]は測定ごとに独立で、平均m, 標準偏差σの正規分布に従うものとします。0次式
t = c
を使って回帰分析をすると、もちろん
c = (tの平均値)
という答が出る訳ですが、このcがmに等しいわけではない。係数cも正規分布に従い、その分散は1/nに比例します。つまり、nが大きいほど、cの精度が高くなる訳です。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 加重最小二乗法=①「変数を自然対数変換」=②「誤差項の分散の逆数を重み付け」? 8 2022/11/26 11:15
- 統計学 統計解析 5 2022/04/22 09:19
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 政治 中国は一票の格差4倍で、日本は3倍ですが、それでも日本は民主主義国なら中国も同じですよね? 2 2023/03/16 04:52
- その他(学校・勉強) これなんて答えるんですか。小学校の算数ですかね? 変な()とか数字変じゃないですかね…。 問題1:( 5 2023/08/01 09:37
- 統計学 次の質問の答えが全くわかりません。 どれだと思いますか? 調理師試験 次の答えを教えて下さい 日本の 1 2022/07/10 19:32
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 心理学 満足度調査の回帰分析 0 2023/05/11 08:39
- 統計学 統計学の問題です よろしくお願いします 代表値 次の15件のデータについて,以下の問いに答えよ。 結 5 2023/01/31 23:35
- 統計学 統計学の質問【帰無仮説】 B大学の卒業生の平均年収について調査するため、100人の卒業生を無作為に選 1 2023/05/25 23:36
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
エクセルでのシグモイドのカー...
-
単変量解析から多変量解析時の...
-
回帰分析です
-
確率・重回帰分析
-
回帰分析って何ですか?
-
EXCELで線形自己回帰分析どこま...
-
ロジスティック回帰分析のモデ...
-
判別分析やってます。 説明変数...
-
回帰分析の論文の書き方につい...
-
大学の課題の提出に3分遅れてし...
-
課題で、ワードで2枚程度という...
-
経済学のレポートで扱いやすい論題
-
一般的に、遅れた課題をメール...
-
大学のレポートとか課題って生...
-
昇進論文のを書かないといけな...
-
レポート用紙に3から4枚書け、...
-
単位を懸けた重要なレポートの...
-
毎回授業に出て、レポートや課...
-
レポートの指定字数について
-
レポートで去年の自分のをコピ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
エクセルでのシグモイドのカー...
-
2変数のばらつき具合をはかる方...
-
単変量解析から多変量解析時の...
-
回帰分析って何ですか?
-
単回帰分析の結果(説明)の書き方
-
回帰分析で「有意な相関がある...
-
Excel 分析ツールの回帰分析の...
-
EXCELの分析ツールの標準残差とは
-
【統計 回帰分析 ダミー変数に...
-
ダミー変数だけによる重回帰分析
-
回帰分析の論文の書き方につい...
-
EXCELで線形自己回帰分析どこま...
-
SPSS17で二項ロジスティック回...
-
エクセルでの重回帰分析
-
ダミー変数について
-
エクセル統計での単変量解析の仕方
-
重相関係数R2と有意F値(p値)に...
-
ダミー変数の中心化について
-
【統計】テストの弁別力について
-
2変量の単調増加性の検定について
おすすめ情報